Адаптивная защита от генеративных фишинговых атак (LLM‑фишинг) с объединением текстовых и поведенческих признаков

Папоротный Никита Владимирович

Аннотация статьи

В статье рассматривается объединение богатых текстовых представлений с динамическими поведенческими индикаторами пользователя. Это включает в себя анализ лингвистических признаков, семантических эмбеддингов и метаданных заголовков сообщений, которые предоставляют всестороннюю информацию о содержании и источнике потенциальной угрозы. Данные текстовые признаки дополняются поведенческими сигналами, отражающими взаимодействие пользователя с электронными письмами и другими коммуникационными каналами. Интеграция этих разнородных данных осуществляется в рамках ансамблевой архитектуры, что позволяет использовать сильные стороны различных детекторов и компенсировать их индивидуальные недостатки. Для повышения робастности детекции к перефразированию и стратегиям контекстной мимикрии со стороны LLM-атак будут применены методы устойчивого обучения, включая adversarial training и механизмы онлайн-адаптации. Это позволит системе непрерывно совершенствоваться и эффективно противостоять эволюционирующим угрозам в реальном времени.

Текст статьи

Современная экспоненциальная эволюция генеративных языковых моделей (LLM) привела к появлению нового класса фишинговых угроз, отличающихся беспрецедентной изощренностью. Эти модели способны создавать высоко персонализированные и контекстно-адаптивные сообщения, которые мастерски имитируют стилистику известных брендов и эффективно обходят традиционные системы фильтрации. Данное обстоятельство существенно повышает вероятность успешной компрометации пользователей, ставя под сомнение адекватность существующих эвристик и правил детекции.

Анализ действующих антифишинговых методов выявляет системные ограничения, особенно в условиях динамично развивающегося ландшафта угроз. Текстоориентированные детекторы, хотя и эффективны против простых атак, испытывают значительные трудности при распознавании тонких семантических и стилистических изменений, характерных для LLM-генерируемого контента. Игнорирование поведенческого контекста взаимодействия пользователя с сообщением является еще одним критическим пробелом, который приводит к увеличению доли ложных срабатываний и пропускам реальных угроз. Эти фундаментальные пробелы и ограничения традиционных подходов мотивируют переход к мультимодальной детекции, которая способна сочетать в себе анализ как языковых, так и поведенческих сигналов. Такой интегрированный подход обещает значительно повысить точность и надежность систем обнаружения фишинга, обеспечивая более комплексную защиту от новых видов атак.

Фишинговые атаки прошли последовательную эволюцию: от шаблонных массовых рассылок и простых приёмов социальной инженерии к использованию статистических генераторов, нейросетевых моделей и в конечном счёте больших языковых моделей (LLM). LLM обеспечили повышенную лингвистическую естественность сообщений, более точную контекстную релевантность и масштабируемую персонализацию, что усилило способность атак имитировать реальные коммуникации. Эти качественные изменения снизили эффективность сигнатурных и эвристических фильтров и увеличили устойчивость атак к традиционным методам обнаружения. Описанная динамика подтверждает необходимость перехода к адаптивным защитным механизмам, которые учитывают более сложные текстовые признаки и поведенческие сигналы получателей.

Методы обхода фильтров включают техники семантического перефразирования и стилистической трансформации, применяемые для изменения поверхностных и лексических признаков сообщений. К adversarial‑модификациям (включая токенные и синтаксические перестановки) относят также инжекции инструкций в промпты и автоматизированное изменение ключевых маркеров, что снижает эффективность детектирования на основе правил. Дополнительно создаются тексты с целевыми статистическими свойствами, такими как n‑gram и embedding‑профили, для уменьшения обнаруживаемости сигнатурными и ML‑классификаторами.

Стратегии контекстной мимикрии опираются на агрегирование внешних и внутренних источников данных для формирования контекстных подсказок, направляющих генерацию более релевантного и персонализированного контента. Моделирование роли отправителя и стиля получателя вместе с динамической подстройкой тона и семантики под историю коммуникаций и актуальные события повышает правдоподобие сообщений. Синхронизация времени и каналов отправки дополнительно снижает подозрительность и увеличивает вероятность успешного обхода детекторов.

Современные антифишинговые решения преимущественно опираются на правила, сигнатуры и модели, ориентированные на лексико‑статистические признаки, что делает их чувствительными к перефразированию и стилистическим изменениям в сообщениях. Отсутствие масштабной интеграции поведенческих признаков и механизмов мультиканальной корреляции ограничивает способность таких систем учитывать контекст взаимодействия пользователя и выявлять согласованные аномалии в разных каналах коммуникации. Кроме того, многие подходы демонстрируют низкую устойчивость к целевым adversarial‑приёмам, поскольку детекторы не рассчитаны на адаптивные и направленные изменения генеративного контента. Механизмы быстрой адаптации при дрейфе распределений и появлении новых генеративных тактик либо отсутствуют, либо реализованы фрагментарно, что снижает эффективность обнаружения новых вариантов LLM‑атак в условиях быстро меняющегося ландшафта угроз.

Стратегия формирования датасета предполагает сбор репрезентативных образцов из реальных источников, включая сообщения электронной почты, пользовательские репорты и публичные репозитории, с отбором по критериям релевантности, полноты метаданных и наличия средств аутентификации отправителя. Процедуры отбора включают фильтрацию по наличию URL, признакам маскировки и временной релевантности, а также верификацию источника для минимизации ложных меток. Аннотация меток выполняется по заданной схеме (фишинг/легитимное, тактическая категория, степень уверенности) с использованием двойной разметки, процедуры арбитража и расчёта согласованности аннотаторов для контроля качества и обеспечения баланса классов методом стратифицированной выборки или повторной выборки редких категорий. «Для адекватного обучения и тестирования модели необходимо иметь данные, содержащие как легитимные, так и фишинговые URL [5, c. 3].

Генерация синтетических образцов базируется на контролируемом промптинге и инжиниринге шаблонов, включающем инструкции, ролевые подсказки и ограничения на формат выходных данных для получения разнообразных вариантов LLM‑фишинга. Вариативность достигается через парафразирование, замену сущностей, изменение стиля и многоканальную генерацию, что позволяет моделировать широкий спектр тактик и адаптаций атакующих. Управление артефактами генерации осуществляется фильтрацией явных галлюцинаций, применением ограничений декодирования и автоматизированной валидацией целостности ссылок и контактных данных, а также маркировкой синтетичности для последующего анализа влияния на обучение. Разделение набора на тренировочные, валидационные и тестовые подмножества выполняется с учётом предотвращения утечки по доменам и сессиям, а также с применением процедур деидентификации и замены чувствительной информации для обеспечения приватности данных.

Поверхностные лингвистические признаки включают длину сообщений, частотные распределения n‑грамм, пунктуационные и орфографические паттерны, а также распределения частей речи. Для количественной оценки применяются статистические метрики, такие как средняя и дисперсия длины предложений, энтропия распределений символов и токенов, а также тесты на значимые отличия частот n‑грамм между классами. Анализ этих признаков позволяет выделять характерные отличия LLM‑сгенерированного текста и формирует первичный сигнальный слой перед более глубоким семантическим анализом.

Семантические признаки опираются на представления текста в виде эмбеддингов, включая контекстные векторы из трансформеров и статические векторные представления. Измерения семантической несогласованности выполняются через вычисление внутритекстовых расстояний, кластеризацию семантических паттернов и оценку принадлежности к прототипным классам легитимного и фишингового контента. Расстояния до профильных классов и характеристики кластерной структуры используются в качестве признаков в классификационных конвейерах, что повышает обнаружение семантически аномальных или имитирующих шаблоны LLM сообщений.

Признаки генеративных артефактов и стилометрия включают показатели перплексии и вероятностей токенов, которые отражают согласованность модели с наблюдаемым текстом. Повторяемость формулировок, шаблонность связей предложений и метрики авторской обусловленности фиксируют характерные для генераторов паттерны построения высказываний. Комбинация перплексии, токенных вероятностей и стилометрических метрик повышает чувствительность детекторов к специфике LLM‑генерации и служит важной составляющей многослойной системы обнаружения.

Сигналы кликов и откликов включают временные характеристики кликов по ссылкам, в частности задержку между открытием сообщения и первым кликом, распределение интеркликовых интервалов и частоту повторных кликов. Также важны частота и последовательность действий с сообщением: открытия, переходы на внешние ресурсы, просмотры вложений и последовательности типа открытие→клик→подтверждение/отказ. Доля переходов на внешние ресурсы относительно числа открытий и соотношение подтверждений (ввод данных, подписки) к отказам служат метриками стимулируемого поведения, указывающими на успешность социальной инженерии. Аномальные паттерны, например быстрые клики с малой задержкой или необычно высокая конверсия переходов, рассматриваются как индикаторы подозрительной стимуляции и используются в ранних сигналах детекции.

Сессионные и контекстные поведенческие признаки охватывают длительность сессии и взаимодействия с элементами интерфейса, такими как hover и выделение текста, которые отражают глубину обработки сообщения. Повторные обращения к отправителю и частота вторичных взаимодействий позволяют оценить доверие и заинтересованность пользователя в контексте его обычного поведения. Агрегированные метрики поведения на уровне пользователя – средняя длительность сессии, типичные паттерны кликов и частота внешних переходов – служат базовыми профилями, против которых измеряются отклонения. Комбинация этих показателей обеспечивает контекстную оценку риска и дополняет текстовые признаки, что улучшает точность классификации в последующих этапах архитектуры ансамбля детекторов.

Многоуровневая архитектура ансамбля базируется на модульном извлечении признаков и на раздельной обработке текстовых и поведенческих сигналов при помощи специализированных детекторов. Для объединения результатов применяются различные стратегии слияния: ранняя агрегация признаков позволяет формировать общие векторные представления, поздняя агрегация комбинирует вероятностные оценки отдельных детекторов, а бустинг на уровне признаков укрепляет вклад наиболее информативных компонент через итеративное взвешивание. Калибровка выходных оценок детекторов и механизмы адаптивного перенастройки в потоке данных обеспечивают согласование шкал вероятностей и динамическую корректировку весов моделей при изменении характеристик LLM-генерируемого контента. Такое сочетание комплементарных текстовых и поведенческих признаков повышает устойчивость и адаптивность системы обнаружения фишинга по сравнению с мономодальными подходами и задаёт основу для последующей экспериментальной оценки эффективности.

Методология оценки описана через обоснованный выбор метрик качества – precision, recall, F1-score, ROC-AUC – с учётом протоколов вычисления для несбалансированных классов и процедур пороговой оптимизации для достижения компромисса между полнотой и точностью. Требования к тестовым сценариям включают вариативность стилей LLM-генерации, охват целевых доменов, моделирование различных уровней социальной инженерии и имитацию поведенческих паттернов пользователей, что позволяет оценивать модель в условиях, близких к реальным. Детализированы процедуры разбиения на обучающую, валидационную и тестовую выборки и описаны меры предотвращения утечек данных между наборами, обеспечивающие независимость и воспроизводимость результатов. Эти методологические решения направлены на получение надёжных, интерпретируемых и сопоставимых метрик производительности для оценки устойчивости мультимодальной системы обнаружения LLM-фишинга.

На синтетических датасетах оценивались три режима работы модели: использование только текстовых признаков, только поведенческих признаков и их мультимодальная интеграция. Для каждого режима были рассчитаны метрики precision, recall, F1 и ROC-AUC, что позволило количественно сравнить детекторы в контролируемой среде. Мультимодальная модель показала статистически значимый прирост F1 по сравнению с однорежимными методами, подтверждающий вклад объединения сигналов. Дополнительно выполнен анализ чувствительности, который выявил зависимость производительности от степени реалистичности LLM-генерации и от объема доступных поведенческих данных.

На реальных датасетах и в стресс-тестах оценивалась устойчивость и переносимость модели при наличии имитаций поведения и адаптивных атак. Были измерены изменения ключевых метрик при варьировании сценариев атак, а также выполнен разбор ошибок с классификацией типичных случаев false positives и false negatives. Анализ показал, что типичные ошибки связаны с краудсорсинговыми шаблонами сообщений и редкими поведенческими паттернами, что позволяет нацеленно корректировать признаки. На основе результатов предложены практические рекомендации по настройке признаков и порогов для повышения надежности детекции в полевых условиях.

Проведен сравнительный анализ предложенной мультимодальной архитектуры и базовых методов, включая лексико-эвристические фильтры, текстовые ML-классификаторы и поведенческие детекторы; в эксперименте отмечены относительные улучшения по метрикам F1 и ROC-AUC.

Методика оценки устойчивости модели включает формализацию наборов перефразировок и синтетических вариаций LLM-атак, создание контрольных корпусов с контролируемыми трансформациями текста и использование метрик изменения точности, полноты и AUC для количественной оценки деградации. В рамках подхода формируются уровни трансформаций с явным перечислением типов перефразирования и их параметризацией, что позволяет воспроизводимо генерировать тестовые последовательности. Контрольные корпуса включают как реальные примеры, так и синтетические варианты, сопоставимые по сложности и длине, для оценки переносимости детекторов. Измерение деградации выполняется через сравнительный анализ базовой и модифицированной производительности по точности, полноте и AUC при разных степенях трансформации.

Анализ результатов выявляет типы перефразирования и генеративных паттернов, наиболее критично снижающие детектирование, а также проверяет эффективность защитных мер (агументация признаков, ансамблирование, контрастивное обучение) в восстановлении производительности при новых вариантах атак. Наиболее существенное падение обнаружения наблюдается при комбинированных трансформациях, сочетающих лексические синонимизации и перестановки синтаксических конструкций, тогда как одиночные поверхностные изменения влияют менее критично. Эксперименты показывают, что агументация признаков улучшает устойчивость к лексическим сдвигам, ансамблирование компенсирует разнородность атакующих стратегий, а контрастивное обучение повышает разделимость представлений между легитимными и сгенерированными сообщениями. Совместное применение перечисленных мер восстанавливает большую часть исходной производительности и демонстрирует необходимость адаптивного сочетания подходов для противодействия новым вариантам LLM-атак.

Анализ продемонстрировал, что генеративные фишинговые атаки на базе крупных языковых моделей трансформируют ландшафт угроз: текстовая поверхность сообщений становится семантически корректной и персонализированной, что снижает эффективность традиционных текстоцентричных детекторов. На основании выявленных тактик обхода фильтров и стратегий контекстной мимикрии обоснована необходимость перехода от однородных эвристик к мультимодальным решениям. Такие решения должны учитывать не только сформулированный контент, но и контекст доставки и динамику поведения пользователя, чтобы существенным образом снизить и ложные срабатывания, и пропуски реальных угроз.

Разработка гибридного датасета, объединяющего реальные и контролируемо синтетические образцы вместе с метаданными доставки и последовательностями пользовательских действий, обеспечила основу для устойчивых признаковых представлений. Комбинация лингвистических маркеров и семантических эмбеддингов дополняется поведенческими сигналами, формируя более репрезентативное и информативное пространство признаков. Такое представление оказалось чувствительным к тонким паттернам мимикрии при одновременной устойчивости к шуму, присутствующему в естественных данных.

Список литературы

Антропова Е.М., Конкин Н.А. Выбор ансамблевых моделей машинного обучения для прогнозирования полосы когерентности трансионосферных каналов связи // Всероссийская открытая научная конференция «Современные проблемы дистанционного зондирования, радиолокации, распространения и дифракции волн». – Муром, 2023. – С. 275-283.
Бурлаков М.Е., Ивкин А.Н. Система обнаружения вторжения на основе искусственной иммунной системы // Вестник пнипу. Электротехника, информационные технологии, системы управления. – 2019. – № 29. – С. 209-213.
Котенко И.В., Саенко И.Б., Лаута О.С. и др. Атаки и методы защиты в системах машинного обучения: анализ современных исследований // Вопросы кибербезопасности. – 2024. – № 1. – С. 24-37.
Кугаевских А.В., Муромцев Д.И., Кирсанова О.В. Классические методы машинного обучения. – Санкт-Петербург: Университет ИТМО, 2022. – 53 с.
Лукманова К.А., Картак В.М. Разработка системы защиты от фишинговых атак с использованием программно-аппаратной реализации методов машинного обучения // Моделирование, оптимизация и информационные технологии. – 2024. – № 4. – С. 1-8.
Лунев К.И. Особенности применения машинного обучения для классификации текстовых документов // Научные записки НГУЭУ. – 2020. – № 2. – С. 29-32.
Мадияров К.Г. Оценка точности и производительности моделей машинного обучения для прогнозирования оттока клиентов страховой компании // Моделирование, оптимизация и информационные технологии. – 2025. – № 4. – С. 1-15.
Мусаев А.А., Григорьев Д.А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. – 2021. – № 6. – С. 1291-1315.
Сазонов Г.В., Лукьянов К.С., Мелешин И.Н. Дилемма защитника: совместимы ли методы защиты от разных атак на модели машинного обучения? // Труды ИСП РАН. – Москва, 2024. – С. 109-126.
Усатова О.А., Батырханова А.А. Формирование будущего информационной безопасности в информационном бизнесе // Proceedings of the 7th international scientific and practical conference «International scientific discussion: Problems, tasks and prospects». – Brighton, 2023. – С. 342-346.

Адаптивная защита от генеративных фишинговых атак (LLM‑фишинг) с объединением текстовых и поведенческих признаков

Цитирование

Похожие статьи

Другие статьи из раздела «Технические науки»