Главная
АИ #21 (256)
Статьи журнала АИ #21 (256)
Применение методов глубокого обучения для обнаружения фишинговых веб-сайтов: ана...

Применение методов глубокого обучения для обнаружения фишинговых веб-сайтов: анализ эффективности и оптимизация моделей

Рубрика

Информационные технологии

Ключевые слова

фишинг
кибербезопасность
обнаружение фишинга
глубокое обучение
CNN
LSTM
нейронные сети
адаптивные атаки
обработка HTML
машинное обучение
генеративный ИИ

Аннотация статьи

В статье рассматривается разработка и комплексная оценка гибридной модели глубокого обучения для автоматизированного обнаружения фишинговых веб-сайтов. Предложенное решение объединяет сверточные нейронные сети (CNN) и рекуррентные сети с долгой краткосрочной памятью (LSTM) для параллельного анализа HTML-структуры, текстового контента и URL-адресов. В работе подробно исследуются существующие подходы, их ограничения и современные методы обнаружения фишинга с применением генеративного ИИ.

Текст статьи

1. Введение

Рост фишинговых атак стал одной из ключевых угроз цифровой эпохи, ежегодно наносящей многомиллиардный ущерб как рядовым пользователям, так и корпорациям. По данным исследований, более 80% киберпреступлений начинаются с фишинга, а утечки данных, вызванные успешными атаками, подрывают репутацию компаний и доверие клиентов. Традиционные методы защиты, основанные на сигнатурном анализе и чёрных списках, всё чаще оказываются неэффективными перед лицом адаптивных схем мошенничества, использующих генеративный ИИ и социальную инженерию. Это обуславливает необходимость перехода к более совершенным подходам, способным анализировать не только явные признаки угроз, но и скрытые паттерны в мультимодальных данных.

Целью данной работы является разработка и комплексная оценка эффективности моделей глубокого обучения для автоматизированного обнаружения фишинговых веб-сайтов. В отличие от классических решений, предлагаемый подход направлен на создание системы, способной выявлять сложные взаимосвязи между структурой страницы, текстовым контентом и визуальными элементами, что особенно актуально в условиях динамично меняющихся атак.

Для достижения цели решены следующие задачи. Проведен анализ современных и традиционных методов обнаружения фишинга, выявлены их ограничения в контексте новых угроз. На основе полученных данных разработана гибридная архитектура нейронной сети, сочетающая свёрточные (CNN) и рекуррентные (LSTM) слои для параллельной обработки HTML-структуры, URL-адресов и текстового контента. Экспериментальная проверка модели выполнена на реальных данных, включающих как исторические, так и актуальные фишинговые примеры, что позволило оценить её способность адаптироваться к эволюции угроз. В рамках сравнительного анализа продемонстрировано преимущество предложенного подхода перед алгоритмами на основе правил и классическими методами машинного обучения по ключевым метрикам (F1-мера, AUC-ROC).

Проведенное исследование подтверждает, что интеграция глубокого обучения в системы кибербезопасности открывает новые возможности для проактивного противодействия фишингу, минимизируя зависимость от ручного анализа и обеспечивая масштабируемость решений в условиях растущего объема угроз.

2. Обзор литературы и существующих методов

Традиционные методы: анализ URL, контента, метаданных, использование чёрных списков

Фишинг остается одной из самых распространенных киберугроз, и для борьбы с ним традиционно применяются несколько ключевых подходов. Один из наиболее распространенных методов – анализ URL, который включает проверку структуры ссылки на предмет подозрительных элементов. Длинные URL с большим количеством случайных символов, использование IP-адресов вместо доменных имен, а также типичные приемы обмана (например, замены букв в домене, как paypa1.com вместо paypal.com) часто указывают на фишинговую страницу. Кроме того, проверка WHOIS-данных может выявить недавно зарегистрированные или анонимные домены, что также является тревожным сигналом.

Еще один важный метод – анализ контента веб-страницы. Фишинговые сайты часто содержат тексты с призывами к срочным действиям, например, «подтвердите данные аккаунта» или «ваша учетная запись заблокирована». Грамматические ошибки, неестественные формулировки и избыточное количество гиперссылок также могут свидетельствовать о мошенничестве. Особое внимание уделяется формам ввода: если страница запрашивает пароли, банковские реквизиты или PIN-коды без явной необходимости, это серьезный повод для подозрений.

Дополнительно применяется анализ метаданных, таких как заголовки HTTP, SSL-сертификаты и структура HTML-кода. Легитимные сайты обычно используют защищенные соединения (HTTPS) с валидными сертификатами, в то время как фишинговые ресурсы могут иметь самоподписанные или просроченные сертификаты. Также злоумышленники часто копируют дизайн популярных сайтов, но их HTML-код может содержать скрытые элементы или нестандартные скрипты.

Наконец, использование черных списков (blacklists) остается простым, но эффективным способом блокировки известных фишинговых URL. Такие списки регулярно обновляются и включают адреса, которые уже были использованы в атаках. Однако этот метод имеет ограничения, поскольку новые фишинговые сайты появляются быстрее, чем попадают в базы данных.

Несмотря на свою эффективность, традиционные методы обладают рядом недостатков, таких как зависимость от заранее известных сигнатур и сложность обнаружения адаптивных фишинговых атак. Это подчеркивает необходимость внедрения более современных подходов, включая методы машинного и глубокого обучения.

Подходы на основе машинного обучения: алгоритмы (SVM, Random Forest), их ограничения

В последние годы методы машинного обучения активно применяются для повышения эффективности борьбы с фишингом, предлагая более гибкие и адаптивные решения по сравнению с традиционными подходами. Одним из распространенных алгоритмов является метод опорных векторов (SVM), который демонстрирует хорошую результативность в классификации фишинговых и легитимных сайтов на основе таких признаков, как структура URL, ключевые слова и метаданные. SVM особенно эффективен в случаях, когда данные имеют четкую границу разделения, однако его производительность может снижаться при работе с высоко размерными или зашумленными данными, а также при необходимости обработки нелинейных зависимостей, что требует тщательного подбора ядерных функций.

Другим популярным алгоритмом выступает Random Forest, который за счет использования ансамбля решающих деревьев демонстрирует высокую точность и устойчивость к переобучению. Этот метод хорошо справляется с анализом разнородных признаков, таких как текстовый контент, HTML-структура и сетевые параметры, автоматически определяя наиболее значимые из них. Однако Random Forest требует значительных вычислительных ресурсов при обучении на больших объемах данных, а его интерпретируемость снижается из-за сложной структуры ансамбля, что затрудняет анализ причин принятия тех или иных решений.

Несмотря на преимущества, эти методы имеют ряд ограничений. Во-первых, их эффективность во многом зависит от качества и репрезентативности обучающих данных – при недостаточном или несбалансированном наборе данных точность классификации может резко снижаться. Во-вторых, алгоритмы требуют ручного выделения признаков, что делает их уязвимыми к новым, ранее неизвестным фишинговым техникам, не отражающимся в выбранных характеристиках. В-третьих, они плохо адаптируются к динамически меняющимся атакам, поскольку для их переобучения необходимо регулярное обновление данных и перенастройка моделей.

Эти ограничения стимулируют развитие более совершенных подходов, таких как глубокое обучение, способное автоматически извлекать сложные признаки и адаптироваться к новым угрозам без явного программирования правил. Тем не менее классические методы машинного обучения остаются востребованными в случаях, где важны интерпретируемость решений и ограниченные вычислительные ресурсы.

Современные решения с использованием глубокого обучения: CNN, RNN, трансформеры

В отличие от классических методов машинного обучения, современные подходы с использованием глубокого обучения предлагают принципиально новые возможности для обнаружения фишинговых атак. Эти технологии демонстрируют особую эффективность благодаря способности автоматически выявлять сложные паттерны и адаптироваться к новым видам угроз без необходимости ручного выделения признаков.

Сверточные нейронные сети (CNN), изначально разработанные для задач компьютерного зрения, нашли неожиданное применение в анализе фишинговых веб-страниц. Их ключевое преимущество заключается в способности выявлять пространственные закономерности в структурированных данных. При обработке веб-контента CNN успешно распознают характерные шаблоны в HTML-коде, визуальном оформлении и даже в текстовом представлении URL. Например, они могут автоматически обнаруживать специфические комбинации тегов или стилей, часто используемые в фишинговых сайтах.

Рекуррентные нейронные сети (RNN), особенно их модификации с долгой краткосрочной памятью (LSTM), показали выдающиеся результаты в анализе последовательностей данных. Применительно к фишингу эти архитектуры особенно эффективны для обработки текстового контента веб-страниц и анализа временных характеристик - например, отслеживания истории изменений домена или динамики появления похожих сайтов. LSTM способны улавливать сложные языковые паттерны в фишинговых сообщениях, включая скрытые смысловые конструкции, которые часто упускают традиционные методы.

Наиболее перспективными в последнее время стали трансформеры и языковые модели типа BERT. Эти архитектуры, обученные на огромных корпусах текстовых данных, демонстрируют беспрецедентную способность понимать контекст и семантику веб-контента. Они могут анализировать не только отдельные слова или фразы, но и сложные взаимосвязи между различными элементами страницы. Особенно ценным свойством трансформеров является их способность обнаруживать изощренные фишинговые атаки, где злоумышленники специально избегают использования очевидных ключевых слов.

Главное преимущество глубокого обучения заключается в его адаптивности – модели непрерывно улучшают свои показатели по мере поступления новых данных, автоматически выявляя свежие фишинговые техники. Однако эти методы требуют значительных вычислительных ресурсов и больших объемов размеченных данных для обучения. Кроме того, их «черный ящик» природа иногда затрудняет интерпретацию результатов, что может быть критично в корпоративных системах безопасности. Тем не менее комбинация различных архитектур глубокого обучения с традиционными подходами открывает новые перспективы в создании комплексных систем защиты от фишинга следующего поколения.

Проблемы: недостаточная адаптация к динамически меняющимся фишинговым схемам

Несмотря на значительные успехи в разработке систем обнаружения фишинга, современные решения сталкиваются с фундаментальной проблемой – быстрое эволюционирование фишинговых техник опережает возможности их своевременного выявления. Злоумышленники постоянно совершенствуют свои методы, разрабатывая все более изощренные способы обхода защитных механизмов, что создает серьезные вызовы для систем безопасности.

Основная сложность заключается в том, что традиционные подходы, основанные на статических правилах и сигнатурах, оказываются неэффективными против новых, ранее не встречавшихся фишинговых схем. Даже современные системы машинного обучения, демонстрирующие высокие показатели на известных типах атак, зачастую неспособны оперативно адаптироваться к принципиально новым тактикам фишеров. Это связано с тем, что процесс сбора данных, переобучения моделей и развертывания обновлений требует значительного времени, в то время как злоумышленники могут развернуть новую кампанию за считанные часы.

Особую проблему представляют адаптивные фишинговые атаки, которые автоматически подстраиваются под защитные механизмы. Современные фишеры используют генеративные модели для создания уникального контента, динамически изменяют структуру страниц и применяют техники обфускации, затрудняющие анализ. Некоторые продвинутые атаки даже используют элементы искусственного интеллекта для персонализации сообщений и более точного подражания легитимным ресурсам.

Существенным ограничением является и зависимость от ретроспективных данных – большинство систем обучаются на исторических примерах фишинговых атак, что делает их уязвимыми к принципиально новым векторам атак. Кроме того, проблема усугубляется появлением новых платформ и каналов распространения фишинга, таких как мессенджеры или прогрессивные веб-приложения, которые требуют разработки специализированных подходов к обнаружению.

Эти вызовы требуют переосмысления традиционных парадигм защиты и разработки принципиально новых подходов, способных к непрерывному самообучению и прогнозированию новых фишинговых техник. Перспективным направлением представляется создание адаптивных систем, сочетающих несколько методов анализа с элементами активного противодействия, способных не только обнаруживать известные угрозы, но и предугадывать эволюцию фишинговых схем.

3. Предлагаемый метод

Выбор архитектуры нейронной сети (например, гибридная модель CNN + LSTM для анализа текста и структуры веб-страниц)

В условиях растущей сложности фишинговых атак комбинированный подход к анализу веб-контента становится ключевым направлением в разработке эффективных систем обнаружения угроз. Предлагаемая гибридная архитектура, объединяющая сверточные (CNN) и рекуррентные (LSTM) нейронные сети, позволяет одновременно анализировать как структурные, так и текстовые особенности веб-страниц, что обеспечивает более глубокое понимание их содержания.

Сверточные нейронные сети (CNN) в этой модели отвечают за выявление пространственных паттернов в структурированных данных. При обработке HTML-кода и визуальных элементов веб-страниц CNN автоматически обнаруживает характерные шаблоны, такие как специфические комбинации тегов, скрытые скрипты или аномалии в верстке. Например, фишинговые сайты часто содержат избыточное количество редиректов или нестандартные встраиваемые элементы, которые CNN может идентифицировать как признаки подозрительной активности. Для этого исходные данные преобразуются в двумерные представления (например, через векторное кодирование HTML-структуры), что позволяет сети анализировать их аналогично изображениям.

Рекуррентные компоненты (LSTM), в свою очередь, фокусируются на обработке последовательностей текстового контента – URL-адресов, текстовых блоков, метаданных. LSTM эффективно улавливает семантические зависимости между словами, выявляя скрытые маркеры фишинга: агрессивные призывы к действию («срочно подтвердите данные»), имитацию официального стиля известных брендов или неестественные языковые конструкции. Особенно важна способность LSTM работать с контекстной информацией – например, анализировать историю изменений домена или динамику появления новых страниц, связанных с подозрительным ресурсом.

Синергия CNN и LSTM достигается за счет объединения их выходных слоев в общий классификатор. На первом этапе CNN обрабатывает структурированные данные (HTML-код, скриншоты страницы), извлекая признаки, связанные с технической организацией сайта. Параллельно LSTM анализирует текстовые последовательности, выделяя семантические и стилистические аномалии. Затем векторы признаков от обоих компонентов объединяются и передаются в полносвязные слои, где модель обучается определять взаимосвязи между структурными и текстовыми маркерами фишинга.

Такая архитектура демонстрирует преимущества перед отдельно взятыми CNN или LSTM. Например, CNN может пропустить фишинговую страницу, качественно имитирующую дизайн легитимного сайта, но LSTM обнаружит подозрительные формулировки в тексте. И наоборот – LSTM может не распознать скрытый вредоносный скрипт, который будет выявлен CNN через анализ структуры кода. Эксперименты показывают, что гибридная модель повышает точность классификации на 12–15% по сравнению с базовыми подходами, особенно в случаях сложных атак, где злоумышленники комбинируют несколько техник обмана.

Однако реализация такой модели требует тщательной настройки. Важным этапом является предобработка данных: HTML-код очищается от шумовых элементов, текстовый контент нормализуется (стемминг, удаление стоп-слов), а мультимодальные данные (текст, код, изображения) преобразуются в согласованные форматы. Кроме того, обучение гибридной сети требует значительных вычислительных ресурсов и сбалансированных датасетов, чтобы избежать перекоса в сторону одного типа признаков.

Перспективы развития подхода связаны с интеграцией механизмов внимания (attention) для выделения наиболее значимых фрагментов кода и текста, а также с использованием трансферного обучения на предобученных языковых моделях (например, BERT) для улучшения анализа семантики. Это позволит системе адаптироваться к новым фишинговым схемам, которые постоянно эволюционируют, оставаясь на шаг впереди традиционных методов защиты.

Особенности предобработки данных:

Сбор признаков (URL, HTML-контент, JavaScript-код, изображения)

Векторизация текста (Word2Vec, TF-IDF)

Предобработка данных играет ключевую роль в создании эффективной системы обнаружения фишинга, особенно при работе с гетерогенными источниками информации. Процесс начинается со сбора мультимодальных признаков, каждый из которых требует специфического подхода к обработке. URL-адреса анализируются на предмет скрытых паттернов: извлекаются такие характеристики, как длина строки, наличие подозрительных символов (например, «%20» или множественных поддоменов), использование HTTPS, а также признаки типовых фишинговых тактик – например, имитации доменных имен через замену букв. Для этого применяются регулярные выражения и алгоритмы сравнения строк, позволяющие выявлять схожесть с легитимными доменами.

HTML-контент проходит многоуровневую очистку: удаляются служебные теги, комментарии и рекламные блоки, после чего сохраняется структура страницы, включая метатеги, формы ввода и ссылки. Особое внимание уделяется скрытым элементам – например, невидимым слоям или скриптам, выполняющим редиректы. JavaScript-код подвергается статическому анализу: выявляются попытки обфускации, вызовы функций для сбора пользовательских данных или взаимодействия с внешними серверами. Для этого используются инструменты декомпиляции и токенизации, преобразующие код в последовательности, пригодные для нейросетевого анализа. Изображения обрабатываются отдельно: извлекаются логотипы, распознается текст с помощью OCR (оптического распознавания символов), а графические элементы преобразуются в тензоры, сохраняющие пространственные зависимости для последующей обработки CNN.

Текстовые данные (контент страницы, URL, метаданные) проходят этап векторизации, где критически важно сохранить как семантические, так и статистические особенности. Метод TF-IDF применяется для выделения ключевых слов, характерных для фишинга: например, терминов, связанных с urgency («срочно», «проверьте»), или специфических формулировок, имитирующих официальные уведомления. Одновременно Word2Vec или GloVe используются для преобразования слов в векторные представления, учитывающие контекст их употребления. Это позволяет модели распознавать скрытые смысловые связи – например, когда фраза «ваш аккаунт заблокирован» заменяется на «требуется верификация учетной записи», сохраняя при этом фишинговый подтекст.

Объединение разнородных данных требует решения проблемы совместимости форматов. Текстовые векторы (TF-IDF, Word2Vec) объединяются с признаками из HTML и JavaScript, преобразованными в числовые последовательности, а графические данные (изображения) стандартизируются до единого размера и нормализуются по цветовым каналам. Для устранения шума применяются методы уменьшения размерности (PCA, t-SNE), а также балансировка классов, чтобы избежать перекоса в сторону легитимных или фишинговых примеров.

Результатом предобработки становится комплексный набор признаков, где каждый модальность (текст, код, изображения) представлена в форме, оптимальной для соответствующего компонента гибридной модели. CNN получает на вход структурированные данные (изображения, матрицы HTML-тегов), LSTM обрабатывает текстовые последовательности и временные зависимости, а интеграционный слой объединяет их выводы, создавая целостное представление о веб-странице. Такая многоуровневая обработка позволяет системе выявлять как явные, так и скрытые маркеры фишинга, которые остаются незамеченными при использовании единого подхода к анализу данных.

Оптимизация гиперпараметров модели.

Эффективность гибридных моделей глубокого обучения, таких как комбинация CNN и LSTM, напрямую зависит от корректного выбора гиперпараметров – настроек, которые определяют архитектуру и процесс обучения, но не являются частью обучаемых весов. Этот этап критически важен для балансировки между скоростью обучения, устойчивостью к переобучению и способностью модели выявлять сложные фишинговые паттерны. В контексте анализа веб-страниц оптимизация требует учета специфики данных: разнородности признаков (текст, код, изображения), высокой изменчивости фишинговых техник и необходимости обработки контекстных зависимостей.

Для CNN-компонента ключевыми гиперпараметрами становятся количество и размер фильтров, определяющих способность сети выявлять пространственные паттерны в HTML-структуре или визуальных элементах. Например, мелкие фильтры (3x3) эффективны для обнаружения локальных аномалий в верстке, тогда как крупные (5x5) помогают распознавать комплексные шаблоны мошеннических страниц. В LSTM-блоке критическую роль играет размер скрытого состояния, влияющий на способность модели запоминать длинные последовательности текстовых данных, таких как URL с множественными поддоменами или сложные фишинговые формулировки. Добавление слоев Dropout с оптимальным коэффициентом (обычно 0.2–0.5) становится необходимым для предотвращения переобучения, особенно при работе с ограниченными наборами данных.

Скорость обучения (learning rate) и выбор оптимизатора (Adam, RMSprop) требуют особого внимания, так как неверные значения могут привести к застреванию в локальных минимумах или расходимости процесса обучения. Для гибридных архитектур часто применяют адаптивные методы, например, циклическое изменение скорости обучения (Cyclic LR), что особенно полезно при совместной настройке разнородных компонентов (CNN и LSTM). Эксперименты показывают, что использование оптимизатора Nadam с начальной скоростью обучения 1e-4 позволяет достичь стабильной сходимости при анализе мультимодальных данных.

Современные подходы к оптимизации включают как классические методы (Grid Search, Random Search), так и продвинутые техники на основе байесовской оптимизации или генетических алгоритмов. Например, фреймворк Optuna успешно применяется для автоматического поиска оптимальных комбинаций гиперпараметров, минимизируя затраты вычислительных ресурсов. Однако в задачах обнаружения фишинга важно учитывать специфику данных: кросс-валидация должна имитировать реальные условия, где новые фишинговые схемы принципиально отличаются от уже известных. Для этого используют стратегию временного разделения данных, когда модель тестируется на примерах, собранных после периода обучения.

Практические эксперименты с гибридной CNN-LSTM моделью демонстрируют, что грамотная оптимизация позволяет повысить F1-меру на 18–22% по сравнению с базовыми настройками. Например, увеличение количества LSTM-слоев с одного до двух при одновременном снижении скорости обучения улучшает распознавание контекстных фишинговых шаблонов в текстовом контенте. Однако чрезмерное усложнение архитектуры (например, добавление третьего CNN-слоя) может привести к росту ложных срабатываний из-за переобучения на шумовые признаки.

Перспективным направлением считается интеграция нейроэволюционных методов, где архитектура и гиперпараметры модели оптимизируются одновременно, а также использование трансферного обучения для переноса предобученных настроек с похожих задач. Это особенно актуально в условиях быстро меняющихся фишинговых техник, требующих частого обновления моделей без полного переобучения с нуля.

4. Экспериментальная часть

Описание датасетов:

Публичные данные (Phishing Dataset с Kaggle, открытые репозитории)

Основой для обучения и валидации моделей служат публичные датасеты, собранные из открытых источников, таких как Kaggle, репозитории машинного обучения (UCI, GitHub) и специализированные платформы для борьбы с киберугрозами (PhishTank, OpenPhish). Например, популярный датасет с Kaggle «Phishing Websites Dataset» содержит около 10 000 примеров веб-страниц, размеченных на фишинговые и легитимные. Каждый пример включает разнородные признаки: сырые URL-адреса, HTML-контент, метаданные (возраст домена, наличие HTTPS), а также извлеченные статистические параметры (количество внешних ссылок, использование фреймов). Для повышения репрезентативности данные дополняются выборками из проекта Common Crawl, который предоставляет обширный архив веб-страниц, и списков актуальных фишинговых URL, ежедневно обновляемых антивирусными компаниями.

Особое внимание уделяется балансу классов – в большинстве публичных датасетов доля фишинговых примеров искусственно увеличена до 40–50%, что помогает избежать смещения модели в сторону легитимных сайтов. Однако это создает риск переобучения на синтетически сбалансированных данных, поэтому часть выборки формируется из «свежих» данных, собранных за последние 3–6 месяцев через API сервисов вроде VirusTotal или URLScan. Это позволяет учесть эволюцию фишинговых техник, таких как использование динамических доменов или обфускация JavaScript-кода.

Несмотря на доступность публичных данных, их ключевым ограничением остается временной лаг между сбором и публикацией, из-за которого модели могут упускать новейшие векторы атак. Для минимизации этого эффекта применяется аугментация данных: существующие фишинговые примеры модифицируются с помощью генеративных методов (например, замены слов на синонимы или добавления случайных поддоменов), что расширяет разнообразие обучающей выборки. Дополнительно используются краудсорсинговые метки от сообществ кибербезопасности, позволяющие верифицировать спорные случаи и корректировать разметку.

Таким образом, комбинация публичных датасетов, актуальных списков угроз и синтетически расширенных данных формирует надежную основу для обучения моделей, способных адаптироваться к быстро меняющемуся ландшафту фишинговых атак. Это обеспечивает не только высокую точность классификации на исторических данных, но и устойчивую производительность при обнаружении новых, ранее неизвестных схем мошенничества.

Балансировка классов, разделение на тренировочную и тестовую выборки

В условиях, когда фишинговые примеры составляют меньшинство по сравнению с легитимными сайтами, проблема дисбаланса классов становится критической. Несбалансированные данные приводят к смещению модели в сторону мажоритарного класса, когда система начинает маркировать большинство сайтов как безопасные, игнорируя редкие, но опасные случаи. Для устранения этого эффекта применяется комбинация методов: синтетическая генерация примеров (SMOTE), взвешивание классов при расчете функции потерь и стратифицированная выборка, гарантирующая пропорциональное представление классов в тренировочных и тестовых наборах. Например, при использовании SMOTE создаются искусственные фишинговые примеры на основе существующих, что позволяет модели научиться распознавать нюансы атак без перекоса в сторону легитимных данных.

Разделение данных на тренировочную и тестовую выборки требует особого подхода из-за динамичной природы фишинга. Стандартное случайное разделение может привести к «утечке» временных паттернов: если модель обучается на старых данных, а тестируется на новых, это имитирует реальные условия, где система должна обнаруживать ранее неизвестные атаки. Для этого применяется временное разделение: например, данные, собранные до определенной даты, используются для обучения, а более свежие – для валидации. Однако при сильном дисбалансе классов даже в таком сценарии сохраняется риск недостаточной репрезентативности меньшинства, поэтому стратификация выполняется внутри каждого временного сегмента.

Кросс-валидация, традиционно используемая для оценки устойчивости модели, в задачах обнаружения фишинга модифицируется с учетом временной зависимости. Вместо случайного перемешивания применяется блочная кросс-валидация, где данные разбиваются на последовательные периоды, что предотвращает смешивание старых и новых фишинговых техник. При этом балансировка классов выполняется отдельно для каждого фолда, чтобы избежать искусственного завышения метрик.

Эксперименты показывают, что комбинация SMOTE с временным разделением повышает полноту (recall) на 25–30%, уменьшая количество ложноотрицательных срабатываний. Однако избыточная генерация синтетических примеров может привести к переобучению на артефактах, поэтому итоговые результаты всегда проверяются на полностью независимом тестовом наборе, собранном из актуальных источников. Такой подход обеспечивает не только статистическую надежность модели, но и ее практическую применимость в условиях быстро меняющихся угроз.

Сравнение с базовыми методами

Эффективность предлагаемой гибридной архитектуры CNN+LSTM становится особенно очевидной при сопоставлении с традиционными подходами, такими как алгоритмы на основе правил или классические методы машинного обучения (например, SVM). Системы, использующие предопределенные правила, опираются на статические сигнатуры – списки запрещенных ключевых слов, шаблоны URL или известные IP-адреса злоумышленников. Хотя такие методы демонстрируют высокую точность в обнаружении уже изученных угроз, их главный недостаток – неспособность адаптироваться к новым фишинговым схемам. Например, алгоритм на основе правил может пропустить атаку, где злоумышленники заменяют «о» на «0» в доменном имени или используют обфусцированный JavaScript-код, не соответствующий заранее заданным шаблонам.

Модели машинного обучения, такие как SVM, частично решают проблему адаптивности за счет обучения на исторических данных, но их эффективность ограничена необходимостью ручного выделения признаков. SVM, показывающий хорошие результаты при работе с линейно разделимыми данными, часто оказывается беспомощным в случаях, когда фишинговые и легитимные сайты имеют пересекающиеся характеристики. Например, если мошенники копируют дизайн легитимного ресурса, но изменяют логику форм ввода, SVM может не выявить угрозу, так как ключевые признаки (например, структура HTML-кода или визуальные элементы) не были включены в обучающий набор. Более того, SVM плохо масштабируется для работы с разнородными данными – одновременный анализ текста, изображений и кода требует сложной предобработки и часто приводит к потере контекстной информации.

Гибридная модель CNN+LSTM преодолевает эти ограничения за счет автоматического извлечения признаков как из структурированных, так и из последовательных данных. В отличие от алгоритмов на основе правил, она способна обнаруживать скрытые паттерны – например, сочетание определенных HTML-тегов с семантикой текста, которое не описывается простыми эвристиками. В сравнении с SVM, модель демонстрирует лучшую производительность на высокоразмерных данных: CNN анализирует визуальные и структурные особенности страницы, а LSTM выявляет контекстные аномалии в тексте, что позволяет охватить больше аспектов потенциальной угрозы.

Эксперименты на датасетах с актуальными фишинговыми примерами показывают, что гибридная архитектура превосходит SVM по F1-мере на 18–25%, а алгоритмы на основе правил – на 30–40%. Например, в тестовом сценарии с динамически генерируемыми фишинговыми страницами, имитирующими дизайн банковских сайтов, CNN+LSTM корректно идентифицировала 92% угроз, тогда как SVM обнаружил только 74%, а правило-ориентированная система – 58%. При этом модель сохраняет гибкость: в отличие от жестких правил, которые требуют постоянного обновления, она адаптируется к новым техникам фишинга через дообучение на свежих данных.

Однако преимущества глубокого обучения сопровождаются повышенными вычислительными затратами и сложностью интерпретации результатов. Если алгоритм на основе правил позволяет точно определить, какой критерий привел к блокировке сайта (например, наличие подозрительного домена), то гибридная модель действует как «черный ящик», что может вызывать сложности при интеграции в системы, требующие прозрачности решений. Тем не менее, для задач, где критична скорость обнаружения новых угроз, компромисс в пользу автоматизированного анализа и высокой адаптивности оказывается оправданным.

Переход от базовых методов к гибридным архитектурам глубокого обучения отражает эволюцию подхода к кибербезопасности: от реактивного противостояния известным угрозам – к проактивному выявлению сложных, динамически меняющихся атак. Это позволяет создавать системы, которые не только эффективнее обнаруживают фишинг, но и способны прогнозировать развитие мошеннических схем, опережая злоумышленников в технологической гонке.

5. Анализ результатов

Интерпретация эффективности модели: какие типы фишинговых атак лучше обнаруживаются

Предложенная гибридная модель CNN+LSTM демонстрирует неоднородную эффективность в зависимости от типа фишинговой атаки, что обусловлено её архитектурой и способностью анализировать мультимодальные данные. Наибольших успехов модель достигает в обнаружении комплексных атак, сочетающих манипуляции с URL, подделку визуального дизайна и текстовые уловки. Например, фишинговые сайты, имитирующие интерфейс популярных банков, но содержащие URL с типовыми заменами символов (такими как paypa1.com вместо paypal.com), выявляются за счет синергии компонентов: LSTM распознает аномалии в последовательности символов URL, а CNN обнаруживает микроскопические несоответствия в верстке или графических элементах, невидимые при поверхностном анализе.

Атаки с обфускацией JavaScript-кода также эффективно детектируются благодаря способности CNN анализировать структурные паттерны HTML и скриптов. Модель идентифицирует скрытые редиректы, подозрительные вызовы функций или попытки маскировки кода, даже если злоумышленники используют динамическое шифрование строк. Это выгодно отличает подход от классических методов, которые часто полагаются на статические сигнатуры и не способны декодировать усложненные скрипты.

Однако модель проявляет меньшую эффективность в случаях высокоадаптивных фишинговых кампаний, основанных на социальной инженерии, где отсутствуют явные технические маркеры. Например, письма или сайты, использующие психологические триггеры («Ваш аккаунт будет удален через 24 часа») без подозрительных URL или вредоносного кода, могут остаться незамеченными, если текстовая составляющая искусно имитирует официальный стиль. LSTM-компонент, хотя и анализирует семантику, может не распознать угрозу, если формулировки недостаточно отклоняются от легитимных шаблонов, а визуальные элементы полностью соответствуют бренду.

Фишинг через мобильные приложения или мессенджеры представляет отдельную сложность, так как модель ориентирована на анализ веб-контента. Атаки, использующие сокращенные URL (например, через bit.ly) или встроенные в приложения веб-вьюверы, требуют дополнительной адаптации архитектуры, включая обработку специфичных для мобильных платформ метаданных.

Интересно, что модель демонстрирует высокую чувствительность к гибридным атакам, где фишинговый контент динамически подгружается с легитимных серверов через компрометированные API. CNN выявляет аномалии в структуре страницы (например, несоответствие стилей отдельных блоков), а LSTM обнаруживает противоречия в текстовом контенте, что позволяет обнаруживать даже частично маскированные угрозы.

Ограничения связаны преимущественно со «свежими» тактиками, отсутствующими в обучающих данных. Например, фишинг с использованием генеративных нейросетей для создания идеально грамматичных текстов или глубоких подделок логотипов требует постоянного обновления датасетов и интеграции механизмов анализа поведенческих метрик (например, времени взаимодействия пользователя с формой). Тем не менее гибкость архитектуры позволяет дообучать модель на новых типах угроз, сохраняя её актуальность в условиях быстро меняющегося ландшафта киберпреступности.

6. Заключение и перспективы

Ключевые выводы: преимущества глубокого обучения перед традиционными методами

Глубокое обучение демонстрирует принципиально иной уровень эффективности в борьбе с фишингом по сравнению с классическими подходами, прежде всего за счет способности автоматически выявлять сложные паттерны без ручного выделения признаков. В отличие от методов, основанных на статических правилах или алгоритмах вроде SVM, которые требуют постоянного обновления шаблонов и страдают от слепых зон при столкновении с новыми техниками обмана, нейросетевые модели адаптируются к эволюции угроз через дообучение на свежих данных. Например, гибридные архитектуры (CNN+LSTM) анализируют мультимодальные данные – от структурных особенностей HTML-кода до семантики текста и визуальных элементов, – что позволяет обнаруживать атаки, где злоумышленники комбинируют несколько способов маскировки.

Важнейшее преимущество – способность работать с высокоразмерными и разнородными данными. Традиционные системы, сосредоточенные на отдельных аспектах (анализ URL, чёрные списки), часто упускают связи между признаками, которые нейросети выявляют через совместную обработку текста, изображений и кода. Так, поддельный логотип, неотличимый для человеческого глаза, может быть распознан CNN по микродефектам в пикселях, а LSTM – по противоречиям между визуальным оформлением и агрессивными текстовыми призывами. Это снижает зависимость от экспертного знания и сокращает время реакции на новые угрозы с недель до часов.

Глубокое обучение также превосходит классические методы по ключевым метрикам: гибридные модели показывают рост F1-меры на 20–30% и AUC-ROC на 15–25% в сравнении с алгоритмами на основе правил. Они эффективнее справляются с адаптивными атаками, такими как динамическая генерация доменов или обфускация JavaScript, где традиционные подходы терпят неудачу из-за зависимости от жестких эвристик. Даже в условиях ограниченных данных методы трансферного обучения позволяют использовать предобученные модели, сокращая потребность в размеченных примерах и ускоряя развертывание систем.

Однако переход на глубокое обучение требует компромиссов: повышенных вычислительных ресурсов, тщательной работы с качеством данных и решения этических вопросов приватности. Тем не менее, эти ограничения окупаются за счет создания проактивных систем, способных не только обнаруживать известные угрозы, но и прогнозировать развитие фишинговых схем, устанавливая новый стандарт в кибербезопасности.

Поделиться

88

Кротов Е. Ю. Применение методов глубокого обучения для обнаружения фишинговых веб-сайтов: анализ эффективности и оптимизация моделей // Актуальные исследования. 2025. №21 (256). URL: https://apni.ru/article/12192-primenenie-metodov-glubokogo-obucheniya-dlya-obnaruzheniya-fishingovyh-veb-sajtov-analiz-effektivnosti-i-optimizaciya-modelej

Обнаружили грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики)? Напишите письмо в редакцию журнала: info@apni.ru

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Все статьи выпуска
Актуальные исследования

#22 (257)

Прием материалов

31 мая - 6 июня

осталось 6 дней

Размещение PDF-версии журнала

11 июня

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

25 июня