Обнаружение сетевых компьютерных атак «нулевого дня» с использованием искусственных нейронных сетей

Щеткин Виктор Александрович; Кобец Денис Гавриилович

Аннотация статьи

В этом документе предлагается реализация модели, которая использует данные анализа сетевого трафика (NTA) и счетчика производительности оборудования (HPC) для точного выявления атак «нулевого дня». Цель состоит в том, чтобы разработать модель на основе автоэнкодера, которая объединяет аппаратные и сетевые функции для эффективной классификации. Использовались датасеты для обучения нейросетевых моделей, такие как CICIDS2020, NSL-KDD и D.A.V.I.D.E HPC.

Текст статьи

I. Введение

Экспоненциальный рост числа кибератак приводит к появлению инновационных подходов к их противодействию атакам и новой эре киберугроз. Системы обнаружения вторжений, которые способны обнаруживать атаки на основе сигнатур, не работают всякий раз, когда возникает новая угроза или атака «нулевого дня» [1]. Это приводит к снижению безопасности до тех пор, пока не будет обнаружено нарушение. Идентификаторы, способные обнаруживать атаки «нулевого дня», являются единственным жизнеспособным вариантом для борьбы с этими киберугрозами. Однако существующие идентификаторы не отличаются высокой точностью в обнаруживании знакомых угроз, они не могут идентифицировать атаки «нулевого дня» [2].

Атаки «нулевого дня» – это атаки, схемы трафика которых не совпадают с какой-либо общей схемой трафика вредоносных программ или атаками на них [3]. Идентификаторы, которые могут идентифицировать угрозы «нулевого дня», в настоящее время используются в кибербезопасности в связи с растущим использованием методов машинного обучения. Идентификаторы в широком смысле подразделяются на три основные категории, обозначенные как:

Идентификаторы на основе хостов [4];
Сетевые идентификаторы [4, 5];
Гибридные IDS [5].

В связи с расширением использования искусственного интеллекта в кибернетике появилось несколько категорий идентификаторов на основе искусственного интеллекта, которые способны обнаруживать атаки «нулевого дня», что в настоящее время привлекает академических исследователей и разработчиков.

В настоящее время существуют следующие типы идентификаторов, такие как: [6, 7, 8] идентификаторы на основе сигнатур, идентификаторы, основанные на контролируемом или гибридном обучении, идентификаторы, основанные на переносе обучения, идентификаторы, основанные на аномалиях, идентификаторы, основанные на графах.

Положительные факторы использования машинного обучения – эффективность в решении проблем обнаружения атак «нулевого дня», поскольку его эффективность уже оценена с использованием таких моделей, как случайный лес, дерево решений, KNN, персептрон и т. д. [8, 9].

В существующих исследованиях в качестве критериев классификации использовались данные анализа сетевого трафика.

Предлагаемая методология

Предлагаемая методология заключается в разработке модели обнаружения атак «нулевого дня», основанной на нейронных сетях, с использованием сетевого трафика и аппаратных данных, расширяющих возможности автоэнкодера.

В этой работе перечислены три основных рассматриваемых аспекта:

разработка и внедрение на практике системы обнаружения атак «нулевого дня» с использованием эффективной модели автоэнкодера, встраиваемую в IDS;
создание одноклассовой SVM-модели для обнаружения атак;
сравнение производительности одноклассовой SVM-модели, которая действует как базовый детектор атак, с предлагаемой моделью автоэнкодера.

Проблемы, связанные с обнаружением атак «нулевого дня»

Основное препятствие для обнаружения атак «нулевого дня» с использованием нейронных сетей связано с типом набора данных и его недоступностью, поскольку в нем нет наборов данных, сочетающих аппаратные и сетевые свойства. Термин «атака «нулевого дня» используется для обозначения уязвимости, которая ранее не была выявлена [1], что затрудняет точную идентификацию и прогнозирование модели атак «нулевого дня» в практических ситуациях. Эти атаки постоянно меняются и часто используют в своих интересах новые уязвимости, что делает их более эффективными. Сложнее обнаружить их с помощью стандартных методов. В результате, когда поток данных известен и цель состоит в том, чтобы обнаружить ранее выявленные методы атаки, а не предсказывать совершенно новые и неизвестные слабые места, модели нейронных сетей оказываются более полезными, и задача состоит в том, чтобы внедрить модели, способные эффективно выявлять новые атаки

II. Обзор литературы

2.1. Этот раздел содержит описание различных методологий, которые рассматриваются и используются для обнаружения атак «нулевого дня» в области кибербезопасности. Такие исследователи, как Ханна Хинди, Ян Го, Цяньру Чжоу и другие, изучили многочисленные наборы данных, от CICIDS2020 до NSL-KDD, применив такие методы, как одноклассовая SVM, автоэнкодер и различные модели глубокого обучения. Анализ сетевого трафика, обнаружение вредоносных программ с аппаратной поддержкой, упрощенные методы принятия решений, и даже внедрение глубокого обучения с подкреплением. В целом, эти исследования предоставляют ценную информацию о том, как развивается система обнаружения атак «нулевого дня», подчеркивая потребность в передовых моделях и эталонных наборах данных в этой жизненно важной области.

2.2. Сопутствующая работа Патидара в [1] на основе использования наборов данных о вредоносных программах описано, как различные типы вредоносных программ влияют на безопасность и как можно построить модель обнаружения в режиме «нулевого дня», используя соответствующие методы обнаружения, подчеркивающие важность обнаружения атак в режиме «нулевого дня». Хинди и др. в [2] обсуждалось использование возможностей кодирования и декодирования autoencoder для создания идентификаторов на основе сигнатур для обнаружения «нулевого дня». Хинди и др. [2] использовали CICIDS2020 и NSL-KDD поверх набора данных KDD-CUP99 для обучения модели. В своем исследовании Мбона и др. [6] создали единый класс. Модель на основе классификатора SVM с использованием CICDDOS 2019. Янг Гоу [8] провел обзорное исследование и сравнительный анализ различных типов идентификаторов для обнаружения «нулевого дня» на основе сигнатур. Для анализа производительности были использованы наборы данных IDS2017 и NSL KDD, а также автоэнкодер One Class SVM, случайный лес и т. д. Чжоу и Пезаро [9] использовали данные CIC-расходомера, а именно CIC-AWS-2018, для обучения шести различных моделей выявлению нулевых дней и анализу их сравнительных характеристик. Для повышения производительности используются несколько методов, таких как случайный лес, Гауссовский наивный анализ, Дерево решений, многослойный Персептрон, KNN и квадратичный дискриминантный анализ. Макрани и др. [10] воспользовались данными в режиме реального времени и подготовили сравнительный обзорный документ, в котором сравнивались случайный лес, дерево решений, стохастический градиентный спуск и т.д. Гао и др. [12] разработали малогабаритный, чувствительный к затратам механизм принятия решений на основе дерева, который точно определяет, принимая во внимание предпочтения пользователей и компромисс между наилучшей производительностью и затратами на внедрение, классификатор машинного обучения для использования при онлайн - обнаружении вредоносных программ. Согласно результатам тестирования, предложенный метод может обнаруживать вредоносные программы на оборудовании почти в 94% случаев, значительно снижая затраты на установку. Редди и др. [13] использовали глубокое обучение с подкреплением для автоматизации задачи обнаружения вторжений, которая включает глубокое обучение в традиционное обучение с подкреплением, что приводит к усовершенствованной стратегии борьбы с киберугрозами. Делдар и др. [14] обсудили эффективность методов, основанных на частичном контроле, безнадзорности и малозатратном использовании, для эффективного обнаружения вредоносных программ с «нулевого дня». Али и др. [15] использовали набор данных CICIDS2020, чтобы описать обнаружение атак «нулевого дня» и то, как они классифицируются как методы обнаружения на основе аномалий, графиков и искусственного интеллекта. Икбал и др. [16] представили всесторонний обзор современных методик обнаружения «нулевого дня» в виде BLOSOM и CNN, а также подчеркнули необходимость в новых тестируемых наборах данных вместо традиционных. Чен и др. [17] разработали модель обнаружения вредоносного ПО «нулевого дня» для Android, которая рассматривает график потока управления приложением для обнаружения несанкционированных вызовов. Аката и др. al [18] использовал наборы данных NSL-KDD и CICIDS2020 для разработки модели, способной обнаруживать атаки «нулевого дня». Кумар и др. [19] продемонстрировали эффективность нейронных сетей Generative adversarial network (GAN) в эффективном обнаружении атак «нулевого дня», используя набор данных CIC-AWS 2018.

III. Набор данных

3.1. Предварительная обработка NSL-KDD CICIDS2020[20] и NSL-KDD [21], выпущенные CIC (Канадским институтом кибербезопасности), представляют собой наборы данных о сетевых потоках, используемые для оценки предлагаемой модели. Эти наборы данных содержат классификацию кибератак и нормального трафика. Пятидневный отчет о кибератаках в формате raw содержится в CICIDS2020 [20], а атаки со стороны внутренних и внешних нарушителей описаны следующим образом.

Набор данных NSL-KDD был представлен для смягчения ограничений набора данных KDD Cup99, предоставляющего четыре кибернетических класса, называемых от пользователя до root (U2R), от удаленного до локального нарушителя (R2L), отказ в обслуживании (DoS). Он доступен в виде пары файлов test-train.csv как KDDTrain+.csv’ и ‘KDDTest+.csv’. [21] D.A.V.I.D.E [22, 23, 24] Системный набор данных HPC, используемый для обучения HMD (hardware-supported malware detection system). Набор данных HPC состоит из значений программного счетчика, зарегистрированных с помощью суперкомпьютера D.A.V.I.D.E. [23, 24].

IV. Обзор методологии

В этом разделе рассматриваются наборы данных для предварительной обработки, предлагаемая модель, а также процесс обучения и оценки.

4.1. Предварительная обработка Предварительная обработка включает в себя подготовку наборов данных, включая наборы данных NSL-KDD, CICIDS2020 и DAVIDE HPC, для использования.

4.1.1. Предварительная обработка CICIDS2020. Набор данных CICIDS2020 разделяется на основе класса атаки и временных меток, предоставляемых в наборе данных, cгенерированный в отдельные файлы «pcap», сильно коррелированные признаки исключаются с учетом порогового значения «0,9».

4.1.2. Предварительная обработка NSL-KDD. Набор данных NSL-KDD поставляется в виде пары тестовых файлов train.csv, что позволяет использовать его для целей оценки, минуя обширную предварительную обработку.

4.1.3. Предварительная обработка DAVIDE HPC. Набор данных DAVIDE включает данные с узлов суперкомпьютера, собранные для анализа аномалий в поведении узлов. Его предварительная обработка включает определение временных меток для обработки и идеальных временных интервалов для необязательного удаления перед передачей данных в автоматический кодировщик.

4.2. Модель на основе автоэнкодера. Основой предлагаемой модели на основе автоэнкодера служит искусственная нейронная сеть (ANN). Для выбора структуры сети, количества периодов и скорости обучения для оптимизации гиперпараметров используется случайный поиск. Хорошо известно, что случайный поиск быстрее приводит к полуоптимальному набору параметров, чем поиск по сетке. Когда требуется всего несколько параметров, было продемонстрировано, что он улучшает поиск по сетке [1]. Это уменьшает вероятность получения завышенных параметров. Обучающая выборка разделена на тренировочную и тестовую на 75% и 25%, соответственно. Таким образом, для инициализации модели используется идеальная схема ANN, которая включает количество скрытых слоев и нейронов в каждом слое. Эта модель обучалась в течение «n» периодов времени. При анализе кривых точности и потерь проверяется сходимость автоэнкодера.

4.3. Одноклассовая модель на основе SVM. Одноклассовый SVM является расширением модели SVM, основанной на контролируемом обучении, и позволяет проводить обучение без контроля, когда определяется один класс. В отличие от автоэнкодера, где выходные данные основаны на пороговом значении, на выходе генерируется двоичный код, определяющий соответствует ли экземпляр классу, для которого обучается SVM, или нет. Для NIDS в предлагаемой нами модели используется одноклассовый SVM для сравнения его производительности с автоэнкодером. Обученные модели предлагается объединить вместе, чтобы объединить эффективность функций HIDS и NIDS, что еще больше повысит решающую или прогностическую способность предлагаемой модели для прогнозирования атаки «нулевого дня». Предлагаются модели на основе автоэнкодера, которые имеют AUC от 90 до 95% и выше [1, 10]. В отдельности предлагаемая объединенная модель направлена на достижение целевого AUC составляет 90% или выше.

V. Заключение

Мировые исследователи и разработчики с интересом следят за последними достижениями в области искусственного интеллекта в области кибербезопасности. Использование моделей машинного обучения позволяет не только прогнозировать атаки, которые известны системе, но и выявлять атаки «нулевого дня», сигнатуры которых отсутствуют в системе. Но прогресс ограничивается изобретениями с учетом многих проблем и недостатков современных технологических парадигм. Предложенные методы являются многообещающими с точки зрения эффективного использования аппаратных средств и сетевых данных для выявления угроз «нулевого дня». В модель включены функции анализа, кодирования, отображения и обнаружения. Эта идея привела к появлению нескольких новых концепций, бизнес-возможностей и возможностей для разработки широкого спектра услуг и продуктов. В этой работе описаны технические требования для реализации моделей обнаружения атак «нулевого дня» на основе сигнатур. Прежде всего, в ней представлен современный пример использования кибербезопасности и искусственного интеллекта, над которым работают исследователи и разработчики. В этой статье дается представление о том, как модели машинного обучения могут быть использованы для обнаружения «нулевого дня» и расширяет методологию моделирования на основе автоэнкодера для обнаружения атак «нулевого дня».

Список литературы

Патидар К.П., Харшита Х. «Обнаружение атак «нулевого дня» с использованием методов машинного обучения», 2019 г., ХИДЖРА.
Беллекенс К., Хинди Х., Жан-Ноэль К., Тахтацис К., Аткинсон Р. и Бейн И. Использующий методы глубокого обучения для эффективного Обнаружение атак «нулевого дня», 14 октября 2020 года, MPDI Электроника 2020
Лайеги С., Портманн М., Галлахер М., Сархан М. «От машинного обучения с нуля до обнаружения атак с «нулевого дня», 2023, IJIS.
Ахмад Х., Аршад М.Дж., Джавед M., Уппал М., Обзор систем обнаружения вторжений Система (IDS) вместе с ее широко используемыми методами и классификациями, 2014, IJCST.
Аммар О., Мохаммед С., Захари Т., Набиль Т. Обзор по обнаружению вторжений Типы систем, 2018, IJCSDF, SDIWC.
Ян Х.П.Э., Мбона И. обнаруживающие Атаки на проникновение с «нулевого дня» с использованием полууправляемых Подходы к машинному обучению, опубликованные 29 июня 2022 года, IEEE.
Алексакис Т., Деместихас К., Адамопулу Е., Пепперс Н. проанализировали эффективность атак «нулевого дня» на выборках данных Сгенерированных с помощью GANs на основе классификаторов глубокого обучения, 2023, Журналы MPDI Sensors, Том 23, выпуск 2.
Ян Го. «Обнаружение атак «нулевого дня» на основе машинного обучения: проблемы и направления на будущее», 2023, «Компьютерные коммуникации».
Пезарос Д., Чжоу Ц. Оценка классификаторов машинного обучения для обнаружения атак «нулевого дня». Обнаружение вторжений: анализ набора данных CIC-AWS-2018, 2019.
Чжан Ин Хэ, Хомаюн Х., Алиасгари М., Мохаммади М.Х., Миари Т., Саяди Х. Когда машинное обучение вступает в силу Аппаратная кибербезопасность: разработка точных программ «нулевого дня» Обнаружение вредоносных программ, 2021, ISQED.
Хоссейн Д.А., Солтани М., Усат Б., Джафари С.М. Способные к адаптации Система обнаружения вторжений на основе глубокого обучения сведена к нулю День терактов, 2021.
Гао И., Хомаюнц Х., Лин Д., Резайкс А., Алиасгарикс М., Мохаммади М.Х., Саяди Х. Adaptive HMD: Точное и экономичное машинное обучение Обнаружение вредоносных программ на основе микроархитектуры Мероприятия, 2021 год, 27-я сессия IEEE IOLTS.
Хан Т.Н., Джанапа Р.В., Углубленное обучение с подкреплением для кибербезопасности, 2021 год, IEEE Trans. Нейронная сеть. Учить. Сестра.
Абади М., Дельдар Ф. Обучение для обнаружения вредоносных программ «нулевого дня» и их классификации Обзор, 2023, ACM Computing Surveys.
Ким К., Али С., Рехман С.У., Имран А., Адим Дж., Икбал З. Сравнительная оценка технологий, основанных на ИИ Методы обнаружения атак «нулевого дня». Электроника 2022, 11, 3934.
Мондонго, Токмак М. Угрозы «нулевого дня» Обнаружение критических инфраструктур, 2023, arXiv Labs.
Грейс М., Лю П., Чен Я. Risk Ranker: Масштабируемый и точный Android «нулевого дня».
Xian, Akata B., Schiele Y. From zero-shot machine learning to zero-day attack detection, 2019.
Pandey, S.K. Kumar, Sinha, The Effectiveness of Zero-Day Attacks Data Samples Generated via GANs on Deep Learning Classifiers, 2023, Advanced Computing and Systems for Security: Volume 14.
Canadian Institute for Cybersecurity. Intrusion Detection Evaluation Dataset (CICIDS2017). 2017. Available online: http://www.unb.ca/cic/datasets/ids-2017.html.
Canadian Institute for Cybersecurity. NSL-KDD Dataset. Available online: http://www.unb.ca/cic/datasets/nsl.html.
Data Set for Anomaly Detection on HPC system, Data set available online: https://zenodo.org/records/3251873.
Luca Benini, Michela Milano, Michele Lombardi, Andrea Bartolini, Andrea Borghesi, Anomaly Detection using Autoencoders in High Performance Computing Systems, 2019, IAAI19.
Luca Benini, Andrea Bartolini, Andrea Borghesi, and Antonio Libri, Online Anomaly Detection in HPC Systems, 2019, AICAS19.

Обнаружение сетевых компьютерных атак «нулевого дня» с использованием искусственных нейронных сетей

Похожие статьи

Другие статьи из раздела «Информационные технологии»