Главная
АИ #42 (224)
Статьи журнала АИ #42 (224)
Алгоритм классификации текстовой информации с использованием WORD2VEC

Алгоритм классификации текстовой информации с использованием WORD2VEC

Рубрика

Информационные технологии

Ключевые слова

контроль информационной безопасности
бинарная классификация
текстовая информация
Word2Vec
нейросетевая классификация
обработка текстовой информации
семантическое представление
контроль доступа

Аннотация статьи

В статье описан алгоритм классификации текстовой информации электронного вида с использованием метода Word2Vec. Алгоритм позволяет эффективно обрабатывать текстовые данные и классифицировать документы по заданным критериям. Основной задачей является автоматическая классификация текстов, что может быть применено для управления документооборотом, анализа служебных сообщений и обработки больших объемов текстовой информации.

Текст статьи

В условиях современного документооборота существует потребность в автоматической классификации текстовой информации, что позволяет существенно ускорить обработку документов. Алгоритмы на основе методов глубокого обучения и нейросетей, такие, как Word2Vec, способны обеспечивать высокую точность при работе с большими массивами текстовых данных, выделяя семантические связи между словами.

На этапе формирования признакового пространства текстовой информации предлагается использовать алгоритм Word2Vec, который позволяет представить слова в виде плотных векторов в непрерывном пространстве. В отличие от TF-IDF, который присваивает каждому слову уникальный вес на основе его частоты в документе и значимости для всего корпуса, Word2Vec обучается выявлять взаимосвязи между словами на основе их контекста. Это делает Word2Vec более эффективным при работе с неформализованными текстами, так как он способен улавливать семантические связи.

После предварительной обработки текстовой информации, включающей лемматизацию, удаление пунктуации и токенизацию, текстовая информация поступает на вход модели Word2Vec. Word2Vec обучается на корпусе текстов, где каждая словарная величина представляется в виде вектора фиксированной размерности. Эти векторы отражают семантическое сходство между словами на основании контекстов их употребления.

1. Обучение Word2Vec:

Для обучения модели используется алгоритм Skip-gram или CBOW (Continuous Bag of Words). Эти алгоритмы обучают нейросеть предсказывать слово на основе контекста или контекст на основе слова. В процессе обучения для каждого слова формируется вектор, который отражает его положение в семантическом пространстве.

2. Формирование признакового пространства:

После обучения Word2Vec, каждому документу присваивается векторное представление, вычисленное как среднее векторов слов, присутствующих в тексте. Это позволяет каждому документу иметь плотное векторное представление фиксированной длины, что упрощает дальнейшую классификацию.

3. Классификация:

Векторное представление документа поступает на вход нейросетевой модели для дальнейшей классификации на наличие или отсутствие сведений, составляющих государственную тайну. Преимуществом использования Word2Vec является возможность классификации текстов, содержащих редкие или измененные ключевые слова, поскольку алгоритм улавливает семантические связи между словами, а не опирается на их точное совпадение.

Алгоритм формирования признакового пространства и классификации текстов с использованием Word2Vec

1. Входные данные:

Корпус текстов: image.png, где каждый документ image.png представляет собой текстовую информацию электронного вида (ТИЭВ). Каждый текст может содержать или не содержать служебную информацию.

2. Разметка данных:

Экспертная группа помечает тексты со служебной информацией (СИ) меткой image.png (наличие служебных сведений) и тексты без СИ меткой image.png (отсутствие служебных сведений). Множество документов разбивается на два класса: image.png и image.png

Обеспечивается сбалансированность классов путём аугментации данных или удаления избыточных данных.

3. Предварительная обработка текстов:

Для каждого документа image.png:

  • приведение текста к нижнему регистру;
  • очистка от пунктуации и символов, которые не несут информационной ценности;
  • лемматизация для приведения слов к начальной форме;
  • токенизация – разбиение текста на отдельные слова (токены);
  • удаление «стоп-слов» – слов, не несущих значимого вклада в смысл текста.

4. Обучение модели Word2Vec:

Для обучения модели Word2Vec используется алгоритм Skip-gram или CBOW.

Корпус текстов image.png служит для обучения модели. Модель формирует плотные векторные представления для каждого слова на основе его контекстов в корпусе.

Вектор слова image.png представляет собой точку в многомерном пространстве, где слова, употребляющиеся в схожих контекстах, расположены рядом.

5. Векторизация документов:

Для каждого документа image.png, содержащего слова image.png создаётся векторное представление документа.

Вектор документа image.png вычисляется как среднее векторов всех слов в документе:

image.png, (1)

Где image.png – векторное представление слова image.png, полученное с помощью модели Word2Vec.

6. Формирование обучающей и тестовой выборок:

Документы image.png делятся на обучающую image.png и тестовую image.png выборки в соотношении 80/20.

Для каждого документа в выборках также сохраняется его метка класса image.png или image.png.

7. Обучение нейросетевой модели:

На вход нейросети подаются векторные представления документов image.png, а также метки классов.

Нейросеть имеет один скрытый слой и один выходной нейрон для задачи бинарной классификации (наличие или отсутствие ССГТ).

В процессе обучения используется метод обратного распространения ошибки и функция активации (например, сигмоидальная функция):

image.png, (2)

Цель обучения – минимизация ошибки классификации на обучающей выборке.

8. Контроль качества классификации:

Проводится контроль на предмет сбалансированности классов и корректности работы модели на тестовой выборке.

Модель оценивается по метрике Accuracy:

image.png, (3)

Где image.png – количество верных срабатываний для класса image.png – верные срабатывания для класса image.png – количество ложных срабатываний для класса image.png, image.png – пропуски срабатываний для класса image.png

9. Итог:

После обучения модели и получения высоких показателей точности image.png, модель сохраняется для дальнейшего использования в системе контроля.

Если текст подлежит контролю (формализованный документ), дополнительно используется косинусное сравнение векторов для проверки сходства с эталонными формализованными документами.

Список литературы

  1. Копаев А.В. Методы и средства защиты информации в автоматизированных системах // Информационные технологии и безопасность. – 2020. – № 4. – С. 56-63.
  2. Иванов П.П. Классификация текстовой информации в условиях нарушения информационной безопасности // Защита информации. – 2021. – № 2. – С. 89-98.
  3. Смирнов Д.И. Формализация документов и её влияние на эффективность защиты информации // Вестник информационных технологий. – 2022. – № 1. – С. 9-12.
  4. Петров Н.В. Визуализация данных при обработке текстовой информации // Технологии анализа данных. – 2022. – № 3. – С. 89-298.
  5. Сидоров М.М. Косинусное сходство векторов в задачах классификации текстов // Журнал прикладных информационных технологий. – 2023. – № 5. – С. 4-15.
  6. Васильев И.Г. Методы разметки текстовых документов в информационных системах // Проблемы информационной безопасности. – 2020. – № 3. – С. 183-187.
  7. Кузнецов А.Л. Предварительная обработка текстов для задач классификации // Научные исследования в информационных системах. – 2021. – № 4. – С. 120-126.
  8. Ковалёв В.В. Вычисление весовых коэффициентов для задач классификации текстов // Алгоритмы обработки текстовой информации. – 2020. – № 6. – С. 442-444.
  9. Попов А.С. Создание тезауруса для анализа текстов в информационных системах // Системы управления и обработки данных. – 2021. – № 2. – С. 442-444.
  10. Романова Л.М. Формирование признаков текстовой информации для задач контроля безопасности // Вестник информационных технологий. – 2022. – № 1. – С. 8-12.
  11. Жуков Е.В. Оптимизация классификации текстов с использованием косинусного сходства // Технологии искусственного интеллекта. – 2023. – № 7. – С. 565-575.

Поделиться

17

Бондарь В. В., Зельдин Н. В., Колесников А. К., Никишин С. О., Сипливый В. Ю., Лось Д. В. Алгоритм классификации текстовой информации с использованием WORD2VEC // Актуальные исследования. 2024. №42 (224). URL: https://apni.ru/article/10254-algoritm-klassifikacii-tekstovoj-informacii-s-ispolzovaniem-word2vec

Актуальные исследования

#42 (224)

Прием материалов

12 октября - 18 октября

осталось 3 дня

Размещение PDF-версии журнала

23 октября

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

5 ноября