Формальная модель системы автоматического обнаружения кибербуллинга в англоязычном виртуальном общении

Формальная модель системы автоматического обнаружения кибербуллинга в англоязычном виртуальном общении

В статье рассматривается суть понятия кибербуллинга и предлагается вариант формальной модели системы автоматического распознавания средств реализации электронной травли в англоязычном сегменте сети Twitter. Описывается структурная организация базы данных, на которую опирается последовательность правил обработки массива твитов с одним меншеном, поступивших пользователю в течение определенного временного периода. Особенности работы формальной модели проиллюстрированы рядом примеров.

Аннотация статьи
база данных
буллер
жертва
кибербуллинг
твит
формальная модель
Ключевые слова

Кибербуллинг или электронная травля представляет собой преднамеренные агрессивные действия, на протяжении определенного времени систематически осуществляемые группой лиц (буллеров) или одним человеком (буллером) с использованием электронных форм взаимодействия, направленные против жертвы, которая не может себя защитить [2]. Эта агрессивная виртуальная стратегия проявляет себя в рамках электронной почты, веб-страниц, блогов, форумов, чатов, социальных сетей и других телекоммуникационных технологий. Как и традиционный буллинг, электронная травля может быть двух видов – прямой и косвенной [1, с. 154]. Прямой кибербуллинг представляет собой непосредственные атаки на жертву через электронные письма или сообщения на разных интернет-платформах. Подобный вид электронной травли характеризуется разнообразием форм поведения буллера, начиная от не воспринимающихся всерьез шуток и заканчивая психологическим виртуальным террором, который может трагически закончиться для жертвы. При косвенном кибербуллинге в процесс травли жертвы вовлекаются другие люди, причем не всегда с их согласия. Так, буллер может взломать аккаунт жертвы и рассылать с этого аккаунта информацию, разрушая коммуникативное поле жертвы и порождая сомнения в ее моральных качествах.

Кибербуллинг, как и любая агрессивная стратегия, запрещен в сетевом коммуникационном пространстве. Поэтому выявленные в полном объеме вербальные и невербальные маркеры электронной травли могут быть положены в основу создания системы автоматического обнаружения и блокировки сообщений с элементами кибербуллинга. В статье предлагается вариант формальной модели реализации данного процесса в рамках инженерного подхода, согласно которому для воспроизведения лингвистического объекта (явления) с помощью компьютера необходимо составить базу формализованных данных/знаний, описывающих этот объект (явление), и построить на ее основе алгоритм его функционирования. Материалом исследования послужили 215 англоязычных аккаунтов социальной сети Twitter общим объемом в 200 000 твитов, из которых более 4 000 твитов было проанализировано детально. По результатам анализа было выделено 583 англоязычных твита, содержащих признаки прямого кибербуллинга.

Разработанная база данных включает в себя восемь классов вербальных маркеров, однозначно указывающих на наличие электронной травли в сообщениях пользователей сети Twitter и поэтому важных для разработки процедуры автоматического распознавания средств ее реализации. К ним относится табуированная и обсценная лексика; слова, называющие понятия, связанные с интимной жизнью человека; слова, называющие понятия, связанные с сексуальной ориентацией и сексизмом; слова, выражающие пожелание зла и смерти; слова, выражающие унижение и оскорбление человека; слова, называющие понятия, связанные с национальной принадлежностью и расизмом; слова, называющие животных; слова, называющие людей с ограниченными физическими и умственными возможностями. Известно, что участники виртуальной коммуникации пытаются максимально приблизить общение в социальных сетях к реальному речевому взаимодействию, особенно при выражении эмоций. Для этого идеально подходят идеографические знаки эмодзи, определенные типы которых, регулярно повторяясь в твитах, указывают на наличие электронной травли. Полный перечень таких негативных эмодзи вошел в базу данных. Кроме того, при формировании базы данных учитывалось положение о том, что участники сетевого общения зачастую использует формы выражения мыслей, далекие от традиционных лексических норм. Так, в текстах интернет-коммуникации встречаются аббревиатуры, отражающие, по сути, реакцию или эмоции пользователя (OMGOh my God, WTFwhat the fuck), сокращения (uyou, Boutabout), намеренные орфографические ошибки, опечатки и т.д. С лингвистической точки зрения лексическая форма их представления далека от традиционной, принятой в конкретном языке, что делает практически невозможным их автоматический анализ до тех пор, пока они не будут нормализованы. Поэтому тщательный анализ эмпирического материала позволил выявить в массиве твитов все слова, подлежащие лексической нормализации, и представить в базе данных ненормализованные лексические единицы исследованных твитов и правильные варианты их написания.

С опорой на описанную выше базу данных была создана формальная модель системы автоматического обнаружения кибербуллинга в сообщениях пользователей англоязычного сегмента социальной сети Twitter. Отметим ее основные особенности. На начальном этапе своей работы система должна сформировать массив твитов, поступивших к пользователю в течение текущих суток от одного автора (с одним меншеном). Далее происходит поэтапная обработка каждого поста. Сначала по мере необходимости осуществляется нормализация (приведение к правильной форме написания) единиц твита. Затем каждая единица сообщения сравнивается с элементами базы данных. В случае наличия в сообщении хотя бы одного признака электронной травли (эмодзи или вербальной единицы) на экран выводится сообщение Cyberbullying in the tweet with mention ХХХ. По окончании обработки всего массива в случае, если он содержал посты с признаками кибербуллинга, на экран выводится сообщение You are a victim of cyberbullying. MentionХХХ, и осуществляется блокировка сообщений с данным меншеном. В противном случае система должна сформировать и обработать новый массив твитов.

Рассмотрим работу формальной модели на нескольких примерах. Предположим, что в течение последних суток пользователю англоязычного сегмента сети Twitter поступили следующие твиты от одного пользователя с меншеном @thehemsy:

  1. @thehemsy shoulda we get back to the other Pirate?
  2. @thehemsy disgusting piece of shit I hope you’ll burn in hell
  3. @thehemsy dont let idiots ruin your day, you son of a bitch!

Система начинает последовательную обработку каждого сообщения.  После извлечения меншена из первого твита и сохранения его в памяти она проверит наличие в сообщении ненормализованных лексических единиц. Пост содержит единицу shoulda, которая в соответствии с одним из списков базы данных будет заменена на правильный вариант написания should. Затем элементы твита сравниваются с представленными в базе данных невербальными маркерами кибербуллинга. Система определит, что в сообщении отсутствуют эмодзи, являющиеся признаком электронной травли. Далее она сравнит каждую единицу первого твита с элементами вербальной части базы данных и также не найдет соответствий, после чего перейдет к обработке второго поста. В этом случае система определит, что все его единицы написаны правильно, т.е. нормализации лексических единиц не требуется. Во втором твите отсутствуют определенные типы негативных эмодзи, а сравнение каждой единицы сообщения с элементами лингвистической части базы данных приведет к нахождению совпадения с элементом списка многокомпонентной табуированной и обсценной лексики – piece of shit и элементом списка лексических единиц, выражающих пожелание зла и смерти – burn in hell. Система запомнит, что во втором посте есть признаки электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @thehemsy. Аналогичным образом происходит автоматическая обработка третьего сообщения. Здесь также не требуется нормализации лексических единиц, в твите отсутствуют негативные эмодзи, но присутствует элемент списка многокомпонентной табуированной и обсценной лексики – son of a bitch. Система запомнит, что в третьем посте есть признак электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @thehemsy. Поскольку весь массив твитов обработан, и найдены сообщения с признаками кибербуллинга, на экране появится сообщение You are a victim of cyberbullying. Mention@thehemsy. После этого система осуществит блокировку твитов с данным меншеном.

Рассмотрим еще один пример. Допустим, что в течение суток пользователю англоязычного сегмента сети Twitter с меншеном @troyn1515 поступили следующие посты от разных пользователей (группы лиц):

  1. @HoeshuaHong Give up yа asshole @troyn1515
  2. @LifeasMiya_@troyn1515 fuck up a lot of shit by lying to me
  3. @WelshGasDoc @troyn1515 is an imbecile

В процессе автоматической обработки первого сообщения система выделит и запомнит меншен его автора @HoeshuaHong, а далее проверит пост на наличие в нем ненормализованных лексических единиц. В соответствии с одним из списков базы данных в твите будет обнаружено слово yа, которое подлежит замене на правильный вариант you. Далее система определит, что в первом посте отсутствуют эмодзи, являющиеся признаком кибербуллинга. Анализ единиц твита с опорой на лингвистическую часть базы данных позволит определить наличие в нем единицы из списка однокомпонентной табуированной и обсценной лексики – asshole. Система запомнит, что в первом посте есть признак электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @HoeshuaHong. Затем она перейдет к обработке второго сообщения, выделит и запомнит меншен его автора @LifeasMiya_. Система не найдет во втором посте ненормализованных единиц, а также определенных типов негативных эмодзи. В то же время сравнение каждой единицы сообщения с элементами лингвистической части базы данных приведет к нахождению совпадения с элементом списка лексических единиц, обозначающих унижение или оскорбление – fuck и элементом списка однокомпонентной табуированной и обсценной лексики – shit. Система запомнит, что во втором посте есть признаки электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @LifeasMiya_. В ходе обработки третьего сообщения компьютер выделит и запомнит меншен его автора @WelshGasDoc. В этом случае система также не найдет ненормализованных единиц и определенных типов негативных эмодзи. Сравнение единиц твита с лингвистической частью базы данных позволит системе установить совпадение с элементом списка лексических единиц, называющих людей с ограниченными физическими и умственными возможностями – imbecile и вывести на экран сообщение Cyberbullying in the tweet with mention @WelshGasDoc. Поскольку весь массив твитов обработан, и найдены сообщения с признаками кибербуллинга, на экране появится сообщение You are a victim of cyberbullying. Mentions@HoeshuaHong, @LifeasMiya_, @WelshGasDoc. После этого система осуществит блокировку твитов с данными меншенами.

Рассмотрим еще один пример. Предположим, что в течение суток пользователю англоязычного сегмента сети Twitter поступили следующие твиты от одного пользователя с меншеном @seokkjingaycult:

  1. @seokkjingaycult ill tell you what kinda vibes u give off
  2. @seokkjingaycult Obvi when u gay, u gotta behave in only one way. DUH!
  3. @seokkjingaycult 

Система начинает обработку каждого поста.  После извлечения меншена из первого твита и сохранения его в памяти она проверит наличие в сообщении ненормализованных лексических единиц. Пост содержит единицы ill, kinda, u, которые в соответствии с одним из списков базы данных будут заменены на правильные варианты написания will, kind of, you. Сравнение единиц сообщения со всеми элементами базы данных позволит системе сделать вывод о том, что первый твит не содержит признаков электронной травли. В результате аналогичной обработки второго поста компьютер осуществит автоматическую нормализацию его единиц obvi, u, gotta, заменив их на obviously, you, got to. Сравнивая все единицы сообщения с элементами базы данных, компьютер определит отсутствие в нем признаков кибербуллинга. Третий пост содержит только эмодзи «рвота», который является ним из средств реализации электронной травли. Однако одного идеографического знака недостаточно, чтобы сформулировать общий вывод о том, что пользователь является жертвой буллера с меншеном @seokkjingaycult. Поэтому система не будет блокировать это сообщение, а продолжит формирование и анализ массива постов с подобным меншеном в последующие дни.

На основе разработанной формальной модели может быть написан программный код, представляющий собой демоверсию автоматического анализатора англоязычных твитов на предмет наличия в них признаков кибербуллинга.

Текст статьи
  1. Бенгина Е.A. Кибербуллинг как новая форма угрозы психологическому здоровью личности ребенка // Вестник ГУУ. 2018. № 2. С. 153–157.
  2. Кибербуллинг как проявление агрессивной коммуникации среди подростков в условиях социальных ресурсов. URL: http://elib.bsu.by/handle/123456789/1864 (дата обращения: 20.03.2020).
Список литературы
Ведется прием статей
Прием материалов
c 17 мая по 31 мая
Осталось 2 дня до окончания
Препринт статьи — после оплаты
Справка о публикации
БЕСПЛАТНО
Размещение электронной версии
04 июня
Загрузка в elibrary
04 июня
Рассылка печатных экземпляров
08 июня