Кибербуллинг или электронная травля представляет собой преднамеренные агрессивные действия, на протяжении определенного времени систематически осуществляемые группой лиц (буллеров) или одним человеком (буллером) с использованием электронных форм взаимодействия, направленные против жертвы, которая не может себя защитить [2]. Эта агрессивная виртуальная стратегия проявляет себя в рамках электронной почты, веб-страниц, блогов, форумов, чатов, социальных сетей и других телекоммуникационных технологий. Как и традиционный буллинг, электронная травля может быть двух видов – прямой и косвенной [1, с. 154]. Прямой кибербуллинг представляет собой непосредственные атаки на жертву через электронные письма или сообщения на разных интернет-платформах. Подобный вид электронной травли характеризуется разнообразием форм поведения буллера, начиная от не воспринимающихся всерьез шуток и заканчивая психологическим виртуальным террором, который может трагически закончиться для жертвы. При косвенном кибербуллинге в процесс травли жертвы вовлекаются другие люди, причем не всегда с их согласия. Так, буллер может взломать аккаунт жертвы и рассылать с этого аккаунта информацию, разрушая коммуникативное поле жертвы и порождая сомнения в ее моральных качествах.
Кибербуллинг, как и любая агрессивная стратегия, запрещен в сетевом коммуникационном пространстве. Поэтому выявленные в полном объеме вербальные и невербальные маркеры электронной травли могут быть положены в основу создания системы автоматического обнаружения и блокировки сообщений с элементами кибербуллинга. В статье предлагается вариант формальной модели реализации данного процесса в рамках инженерного подхода, согласно которому для воспроизведения лингвистического объекта (явления) с помощью компьютера необходимо составить базу формализованных данных/знаний, описывающих этот объект (явление), и построить на ее основе алгоритм его функционирования. Материалом исследования послужили 215 англоязычных аккаунтов социальной сети Twitter общим объемом в 200 000 твитов, из которых более 4 000 твитов было проанализировано детально. По результатам анализа было выделено 583 англоязычных твита, содержащих признаки прямого кибербуллинга.
Разработанная база данных включает в себя восемь классов вербальных маркеров, однозначно указывающих на наличие электронной травли в сообщениях пользователей сети Twitter и поэтому важных для разработки процедуры автоматического распознавания средств ее реализации. К ним относится табуированная и обсценная лексика; слова, называющие понятия, связанные с интимной жизнью человека; слова, называющие понятия, связанные с сексуальной ориентацией и сексизмом; слова, выражающие пожелание зла и смерти; слова, выражающие унижение и оскорбление человека; слова, называющие понятия, связанные с национальной принадлежностью и расизмом; слова, называющие животных; слова, называющие людей с ограниченными физическими и умственными возможностями. Известно, что участники виртуальной коммуникации пытаются максимально приблизить общение в социальных сетях к реальному речевому взаимодействию, особенно при выражении эмоций. Для этого идеально подходят идеографические знаки эмодзи, определенные типы которых, регулярно повторяясь в твитах, указывают на наличие электронной травли. Полный перечень таких негативных эмодзи вошел в базу данных. Кроме того, при формировании базы данных учитывалось положение о том, что участники сетевого общения зачастую использует формы выражения мыслей, далекие от традиционных лексических норм. Так, в текстах интернет-коммуникации встречаются аббревиатуры, отражающие, по сути, реакцию или эмоции пользователя (OMG – Oh my God, WTF – what the fuck), сокращения (u –you, Bout – about), намеренные орфографические ошибки, опечатки и т.д. С лингвистической точки зрения лексическая форма их представления далека от традиционной, принятой в конкретном языке, что делает практически невозможным их автоматический анализ до тех пор, пока они не будут нормализованы. Поэтому тщательный анализ эмпирического материала позволил выявить в массиве твитов все слова, подлежащие лексической нормализации, и представить в базе данных ненормализованные лексические единицы исследованных твитов и правильные варианты их написания.
С опорой на описанную выше базу данных была создана формальная модель системы автоматического обнаружения кибербуллинга в сообщениях пользователей англоязычного сегмента социальной сети Twitter. Отметим ее основные особенности. На начальном этапе своей работы система должна сформировать массив твитов, поступивших к пользователю в течение текущих суток от одного автора (с одним меншеном). Далее происходит поэтапная обработка каждого поста. Сначала по мере необходимости осуществляется нормализация (приведение к правильной форме написания) единиц твита. Затем каждая единица сообщения сравнивается с элементами базы данных. В случае наличия в сообщении хотя бы одного признака электронной травли (эмодзи или вербальной единицы) на экран выводится сообщение Cyberbullying in the tweet with mention ХХХ. По окончании обработки всего массива в случае, если он содержал посты с признаками кибербуллинга, на экран выводится сообщение You are a victim of cyberbullying. Mention – ХХХ, и осуществляется блокировка сообщений с данным меншеном. В противном случае система должна сформировать и обработать новый массив твитов.
Рассмотрим работу формальной модели на нескольких примерах. Предположим, что в течение последних суток пользователю англоязычного сегмента сети Twitter поступили следующие твиты от одного пользователя с меншеном @thehemsy:
- @thehemsy shoulda we get back to the other Pirate?
- @thehemsy disgusting piece of shit I hope you’ll burn in hell
- @thehemsy don’t let idiots ruin your day, you son of a bitch!
Система начинает последовательную обработку каждого сообщения. После извлечения меншена из первого твита и сохранения его в памяти она проверит наличие в сообщении ненормализованных лексических единиц. Пост содержит единицу shoulda, которая в соответствии с одним из списков базы данных будет заменена на правильный вариант написания should. Затем элементы твита сравниваются с представленными в базе данных невербальными маркерами кибербуллинга. Система определит, что в сообщении отсутствуют эмодзи, являющиеся признаком электронной травли. Далее она сравнит каждую единицу первого твита с элементами вербальной части базы данных и также не найдет соответствий, после чего перейдет к обработке второго поста. В этом случае система определит, что все его единицы написаны правильно, т.е. нормализации лексических единиц не требуется. Во втором твите отсутствуют определенные типы негативных эмодзи, а сравнение каждой единицы сообщения с элементами лингвистической части базы данных приведет к нахождению совпадения с элементом списка многокомпонентной табуированной и обсценной лексики – piece of shit и элементом списка лексических единиц, выражающих пожелание зла и смерти – burn in hell. Система запомнит, что во втором посте есть признаки электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @thehemsy. Аналогичным образом происходит автоматическая обработка третьего сообщения. Здесь также не требуется нормализации лексических единиц, в твите отсутствуют негативные эмодзи, но присутствует элемент списка многокомпонентной табуированной и обсценной лексики – son of a bitch. Система запомнит, что в третьем посте есть признак электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @thehemsy. Поскольку весь массив твитов обработан, и найдены сообщения с признаками кибербуллинга, на экране появится сообщение You are a victim of cyberbullying. Mention – @thehemsy. После этого система осуществит блокировку твитов с данным меншеном.
Рассмотрим еще один пример. Допустим, что в течение суток пользователю англоязычного сегмента сети Twitter с меншеном @troyn1515 поступили следующие посты от разных пользователей (группы лиц):
- @HoeshuaHong Give up yа asshole @troyn1515
- @LifeasMiya_@troyn1515 fuck up a lot of shit by lying to me
- @WelshGasDoc @troyn1515 is an imbecile
В процессе автоматической обработки первого сообщения система выделит и запомнит меншен его автора @HoeshuaHong, а далее проверит пост на наличие в нем ненормализованных лексических единиц. В соответствии с одним из списков базы данных в твите будет обнаружено слово yа, которое подлежит замене на правильный вариант you. Далее система определит, что в первом посте отсутствуют эмодзи, являющиеся признаком кибербуллинга. Анализ единиц твита с опорой на лингвистическую часть базы данных позволит определить наличие в нем единицы из списка однокомпонентной табуированной и обсценной лексики – asshole. Система запомнит, что в первом посте есть признак электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @HoeshuaHong. Затем она перейдет к обработке второго сообщения, выделит и запомнит меншен его автора @LifeasMiya_. Система не найдет во втором посте ненормализованных единиц, а также определенных типов негативных эмодзи. В то же время сравнение каждой единицы сообщения с элементами лингвистической части базы данных приведет к нахождению совпадения с элементом списка лексических единиц, обозначающих унижение или оскорбление – fuck и элементом списка однокомпонентной табуированной и обсценной лексики – shit. Система запомнит, что во втором посте есть признаки электронной травли и выведет на экран сообщение Cyberbullying in the tweet with mention @LifeasMiya_. В ходе обработки третьего сообщения компьютер выделит и запомнит меншен его автора @WelshGasDoc. В этом случае система также не найдет ненормализованных единиц и определенных типов негативных эмодзи. Сравнение единиц твита с лингвистической частью базы данных позволит системе установить совпадение с элементом списка лексических единиц, называющих людей с ограниченными физическими и умственными возможностями – imbecile и вывести на экран сообщение Cyberbullying in the tweet with mention @WelshGasDoc. Поскольку весь массив твитов обработан, и найдены сообщения с признаками кибербуллинга, на экране появится сообщение You are a victim of cyberbullying. Mentions – @HoeshuaHong, @LifeasMiya_, @WelshGasDoc. После этого система осуществит блокировку твитов с данными меншенами.
Рассмотрим еще один пример. Предположим, что в течение суток пользователю англоязычного сегмента сети Twitter поступили следующие твиты от одного пользователя с меншеном @seokkjingaycult:
- @seokkjingaycult ill tell you what kinda vibes u give off
- @seokkjingaycult Obvi when u gay, u gotta behave in only one way. DUH!
- @seokkjingaycult
Система начинает обработку каждого поста. После извлечения меншена из первого твита и сохранения его в памяти она проверит наличие в сообщении ненормализованных лексических единиц. Пост содержит единицы ill, kinda, u, которые в соответствии с одним из списков базы данных будут заменены на правильные варианты написания will, kind of, you. Сравнение единиц сообщения со всеми элементами базы данных позволит системе сделать вывод о том, что первый твит не содержит признаков электронной травли. В результате аналогичной обработки второго поста компьютер осуществит автоматическую нормализацию его единиц obvi, u, gotta, заменив их на obviously, you, got to. Сравнивая все единицы сообщения с элементами базы данных, компьютер определит отсутствие в нем признаков кибербуллинга. Третий пост содержит только эмодзи «рвота», который является ним из средств реализации электронной травли. Однако одного идеографического знака недостаточно, чтобы сформулировать общий вывод о том, что пользователь является жертвой буллера с меншеном @seokkjingaycult. Поэтому система не будет блокировать это сообщение, а продолжит формирование и анализ массива постов с подобным меншеном в последующие дни.
На основе разработанной формальной модели может быть написан программный код, представляющий собой демоверсию автоматического анализатора англоязычных твитов на предмет наличия в них признаков кибербуллинга.