Конкорданс произведения «О происхождении и деяниях гетов» Иордана: опыт создания с использованием Orange 3

В статье рассматривается опыт построения компьютерного конкорданса латиноязычного произведения Иордана «О происхождении и деяниях гетов». Приведено понятие конкорданса и основные направления его использования. Для составления конкорданса предложена визуальная среда программирования Orange 3, не требующая написания программного кода. Был построен рабочий процесс, который может быть использован для других текстовых коллекций с минимальными настройками.

Аннотация статьи
цифровая гуманитаристика
корпусная лингвистика
конкорданс
Orange
Иордан
О происхождении и деяниях гетов
Ключевые слова

Цифровые технологии стремительно меняют все сферы жизни современного общества. В бизнесе, науке, журналистике и многих других сферах всё большую роль играет анализ данных, количество которых накапливается с возрастающей скоростью. Не стала исключением и область гуманитарных исследований, внутри которой возникло новое направление – цифровая гуманитаристика (англ. Digital Humanities), объединяющие методики и практики гуманитарных, социальных и вычислительных наук с целью изучения возможностей применения и интерпретации новых цифровых и информационно-коммуникационных технологий в гуманитарных науках и образовании. Одной из тенденций развития цифровой гуманитаристики является постепенное всё более широкое использование методов интеллектуального анализа данных и технологий машинного обучения. Поскольку историческая наука преимущественно имеет дело с письменными источниками, для нас наибольший интерес должны представлять методы интеллектуального анализа текста (англ. text mining). Интеллектуальный анализ текстов – это одно из направлений сферы искусственного интеллекта, цель которого автоматическое получение информации из коллекций текстовых документов на основе методов обработки естественного языка (англ. natural language processing, NLP) и машинного обучения (англ. machine learning) [11, p. 1–15]. Однако, несмотря на точность и надежность современных методов интеллектуального анализа текстов, их широкое применение сталкивается с множеством проблем [12]. Связано это, в первую очередь, с незнанием историками хотя бы основ программирования. Большинство проектов использующих методы интеллектуального анализа текстов реализуются при помощи библиотек на языке программирования Python, реже R. Определенным выходом в такой ситуации является использование инструментов, не требующих знания программирования. Самыми известными примерами подобных бесплатных инструментов можно назвать Voyant Tools (https://voyant-tools.org/) и AntConc (http://www.laurenceanthony.net/software/antconc/).

В данной статье мы предполагаем раскрыть возможности визуальной среды анализа данных Orange 3 [https://orangedatamining.com/] по созданию конкордансов текстовых коллекций, на конкретном примере конкорданса для латиноязычного текста «О происхождении и деяниях гетов» Иордана – одно из крупнейших произведений эпохи раннего европейского средневековья. Результатом станет готовый проект, применимый к другим текстовым коллекциям.

Конкорданс – это упорядоченный список всех употреблений заданных слов (или выражений) в контексте со ссылками на источник в заданном тексте или в работах отдельных авторов [1; 13, p. 7; 14, p. 8]. Конкорданс был исторически первым вариантом текстового корпуса. В XIII веке кардиналом Гуго де Сент-Шером был составлен конкорданс к латиноязычному тексту Библии – Вульгате. Работа потребовала привлечение 500 монахов-доминиканцев. Первым конкордансом, созданным с использованием компьютерной техники, стал Index Thomisticus – конкорданс полного собрания сочинений Фомы Аквинского. Примерами современных конкордансов могут служить конкорданс произведений У. Шекспира [7], публицистики Ф. Достоевского [5], текстов М. Ломоносова [2].

Конкорданс являются эффективными инструментами изучения текста. Компьютерный конкорданс позволяет легко выявить и сравнить все контексты употребления слова, значительно повысить эффективность отбора, обработки и вывода результатов. В лингвистике конкордансы используются для решения следующих задач: 1) сравнение различных вариантов использования одного и того же слова; 2) анализ ключевых слов; 3) анализ частотности слов и словосочетаний; 4) поиск и исследование фраз и идиом; 5) поиск перевода терминологии (для двуязычных конкордансов); 6) создание списков слов при публикации [6]. Кроме того конкордансы используются при изучении языка. Для историков, как нам кажется, конкорданс полезен прежде всего основной своей функцией – способностью найти все варианты употребления того или иного слова в объемных корпусах текста, для уточнения их значений.

Для автоматического составления конкордансов существуют специальные программы – конкордансеры. В исторических исследованиях наибольшей популярностью пользуется бесплатный AntConc. Но его существенным недостатком является отсутствие морфологического анализатора. В результате он не подходит для работы с языками, отличающимися развитой морфологией. Это ограничение можно преодолеть, используя сторонние лемматизаторы [4]. Но на наш взгляд наиболее удобным способом будет использование визуальной среды анализа данных Orange 3 [8, 9]

Orange 3 – это бесплатный инструмент с открытым исходным кодом для интеллектуального анализа данных, визуализации и построения моделей машинного обучения. Orange разработан в лаборатории биоинформатики на факультете компьютерных и информационных наук Университета Любляны. Работа с Orange производится на основе графического интерфейса и не предполагает написание кода. В ходе анализа данных пользователь выстраивает так называемый рабочий процесс (англ. workflow) – последовательность шагов или действий, выполняемых над данными. Рабочий процесс создается путём манипуляций с иконками – виджетами, которые мышкой выкладываются на рабочий стол приложения. Каждый виджет представляет собой программный блок, который каким-либо образом обрабатывает поступившую на его вход информацию и передаёт её дальше для обработки, визуализации или сохранения следующим виджетом. Orange можно свободно скачать с сайта проекта (https://orangedatamining.com/). Также он входит в состав платформы для анализа данных Anaconda (https://www.anaconda.com/). В нашей работе мы использовали портативный вариант Orange версии 3.30.2.

Изначально Orange содержит пять групп виджетов для загрузки и работы с данными, визуализации, набор алгоритмов машинного обучения, кросс-валидации. Для интеллектуального анализа текстов необходимо дополнительно загрузить расширение Orange3 Text. Это расширение предоставляет доступ к публичным данным, таким как архив NY Times, Twitter, Википедия и PubMed, а также добавляет в меню виджеты для предварительной обработки текстов, построения векторных пространств, анализа текстов и визуализации.

Важной для нас особенностью Orange является то, что эта платформа позволяет работать с текстами на более чем 50 языках. Благодаря подключению к виджету Preprocess Text набора обученных моделей UDPipe [15] появилась возможность проводить предварительную обработку не только современных языков, но и латыни (3 модели), древнегреческого (2 модели), готского, коптского языков и др.

Конкорданс строился на основе латиноязычного текста памятника с сайта проекта «The Latin Library» [10]. Текст был разделен на главы, сохраненные в отдельные файлы. В системе Orange 3 был создан проект и построен рабочий процесс (рисунок).

Рис. Рабочий процесс составления конкорданса в Orange 3

Файлы с главами произведения Иордана были импортированы и преобразованы в текстовый корпус. Тексты были подвергнуты предварительной обработке: буквы приведены к нижнему регистру, текст разбит на слова, слова лемматизированы, т.е. приведены к словарной форме. Виджет Word Cloud позволяет выбрать интересующее нас слово в списке передать его виджет Concordance, который выводи все контексты употребления этого слова в тексте. В итоге можно посмотреть конкретные документы с интересующим контекстом через виджет Corpus Viewer.

Все материалы проекта доступны на странице [3]. Составленный конкорданс выполняет основные исследовательские функции, подобно иным компьютерным конкордансам: позволяет составить полный список слов из корпуса текстов, определить контексты их употребления и дать ссылку на конкретные документы. Файл проекта позволяет использовать его для составления конкордансов из иных текстов. Достаточно импортировать в него интересующие тексты через виджет Import Documents. Надеемся, что он может быть полезен другим исследователям для проведения собственных изысканий.

Текст статьи
  1. Герд А.С. Автоматизация в лексикографии и словари-конкордансы // Филологические науки. 1981. № 1. С. 72-78.
  2. Конкорданс к текстам Ломоносова [Электронный ресурс]. URL: http://feb-web.ru/feb/lomoconc/abc/ (дата обращения: 25.11.2021).
  3. Кузнецов А.В. Конкорданс произведения «О происхождении и деяниях гетов» Иордана [Электронный ресурс]. URL: https://alexeyvkuznetsov.github.io/concordance.html (дата обращения: 25.11.2021).
  4. Селеверстов В. Как провести корпусное исследование? Помогите! [Электронный ресурс]. URL: https://sysblok.ru/knowhow/kak-provesti-korpusnoe-issledovanie-pomogite/ (дата обращения: 25.11.2021).
  5. Словарь-конкорданс публицистики Ф. М. Достоевского [Электронный ресурс]. URL: https://philolog.petrsu.ru/fmdost/concordance/user_new/ (дата обращения: 25.11.2021).
  6. Толдова С.Ю. Конкорданс [Электронный ресурс]. URL: http://www.lomonosov-fund.ru/enc/ru/encyclopedia:0127200 (дата обращения: 25.11.2021).
  7. Concordance of Shakespeare's complete works [Электронный ресурс]. URL: https://www.opensourceshakespeare.org/concordance/ (дата обращения: 25.11.2021).
  8. Demšar J., Blaž Z. Orange: Data Mining Fruitful and Fun – A Historical Perspective // Informatica (Slovenia). Vol 37, No 1. 2013. Pp. 55-60. URL: https://www.informatica.si/index.php/informatica/article/view/434 (дата обращения: 25.11.2021).
  9. Demšar J., Curk T., Erjavec A. et al. Orange: data mining toolbox in Python // The Journal of Machine Learning Research. Vol. 14. Issue 1. January 2013. Pp 2349–2353.
  10. Iordanis De origine actibusque Getarum [Электронный ресурс]. URL: https://www.thelatinlibrary.com/iordanes1.html (дата обращения 25.11.2021).
  11. Kwartler T. Text mining in practice with R. NJ: John Wiley & Sons, 2017. 320 p.
  12. McGillivray B., Poibeau T., Fabo P.R. Digital Humanities and Natural Language Processing: «Je t’aime... Moi non plus» // Digital Humanities Quarterly. Volume 14. Number 2. 2020. [Электронный ресурс]. URL: http://www.digitalhumanities.org/dhq/vol/14/2/000454/000454.html (дата обращения: 25.11.2021).
  13. O'Keeffe A., McCarthy M. The Routledge Handbook of Corpus Linguistics (Routledge Handbooks in Applied Linguistics). Abingdon: Routledge, 2010. 682 p.
  14. Sinclair J. Corpus, Concordance, Collocation. Oxford: Oxford Univ. Pr., 1991. 179 p.
  15. Straka M. UDPipe 2.0 Prototype at CoNLL 2018 UD Shared Task // Proceedings of CoNLL 2018: The SIGNLL Conference on Computational Natural Language Learning. Brussels, 2018. P. 197-207.
Список литературы
Ведется прием статей
Прием материалов
c 14 мая по 20 мая
Осталось 2 дня до окончания
Публикация электронной версии статьи происходит сразу после оплаты
Справка о публикации
сразу после оплаты
Размещение электронной версии журнала
24 мая
Загрузка в eLibrary
24 мая
Рассылка печатных экземпляров
01 июня