Введение
Помимо ведения обычных занятий, университетские преподаватели активно участвуют в исследовательской работе. Результаты их исследований включают монографии, публикации в иностранных и отечественных журналах, тезисы, сборники конференций и т.д. Однако, как правило, сведения об исследовательской активности преподавательского состава (ППС) плохо систематизированы, и выяснить, какой конкретно преподаватель или даже какой отдел ведет работу в той или иной области, бывает трудно.
Обзор шагов для создания информационной системы
Для решения данной проблемы предлагается создание информационной системы, которая будет извлекать данные о публикационной активности ППС вуза и уменьшит время, необходимое для ручного поиска.
Рис. 1. Мнемосхема предлагаемого бизнес-процесса
Процесс извлечения данных с сайтов можно разделить на несколько этапов:
- Начало работы парсера
- Ввод данных о ППС вуза
- Проверка правильности ввода данных
- Выполнение парсера и (или) извлечение данных
- Проверка полученных данных
- Окончание работы парсера
Представим процесс получения данных в виде блок-схемы.
Рис. 2. Блок-схема по предлагаемому процессу
Разработка информационной системы учета публикационной активности профессорско-преподавательского состава вуза
С целью исследования этой концепции предлагается использовать язык программирования Python, используя Selenium и yandexdriver. В качестве среды программирования для реализации системы предлагается применять Visual Studio Code.
Python – интерпретируемый, интерактивный, объектно-ориентированный язык программирования. Он включает в себя модули, исключения, динамическую типизацию, динамические типы данных очень высокого уровня и классы. Он поддерживает множество парадигм программирования, помимо объектно-ориентированного программирования, таких как процедурное и функциональное программирование. Python сочетает в себе замечательную мощь с очень четким синтаксисом.
Selenium – это зонтичный проект с открытым исходным кодом для целого ряда инструментов и библиотек, направленных на поддержку автоматизации браузера. Он предоставляет инструмент воспроизведения для создания функциональных тестов в большинстве современных веб-браузеров без необходимости изучать язык тестовых сценариев (Selenium IDE). Он также предоставляет тестовый язык, специфичный для предметной области (Selenese), для написания тестов на ряде популярных языков.
YandexDriver – это реализация WebDriver, производная от ChromeDriver и адаптированная Яндексом, которая обеспечивает программную автоматизацию Яндекс.Браузера.
В основе работы информационной системы лежат традиционные локаторы определения местоположения в WebDriver: class name; css selector; id; name; link text; partial link text; tag name, xpath; а также регулярное выражение, позволяющее парсеру с помощью локаторов взаимодействовать с любыми элементами: self.execute(Command.FIND_ELEMENT, {"using": by, "value": value})["value"]
Рис. 3. Пример получения данных о статьях ППС с сайта elibrary.ru
Преимущества данной ИС
Вопрос автоматизации сбора данных из РИНЦ и не только, стоит на повестке дня, поскольку для проверки и анализа работ одного сотрудника ППС требуется значительное количество времени. Данная информационная система позволит с легкостью извлечь (или) спарсить данные с любой научной электронной библиотеки, что сократит время.
Также Selenium с помощью веб-драйвера yandexdriver позволяет работать с российским веб-браузером Яндекс. Таким образом внедрение российского ПО помогает сохранить цифровой суверенитет компании и обеспечить безопасность данных. Импортозамещение ПО укрепляет независимость компании от иностранных производителей.
Выводы
В статье была предложена информационная система, которая упрощает работу по получению и анализу публикационной активности ППС вуза. Этот анализ публикационной активности поможет выяснить, какой вид публикаций преимущественно использует каждая единица ППС вуза и выделить те или иные категории преподавателей.