Главная
АИ #24 (206)
Статьи журнала АИ #24 (206)
Технологии сбора и обработки данных

Технологии сбора и обработки данных

Рубрика

Информационные технологии

Ключевые слова

информационные технологии
базы данных
интеграция данных
сбор и обработка данных
хранилище данных

Аннотация статьи

В данной статье проведен анализ современных публикаций, связанных с задачей цифрового сбора, обработки и анализа данных. Также рассмотрены существующие технологии сбора и обработки данных. Выявлены процедуры технологического процесса обработки информации. Представлен анализ программных продуктов, которые могут быть использованы для хранения и визуализации данных и сделаны выводы и намечены пути дальнейшего развития.

Текст статьи

Введение

В наши дни крупные организации имеют множество офисов в разных городах, или даже странах, а также множество сотрудников, заказчиков, клиентов, бизнес-пользователей и инвесторов. Каждому для их работы нужны документы, отчёты или таблицы, которые могут храниться в компании в разных источниках. Данный процесс будет весьма долгим, так как сначала необходимо будет узнать, где именно хранятся нужные данные. Далее нужно узнать, есть ли у пользователя доступ к запрашиваемым данным, потому что существуют конфиденциальные данные компании, к которым доступ ограничен [11]. Для этого необходимо согласовать доступ с большим количеством руководителей, и только потом получить нужные данные.

Но формат данных в разных источниках могут быть разный. Например, существует несколько вариантов СУБД для хранения данных, и, чтобы использовать их в других системах, сначала данные необходимо будет перевести в требуемый формат, а потом уже работать с ними.

Таким образом, у организации возникают трудности в работе с данными, на получение которых тратиться много времени и, соответственно, работа всей компании может замедлиться.

Актуальность решения данной проблемы состоит в том, чтобы пользователям в организациях было легче работать с большим объёмом данных, хранить их в одном месте и в едином формате. Данная технология поможет экономично использовать денежные и временные ресурсы компании и пользователей, а также оптимизировать запрос к данным.

Цель исследования: Обзор существующих технологий по сбору, обработке и анализа данных.

Задачи исследования:

  1. Изучить способы сбора и обработки данных.
  2. Изучить программные продукты для визуализации данных.
  3. Выделить недостатки существующих технологий.

Основная часть

Способы сбора информации:

Сбор информации предполагает получение максимально выверенной исходной информации и является одним из ответственных этапов в работе с информацией [4, с. 104]. Технология сбора подразумевает использование определенных методов сбора информации и технических средств, выбираемых в зависимости от вида информации и применяемых методов ее сбора. Заключительным этапом сбора является ее преобразование в данные, иными словами в информацию, пригодную для обработки средствами вычислительной техники.

Когда сбор информации завершен, собранные данные сводятся в систему для создания, хранения и поддержания в актуальном состоянии информационного фонда, необходимого для выполнения различных задач в деятельности объекта управления.

В общем случае технологический процесс обработки информации включает такие процедуры как [9, с. 325-330]:

  • Сбор и регистрация информации;
  • Обработка информации;
  • Хранения, поиск информации;
  • Передача информации;
  • Представление информации для анализа и принятия решений [6, с. 73].

Способы обработки информации:

Централизованный способ – предполагает сосредоточение данных в информационно-вычислительном центре, выполняющем все основные действия технологического процесса обработки информации. Достоинством такого способа обработки информации, является дешевизна обработки больших объемов информации за счет загрузки вычислительных средств.

Децентрализованный способ характеризует рассредоточением информационно-вычислительных ресурсов и распределением технологического процесса обработки информации по местам возникновения и потребления информации. Достоинством данного способа является повышение оперативности обработки информации и решения поставленных задач, применение надёжных средств передачи информации [7, с. 237].

Программные продукты для визуализации данных:

В последнее время стали очень популярны аналитические системы управления базами данных [2, с. 32-34]. Это связано с тем, что во многих организациях накоплены огромные массивы информации, из которых специалисты по работе с данными научились извлекать ценность [12, с. 91-93]. В то время как традиционные СУБД со строчным типом хранения не позволяют эффективно справляться с обработкой «тяжёлых» OLAP-запросов, аналитические, с их возможностью хранить данные в столбцах, специально ориентированы на работу с нагрузками такого типа [16, с. 18-19].

Особенностью массово-параллельной архитектуры [10] (Massive parallel processing, MPP) является физическое разделение памяти узлов, объединенных в кластер [14].

Кратко рассмотрим, какие технологии существуют на сегодняшний день.

EMC Greenplum – представляет собой реляционную СУБД, имеющую массово-параллельную архитектуру без разделения ресурсов на основе PostgreSQL.

Два основные отличительные особенности данного продукта – горизонтальная масштабируемость (возможность добавления узлов в кластер) и хранение данных в столбцах (обеспечивающее практическую эффективность сжатия данных и снижение трафика ввода-вывода для больших запросов) [3, с. 129-133].

Teradata – это параллельная реляционная СУБД, которая работает на разных операционных системах. Фактически Teradata является большим сервером баз данных, который взаимодействует со множеством клиентов посредством протокола TCP/IP или через соединение с каналом универсальной вычислительной машины (mainframe) IBM. Разнообразие поддерживаемых ОС – одна из причин, почему Teradata имеет открытую архитектуру.

Высокую скорость доступа к данным Teradata обеспечивает за счёт MPP. Teradata предлагает серверы Intel, соединённые в частную сеть BYNET для обмена сообщениями. Системы Teradata предлагаются с фирменными дисковыми массивами для хранения баз данных.

Apache Hadoop – это среда программирования программного обеспечения, где хранятся большие объёмы данных, которые используются для выполнения вычислений. Проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из множества узлов.

Недостатки существующих технологий:

Несмотря на такие оптимистичные показатели скорости, MPP-СУБД не предназначена для быстрой обработки индивидуальных транзакций, как, например, OLTP-система. Разберём запись данных в MPP-базу. Данное действие происходит не мгновенно, а представляет собой последовательность нескольких шагов [1, с. 24-25]:

  • сначала выполняется синтаксический разбор SQL-выражения;
  • далее строится план выполнения SQL-запроса;
  • после запрос отправляется на все узлы кластера и ожидает от каждого из них подтверждения успешного выполнения. При этом возникает небольшая задержка по времени, следствие обмена данными по сети.

Greenplum

Выделим следующие недостатки Greenplum:

  • высокие требования к ресурсам центрального процессора, памяти и жестким дискам, а также к сетевой инфраструктуре;
  • низкая производительность при большом объёме простых запросов, выполняющих одну операцию, потому что каждая транзакция на мастере порождает множество зеркальных транзакций на сегментах;
  • неоптимальное распределение сегментов, что может негативно отразиться на производительности кластера при его расширении.

Teradata

Главным недостатком СУБД Teradata относительно других технологий, является высокая стоимость приобретения, как системы в целом, так и стоимость хранения данных [5, с. 54]. Второй недостаток – небольшой инструментарий для работы с СУБД. Третьим недостатком, можно сказать, является то, что Teradata получила меньшее распространение чем, например, Hadoop. И именно из-за этого недостатка существуют проблемы с внедрением и сопровождением данной СУБД.

Hadoop

Данный фреймворк значительно проигрывает конкурентам в производительности в таких темах, как [15, с. 57-58]:

  • Database joins (compare any SQL database);
  • OLTP (compare VoltDB);
  • Realtime analytics (compare Cloudscale);
  • Supercomputing, e.g., modelling, simulation, fluid dynamics;
  • Graph computing (compare Pregel);
  • Interactive analysis of big data (compare Dremel);
  • Incremental analysis of big data.

Нужно помнить также, что: Hadoop – фреймворк, а не готовое решение, его сложнее сопровождать и выполнять AdHoc-анализ; в некоторых случаях Hadoop очень медленный [13, с. 2-9].

Таким образом, массивно-параллельные СУБД предназначены для хранения и обработки больших объёмов данных, которые могут доходить до сотен ТБ. Каждая технология имеет свои недостатки, главное определиться, с какими потерями компания готова мириться, а с какими нет. Для оперативных транзакций и быстрого построения аналитических отчётов лучше всего подойдут такие технологии, как колоночные базы [8, с. 90] Arenadata QuickMarts и ClickHouse.

Выводы

Рассмотрены существующие технологии сбора и обработке данных. Проведён анализ технологий, способствующих визуализации большого количества данных из единого хранилища потребителям. Намечены пути дальнейшей оптимизации существующей технологии сбора и обработки данных.

Список литературы

  1. Бебенина Е.В., Ёлкин О.М. Повышение качества управления образованием с использованием технологии обработки больших данных // Отечественная и зарубежная педагогика. 2020 г. С. 24-25.
  2. Гаврилов А.В., Куликов С.В., Голкина Г.Е., Тихонова Н.А. Повышение уровня подготовки IT-специалистов на основе анализа требований рынка труда // Открытое образование. 2019 г. С. 32-34.
  3. Демина Н.Ю. Компьютерные технологии обработки данных // Пермский педагогический журнал. 2021 г. C. 129-133.
  4. Емельянова С.В. Информационные технологии и вычислительные системы: Обработка информации и анализ данных // Программная инженерия. Математическое моделирование. Прикладные аспекты информатики. 2015 г. С. 104.
  5. Исаев Г.Н. Модель идентификации свойств ошибок в технологии обработки данных // Открытое образование. 2018 г. С. 54.
  6. Лыфарь Д.А. Параллельные алгоритмы обработки реляционных баз данных // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2010 г. С. 73.
  7. Овсянникова А.К., Макаревич Н.С. Система сбора и обработки данных с использованием беспроводных технологий // Системный анализ в проектировании и управлении. 2020 г. С. 237.
  8. Портнов М.С. Речнов А.В. Филиппов В.П. Потенциал применения современных информационных технологий в бизнес-аналитике // Вестник Российского университета кооперации. 2020 г. С. 90.
  9. Сенько А. Работа с BigData в облаках. Обработка и хранение данных с примерами из MIcrosoft Azure // СПб.: Питер, 2019 г. С. 325-330.
  10. Сербин В.В., Дуйсебекова К.С., Алтайбек А. Исследование производительности систем с массивно-параллельной архитектурой на больших данных// Евразийский союз учёных. 2016 г. С. 118-122.
  11. Федеральный закон «Об информации, информационных технологиях и о защите информации» от 27.07.2006 № 149-ФЗ // Нормативный документ Российской Федерации. 2006 г. Ст. 8.
  12. Хасанов Д.С., Свистунова А.С. Технология сбора данных в логистике // Системный анализ в проектировании и управлении. 2021 г. С. 91-93.
  13. Щербакова М.В., Чан Ван Фу, Сай Ван Квонг. Грамматика запросов для хранилища разнородных данных в проактивных системах // Программные продукты и системы. 2018 г. С. 2-9.
  14. David Loshin. ETL (Extract, Transform, Load) // Business Intelligence, 2nd. Morgan Kaufmann, 2012 г.
  15. Hassan Asghar, Babar Nazir. Analysis and implementation of reactive fault tolerance techniques in Hadoop: a comparative study // The Journal of Supercomputing. 2021 г. С. 57-58.
  16. Jiawei Han. OLAP Mining: An Integration of OLAP with Data Mining// Data Mining and Reverse Engineering. 1998. С. 18-19.

Поделиться

1862

Кондарова К. И. Технологии сбора и обработки данных // Актуальные исследования. 2024. №24 (206). Ч.I.С. 38-41. URL: https://apni.ru/article/9581-tehnologii-sbora-i-obrabotki-dannyh

Обнаружили грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики)? Напишите письмо в редакцию журнала: info@apni.ru

Похожие статьи

Другие статьи из раздела «Информационные технологии»

Все статьи выпуска
Актуальные исследования

#3 (238)

Прием материалов

18 января - 24 января

осталось 3 дня

Размещение PDF-версии журнала

29 января

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

12 февраля