Введение
В наши дни крупные организации имеют множество офисов в разных городах, или даже странах, а также множество сотрудников, заказчиков, клиентов, бизнес-пользователей и инвесторов. Каждому для их работы нужны документы, отчёты или таблицы, которые могут храниться в компании в разных источниках. Данный процесс будет весьма долгим, так как сначала необходимо будет узнать, где именно хранятся нужные данные. Далее нужно узнать, есть ли у пользователя доступ к запрашиваемым данным, потому что существуют конфиденциальные данные компании, к которым доступ ограничен [11]. Для этого необходимо согласовать доступ с большим количеством руководителей, и только потом получить нужные данные.
Но формат данных в разных источниках могут быть разный. Например, существует несколько вариантов СУБД для хранения данных, и, чтобы использовать их в других системах, сначала данные необходимо будет перевести в требуемый формат, а потом уже работать с ними.
Таким образом, у организации возникают трудности в работе с данными, на получение которых тратиться много времени и, соответственно, работа всей компании может замедлиться.
Актуальность решения данной проблемы состоит в том, чтобы пользователям в организациях было легче работать с большим объёмом данных, хранить их в одном месте и в едином формате. Данная технология поможет экономично использовать денежные и временные ресурсы компании и пользователей, а также оптимизировать запрос к данным.
Цель исследования: Обзор существующих технологий по сбору, обработке и анализа данных.
Задачи исследования:
- Изучить способы сбора и обработки данных.
- Изучить программные продукты для визуализации данных.
- Выделить недостатки существующих технологий.
Основная часть
Способы сбора информации:
Сбор информации предполагает получение максимально выверенной исходной информации и является одним из ответственных этапов в работе с информацией [4, с. 104]. Технология сбора подразумевает использование определенных методов сбора информации и технических средств, выбираемых в зависимости от вида информации и применяемых методов ее сбора. Заключительным этапом сбора является ее преобразование в данные, иными словами в информацию, пригодную для обработки средствами вычислительной техники.
Когда сбор информации завершен, собранные данные сводятся в систему для создания, хранения и поддержания в актуальном состоянии информационного фонда, необходимого для выполнения различных задач в деятельности объекта управления.
В общем случае технологический процесс обработки информации включает такие процедуры как [9, с. 325-330]:
- Сбор и регистрация информации;
- Обработка информации;
- Хранения, поиск информации;
- Передача информации;
- Представление информации для анализа и принятия решений [6, с. 73].
Способы обработки информации:
Централизованный способ – предполагает сосредоточение данных в информационно-вычислительном центре, выполняющем все основные действия технологического процесса обработки информации. Достоинством такого способа обработки информации, является дешевизна обработки больших объемов информации за счет загрузки вычислительных средств.
Децентрализованный способ характеризует рассредоточением информационно-вычислительных ресурсов и распределением технологического процесса обработки информации по местам возникновения и потребления информации. Достоинством данного способа является повышение оперативности обработки информации и решения поставленных задач, применение надёжных средств передачи информации [7, с. 237].
Программные продукты для визуализации данных:
В последнее время стали очень популярны аналитические системы управления базами данных [2, с. 32-34]. Это связано с тем, что во многих организациях накоплены огромные массивы информации, из которых специалисты по работе с данными научились извлекать ценность [12, с. 91-93]. В то время как традиционные СУБД со строчным типом хранения не позволяют эффективно справляться с обработкой «тяжёлых» OLAP-запросов, аналитические, с их возможностью хранить данные в столбцах, специально ориентированы на работу с нагрузками такого типа [16, с. 18-19].
Особенностью массово-параллельной архитектуры [10] (Massive parallel processing, MPP) является физическое разделение памяти узлов, объединенных в кластер [14].
Кратко рассмотрим, какие технологии существуют на сегодняшний день.
EMC Greenplum – представляет собой реляционную СУБД, имеющую массово-параллельную архитектуру без разделения ресурсов на основе PostgreSQL.
Два основные отличительные особенности данного продукта – горизонтальная масштабируемость (возможность добавления узлов в кластер) и хранение данных в столбцах (обеспечивающее практическую эффективность сжатия данных и снижение трафика ввода-вывода для больших запросов) [3, с. 129-133].
Teradata – это параллельная реляционная СУБД, которая работает на разных операционных системах. Фактически Teradata является большим сервером баз данных, который взаимодействует со множеством клиентов посредством протокола TCP/IP или через соединение с каналом универсальной вычислительной машины (mainframe) IBM. Разнообразие поддерживаемых ОС – одна из причин, почему Teradata имеет открытую архитектуру.
Высокую скорость доступа к данным Teradata обеспечивает за счёт MPP. Teradata предлагает серверы Intel, соединённые в частную сеть BYNET для обмена сообщениями. Системы Teradata предлагаются с фирменными дисковыми массивами для хранения баз данных.
Apache Hadoop – это среда программирования программного обеспечения, где хранятся большие объёмы данных, которые используются для выполнения вычислений. Проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из множества узлов.
Недостатки существующих технологий:
Несмотря на такие оптимистичные показатели скорости, MPP-СУБД не предназначена для быстрой обработки индивидуальных транзакций, как, например, OLTP-система. Разберём запись данных в MPP-базу. Данное действие происходит не мгновенно, а представляет собой последовательность нескольких шагов [1, с. 24-25]:
- сначала выполняется синтаксический разбор SQL-выражения;
- далее строится план выполнения SQL-запроса;
- после запрос отправляется на все узлы кластера и ожидает от каждого из них подтверждения успешного выполнения. При этом возникает небольшая задержка по времени, следствие обмена данными по сети.
Greenplum
Выделим следующие недостатки Greenplum:
- высокие требования к ресурсам центрального процессора, памяти и жестким дискам, а также к сетевой инфраструктуре;
- низкая производительность при большом объёме простых запросов, выполняющих одну операцию, потому что каждая транзакция на мастере порождает множество зеркальных транзакций на сегментах;
- неоптимальное распределение сегментов, что может негативно отразиться на производительности кластера при его расширении.
Teradata
Главным недостатком СУБД Teradata относительно других технологий, является высокая стоимость приобретения, как системы в целом, так и стоимость хранения данных [5, с. 54]. Второй недостаток – небольшой инструментарий для работы с СУБД. Третьим недостатком, можно сказать, является то, что Teradata получила меньшее распространение чем, например, Hadoop. И именно из-за этого недостатка существуют проблемы с внедрением и сопровождением данной СУБД.
Hadoop
Данный фреймворк значительно проигрывает конкурентам в производительности в таких темах, как [15, с. 57-58]:
- Database joins (compare any SQL database);
- OLTP (compare VoltDB);
- Realtime analytics (compare Cloudscale);
- Supercomputing, e.g., modelling, simulation, fluid dynamics;
- Graph computing (compare Pregel);
- Interactive analysis of big data (compare Dremel);
- Incremental analysis of big data.
Нужно помнить также, что: Hadoop – фреймворк, а не готовое решение, его сложнее сопровождать и выполнять AdHoc-анализ; в некоторых случаях Hadoop очень медленный [13, с. 2-9].
Таким образом, массивно-параллельные СУБД предназначены для хранения и обработки больших объёмов данных, которые могут доходить до сотен ТБ. Каждая технология имеет свои недостатки, главное определиться, с какими потерями компания готова мириться, а с какими нет. Для оперативных транзакций и быстрого построения аналитических отчётов лучше всего подойдут такие технологии, как колоночные базы [8, с. 90] Arenadata QuickMarts и ClickHouse.
Выводы
Рассмотрены существующие технологии сбора и обработке данных. Проведён анализ технологий, способствующих визуализации большого количества данных из единого хранилища потребителям. Намечены пути дальнейшей оптимизации существующей технологии сбора и обработки данных.