Взаимозависимость статистических данных в автоматизированных информационных системах хозяйства автоматики и телемеханики на основе метода корреляции

В статье рассматривается необходимость нахождения связи между факторными и результативными переменными при анализе данных автоматизированных информационных систем хозяйства автоматики и телемеханики. Корреляционный анализ данных о различных инцидентах, регистрируемых различными структурными подразделениями хозяйства автоматики и телемеханики, может быть использован для оценки их объективности.

Аннотация статьи
надежность
информация
статистика
обнаружение ошибок
прогнозная аналитика
автоматизированная система управления
Ключевые слова

При анализе статистических данных в автоматизированных информационных системах хозяйства автоматики и телемеханики возникает необходимость в нахождении связи между факторными и результативными переменными (средней величиной фактического времени до восстановления и регламентным временем устранения отказов, количество пар поездов в сутки и количеством задержанных поездов и др.). Первые представляют собой признаки, способствующие изменению таковых, связанных с ними (вторыми).

Для определения зависимостей между статистическими данными можно применять корреляционный анализ, который будет использоваться с целью проверки значимости двух и более переменных. Метод корреляционного анализа также позволяет обрабатывать статистические данные с определением коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между двумя величинами, для установления между ними статистических взаимосвязей.

С помощью метода корреляционного анализа можно решать следующие задачи: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными. Корреляционный анализ также предполагает определение зависимости между изучаемыми величинами, в связи с чем, задачи можно дополнить: выявлением факторов, оказывающих наибольшее влияние на результативный признак; выявлением неизученных ранее причин связей; построением корреляционной модели с ее параметрическим анализом.

На Российских железных дорогах хозяйство автоматики и телемеханики в рамках реализации общей концепции цифровой трансформации использует несколько автоматизированных информационных систем сбора и анализа статистических данных о работе устройств железнодорожной автоматики и телемеханики (ЖАТ), перечень которых постепенно расширяется.

На данный момент накоплен достаточно большой объем информации о работе технических средств, который продолжает увеличиваться. В связи с чем, появляется заинтересованность в обработке этой информации с целью выявления знаний в виде функциональных зависимостей и последующего принятия управленческих решений по техническому содержанию инфраструктуры железнодорожного транспорта, а именно последовательной реализации задач предиктивной и прескриптивной аналитики.

В настоящее время данные о функционировании инфраструктуры распределены в различных информационных системах. Из опыта эксплуатации определено, что данных каждой из информационных систем по отдельности недостаточно для качественной оценки технического состояния инфраструктуры: необходимо учитывать, как отказы технических средств, так и предотказные состояния и отступления от норм их содержания [1].

Для выполнения качественной оценки создаются информационные системы обработки данных, которые могут решать задачи их агрегирования из различных систем. Например, АС АНШ – автоматизированная система анализа надежности технических средств железнодорожной автоматики и телемеханики. В данной системе автоматически производятся ряд достаточно сложных расчетов рисков [2] и показателей надежности функционирования инфраструктуры [3, 4], которые ручным способом с достаточным качеством реализовать в ограниченное время не представляется возможным.

В системе агрегируются данные из таких информационных ресурсов, как: КАСАНТ, АСУ-Ш-2, СТДМ, ЕК АСУИ. В результате предварительной обработки они представляются в виде, пригодном для выполнения различных статистических расчетов.

В АС АНШ впервые успешно решена задача агрегирования данных о функционировании устройств ЖАТ и появилась возможность анализа данных на объективность и непротиворечивость, поиска ошибок.

На основе сводных отчетов АС АНШ, сформированных по аналогичным данным различных структурных подразделений уровня дороги, можно провести корреляционный анализ с целью поиска статистических зависимостей между различными вычисляемыми показателями и их сравнения между собой.

В таблице 1 представлены значения полей, подвергавшихся анализу сводных таблиц. Корреляция оценивается попарно для всех сочетаний полей.

Таблица 1

Перечень полей данных для корреляционного анализа

Название поля

Код

1

2

Класс железнодорожной линии

1

Специализация железнодорожной линии

2

Количество пар поездов в сутки

3

Количество отказов 1 и 2 категории за 3 года

4

Продолжительность отказов 1 и 2 категории за 3 года, мин

5

Количество отказов, вызвавших задержку в движении поездов за 3 года

6

Количество задержанных поездов за три года

7

Суммарная продолжительность задержки поездов за 3 года, мин

8

Регламентное время устранения отказов, мин

9

1

2

Количество предотказных состояний за 3 года

10

Количество отступлений от норм содержания за 3 года

11

Количество отказов 3 категории и без категории за 3 года

12

Продолжительность отказов 3 категории и без категории за 3 года

13

Количество РЦ/путей

14

Флаг «Станция/перегон»

15

Номенклатура предотказных состояний по проекту

16

Номенклатура отказов по проекту

17

Значения полей заполняются для каждой из систем ЖАТ в пределах дороги. Общее количество записей совпадает с количеством систем ЖАТ. Для удобства результаты ранжируются по значению коэффициента корреляции. Качественная оценка тесноты взаимосвязи между показателями выполняется по шкале Чеддока.

В таблице 2 приведен пример с результатами оценки корреляции по данным отдельной железной дороги.

Таблица 2

Результаты оценки корреляции по железной дороге

Коэффициенты корреляции

Значения

Величина связи

Коэффициент корреляции между величинами 16 и 17

0,952397

Весьма высокая положительная

Коэффициент корреляции между величинами 4 и 6

0,941255

Коэффициент корреляции между величинами 7 и 8

0,848684

Высокая положительная

Коэффициент корреляции между величинами 6 и 7

0,716681

Коэффициент корреляции между величинами 10 и 11

0,683493

Заметная положительная

Коэффициент корреляции между величинами 4 и 7

0,678373

Коэффициент корреляции между величинами 4 и 5

0,654836

Коэффициент корреляции между величинами 14 и 17

0,644713

Коэффициент корреляции между величинами 5 и 6

0,623173

Коэффициент корреляции между величинами 14 и 16

0,594125

Коэффициент корреляции между величинами 11 и 16

0,526605

Коэффициент корреляции между величинами 3 и 7

0,510758

Коэффициент корреляции между величинами 12 и 13

0,505052

Коэффициент корреляции между величинами 11 и 17

0,501369

Коэффициент корреляции между величинами 3 и 17

0,497297

Умеренная положительная

Коэффициент корреляции между величинами 5 и 7

0,492319

Коэффициент корреляции между величинами 11 и 14

0,489071

Коэффициент корреляции между величинами 6 и 8

0,479168

Коэффициент корреляции между величинами 10 и 17

0,465877

Коэффициент корреляции между величинами 4 и 10

0,465808

Коэффициент корреляции между величинами 10 и 16

0,458948

Коэффициент корреляции между величинами 4 и 8

0,45818

Коэффициент корреляции между величинами 11 и 12

0,456649

Коэффициент корреляции между величинами 3 и 16

0,45241

Коэффициент корреляции между величинами 6 и 10

0,443746

Отдельно возможно оценивать корреляцию для связанных величин. Так, в результате оценки корреляции между средней величиной фактического времени до восстановления и регламентным временем устранения отказов, была получена высокая положительная корреляционная связь на уровне 0.74, что говорит о хорошей обоснованности назначения регламентного времени.

Следует отметить, что аналогичные расчеты, проведенные по другой железной дороге, дают существенно отличные значения коэффициентов корреляции между теми же величинами. Очень показательным является то, что корреляция между средней величиной фактического времени до восстановления и регламентным временем устранения отказов для другой дороги составила всего лишь 0.15. То есть связь практически отсутствует.

Таким образом, корреляционный анализ данных о различных инцидентах, регистрируемых различными структурными подразделениями хозяйства автоматики и телемеханики наряду с другими видами анализа может быть использован для количественной оценки их объективности и последующей выработки решений по ее повышению.

Текст статьи
  1. Горелик А.В., Журавлев И.А., Орлов А.В., Веселова А.С., Солдатов Д.В., Савченко П.В., Тарадин Н.А., Неваров П.А. Принципы сбора и обработки данных для расчета показателей эффективности функционирования систем железнодорожной автоматики и телемеханики: Москва: МИИТ. деп. в ВИНИТИ, №165 – В2016. 59 с.
  2. Ёрж А.Е., Горелик А.В., Солдатов Д.В., Орлов А.В. Методология управления рисками в хозяйстве автоматики и телемеханики // Автоматика, связь, информатика. 2017. №7. С. 2-6.
  3. Горелик А.В., Веселова А.С., Орлов А.В., Порошков В.С. Оптимальные алгоритмы автоматизированного нормирования и прогнозирования показателей надежности систем железнодорожной автоматики // История и перспективы развития транспорта на Севере России. 2017. № 1., том 1. С.68-72.
  4. Горелик А.В., Журавлев И.А., Орлов А.В., Веселова А.С., Солдатов Д.В., Савченко П.В., Тарадин Н.А., Неваров П.А. Нормирование показателей надежности функционирования систем железнодорожной автоматики и телемеханики на основе методологий ALARP и УРРАН: Москва: МИИТ. деп. в ВИНИТИ, №158 – В2016. 48 с.
Список литературы