При анализе статистических данных в автоматизированных информационных системах хозяйства автоматики и телемеханики возникает необходимость в нахождении связи между факторными и результативными переменными (средней величиной фактического времени до восстановления и регламентным временем устранения отказов, количество пар поездов в сутки и количеством задержанных поездов и др.). Первые представляют собой признаки, способствующие изменению таковых, связанных с ними (вторыми).
Для определения зависимостей между статистическими данными можно применять корреляционный анализ, который будет использоваться с целью проверки значимости двух и более переменных. Метод корреляционного анализа также позволяет обрабатывать статистические данные с определением коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между двумя величинами, для установления между ними статистических взаимосвязей.
С помощью метода корреляционного анализа можно решать следующие задачи: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными. Корреляционный анализ также предполагает определение зависимости между изучаемыми величинами, в связи с чем, задачи можно дополнить: выявлением факторов, оказывающих наибольшее влияние на результативный признак; выявлением неизученных ранее причин связей; построением корреляционной модели с ее параметрическим анализом.
На Российских железных дорогах хозяйство автоматики и телемеханики в рамках реализации общей концепции цифровой трансформации использует несколько автоматизированных информационных систем сбора и анализа статистических данных о работе устройств железнодорожной автоматики и телемеханики (ЖАТ), перечень которых постепенно расширяется.
На данный момент накоплен достаточно большой объем информации о работе технических средств, который продолжает увеличиваться. В связи с чем, появляется заинтересованность в обработке этой информации с целью выявления знаний в виде функциональных зависимостей и последующего принятия управленческих решений по техническому содержанию инфраструктуры железнодорожного транспорта, а именно последовательной реализации задач предиктивной и прескриптивной аналитики.
В настоящее время данные о функционировании инфраструктуры распределены в различных информационных системах. Из опыта эксплуатации определено, что данных каждой из информационных систем по отдельности недостаточно для качественной оценки технического состояния инфраструктуры: необходимо учитывать, как отказы технических средств, так и предотказные состояния и отступления от норм их содержания [1].
Для выполнения качественной оценки создаются информационные системы обработки данных, которые могут решать задачи их агрегирования из различных систем. Например, АС АНШ – автоматизированная система анализа надежности технических средств железнодорожной автоматики и телемеханики. В данной системе автоматически производятся ряд достаточно сложных расчетов рисков [2] и показателей надежности функционирования инфраструктуры [3, 4], которые ручным способом с достаточным качеством реализовать в ограниченное время не представляется возможным.
В системе агрегируются данные из таких информационных ресурсов, как: КАСАНТ, АСУ-Ш-2, СТДМ, ЕК АСУИ. В результате предварительной обработки они представляются в виде, пригодном для выполнения различных статистических расчетов.
В АС АНШ впервые успешно решена задача агрегирования данных о функционировании устройств ЖАТ и появилась возможность анализа данных на объективность и непротиворечивость, поиска ошибок.
На основе сводных отчетов АС АНШ, сформированных по аналогичным данным различных структурных подразделений уровня дороги, можно провести корреляционный анализ с целью поиска статистических зависимостей между различными вычисляемыми показателями и их сравнения между собой.
В таблице 1 представлены значения полей, подвергавшихся анализу сводных таблиц. Корреляция оценивается попарно для всех сочетаний полей.
Таблица 1
Перечень полей данных для корреляционного анализа
Название поля |
Код |
1 |
2 |
Класс железнодорожной линии |
1 |
Специализация железнодорожной линии |
2 |
Количество пар поездов в сутки |
3 |
Количество отказов 1 и 2 категории за 3 года |
4 |
Продолжительность отказов 1 и 2 категории за 3 года, мин |
5 |
Количество отказов, вызвавших задержку в движении поездов за 3 года |
6 |
Количество задержанных поездов за три года |
7 |
Суммарная продолжительность задержки поездов за 3 года, мин |
8 |
Регламентное время устранения отказов, мин |
9 |
1 |
2 |
Количество предотказных состояний за 3 года |
10 |
Количество отступлений от норм содержания за 3 года |
11 |
Количество отказов 3 категории и без категории за 3 года |
12 |
Продолжительность отказов 3 категории и без категории за 3 года |
13 |
Количество РЦ/путей |
14 |
Флаг «Станция/перегон» |
15 |
Номенклатура предотказных состояний по проекту |
16 |
Номенклатура отказов по проекту |
17 |
Значения полей заполняются для каждой из систем ЖАТ в пределах дороги. Общее количество записей совпадает с количеством систем ЖАТ. Для удобства результаты ранжируются по значению коэффициента корреляции. Качественная оценка тесноты взаимосвязи между показателями выполняется по шкале Чеддока.
В таблице 2 приведен пример с результатами оценки корреляции по данным отдельной железной дороги.
Таблица 2
Результаты оценки корреляции по железной дороге
Коэффициенты корреляции |
Значения |
Величина связи |
Коэффициент корреляции между величинами 16 и 17 |
0,952397 |
Весьма высокая положительная |
Коэффициент корреляции между величинами 4 и 6 |
0,941255 | |
Коэффициент корреляции между величинами 7 и 8 |
0,848684 |
Высокая положительная |
Коэффициент корреляции между величинами 6 и 7 |
0,716681 | |
Коэффициент корреляции между величинами 10 и 11 |
0,683493 |
Заметная положительная |
Коэффициент корреляции между величинами 4 и 7 |
0,678373 | |
Коэффициент корреляции между величинами 4 и 5 |
0,654836 | |
Коэффициент корреляции между величинами 14 и 17 |
0,644713 | |
Коэффициент корреляции между величинами 5 и 6 |
0,623173 | |
Коэффициент корреляции между величинами 14 и 16 |
0,594125 | |
Коэффициент корреляции между величинами 11 и 16 |
0,526605 | |
Коэффициент корреляции между величинами 3 и 7 |
0,510758 | |
Коэффициент корреляции между величинами 12 и 13 |
0,505052 | |
Коэффициент корреляции между величинами 11 и 17 |
0,501369 | |
Коэффициент корреляции между величинами 3 и 17 |
0,497297 |
Умеренная положительная |
Коэффициент корреляции между величинами 5 и 7 |
0,492319 | |
Коэффициент корреляции между величинами 11 и 14 |
0,489071 | |
Коэффициент корреляции между величинами 6 и 8 |
0,479168 | |
Коэффициент корреляции между величинами 10 и 17 |
0,465877 | |
Коэффициент корреляции между величинами 4 и 10 |
0,465808 | |
Коэффициент корреляции между величинами 10 и 16 |
0,458948 | |
Коэффициент корреляции между величинами 4 и 8 |
0,45818 | |
Коэффициент корреляции между величинами 11 и 12 |
0,456649 | |
Коэффициент корреляции между величинами 3 и 16 |
0,45241 | |
Коэффициент корреляции между величинами 6 и 10 |
0,443746 |
Отдельно возможно оценивать корреляцию для связанных величин. Так, в результате оценки корреляции между средней величиной фактического времени до восстановления и регламентным временем устранения отказов, была получена высокая положительная корреляционная связь на уровне 0.74, что говорит о хорошей обоснованности назначения регламентного времени.
Следует отметить, что аналогичные расчеты, проведенные по другой железной дороге, дают существенно отличные значения коэффициентов корреляции между теми же величинами. Очень показательным является то, что корреляция между средней величиной фактического времени до восстановления и регламентным временем устранения отказов для другой дороги составила всего лишь 0.15. То есть связь практически отсутствует.
Таким образом, корреляционный анализ данных о различных инцидентах, регистрируемых различными структурными подразделениями хозяйства автоматики и телемеханики наряду с другими видами анализа может быть использован для количественной оценки их объективности и последующей выработки решений по ее повышению.