Устойчивые гомологии как инструмент анализа топологических инвариантов в задачах обработки временных рядов и снижения размерности глубоких нейросетей

Пушкова Анна Владимировна

Аннотация статьи

В работе исследуется применение аппарата устойчивых гомологий к двум задачам: анализу зашумлённых временных рядов и регуляризации скрытых представлений глубоких нейронных сетей. Строится единый математический фреймворк на основе фильтраций Вьеториса-Рипса и вассерштейновых метрик на пространстве диаграмм устойчивости. Для временных рядов, реконструированных методом Такенса, доказана оценка устойчивости топологических дескрипторов аттрактора к аддитивному шуму. Для нейросетей предложен дифференцируемый функционал топологической регуляризации, основанный на персистентных ландшафтах и минимизирующий паразитные топологические признаки в скрытом пространстве. Показано глубинное единство обеих задач, опирающееся на свойство непрерывности эволюции диаграмм устойчивости по параметру.

Текст статьи

Современный ландшафт анализа данных характеризуется экспоненциальным ростом как объёмов, так и размерности обрабатываемой информации. Классические статистические методы и традиционные подходы машинного обучения, оперирующие главным образом метрическими и вероятностными характеристиками данных, всё чаще обнаруживают свою ограниченность при попытке уловить глобальную структуру, форму и, в конечном счёте, семантику изучаемых явлений. В этой связи закономерным представляется обращение к аппарату алгебраической топологии – дисциплины, изначально созданной для изучения свойств пространств, инвариантных относительно непрерывных деформаций, таких как растяжение или сжатие, но не разрыв.

Долгое время применение топологии к анализу данных сдерживалось фундаментальным препятствием: классические гомотопические и гомологические инварианты чрезвычайно чувствительны к малейшим возмущениям, что делало их бесполезными для работы с дискретными, зашумлёнными выборками. Прорыв произошёл с развитием теории устойчивых гомологий, которая позволила преодолеть этот разрыв. Ключевая идея, лежащая в основе этого подхода, заключается в отказе от анализа данных на каком-то одном фиксированном масштабе. Вместо этого рассматривается мультимасштабное семейство топологических пространств, параметризованное некоторым порогом близости, и отслеживается эволюция топологических инвариантов при изменении этого порога. Фундаментальная теорема устойчивости, доказанная Коэном-Стейнером, Эдельсбруннером и Харером, утверждает, что малое изменение исходных данных в смысле расстояния Хаусдорфа приводит к малому изменению диаграммы устойчивости в смысле bottleneck-расстояния. Именно это свойство робастности открыло дорогу для широкого применения топологических методов в анализе данных.

Целью данной статьи является построение единого, математически строгого фреймворка, охватывающего обе эти задачи, формулировка соответствующих теорем устойчивости и описание вычислительных алгоритмов, пригодных для практической имплементации.

1. Математический фундамент: от симплициальных комплексов к устойчивости

Пусть нам дано конечное множество точек, представляющее собой выборку из некоторого неизвестного многообразия или аттрактора. Наша цель – извлечь информацию о топологии этого неизвестного объекта. Поскольку конечный набор точек топологически тривиален (это просто набор несвязных компонент), необходимо построить непрерывный объект, аппроксимирующий лежащее в основе пространство. Для этого мы обратимся к понятию симплициального комплекса.

Напомним, что геометрическим kk-мерным симплексом называется выпуклая оболочка k+1k+1 аффинно независимых точек. Вершины – 0-симплексы, рёбра – 1-симплексы, треугольники – 2-симплексы, и так далее. Симплициальным комплексом KK называется конечный набор симплексов в RdRd, такой что: (1) любая грань симплекса из KK также принадлежит KK; (2) пересечение любых двух симплексов из KK является либо пустым множеством, либо их общей гранью. Топология такого комплекса, называемая полиэдральной, наследуется из RdRd.

Центральным для нас будет комплекс Вьеториса-Рипса, который определяется исключительно на основе попарных расстояний между точками содержательная топологическая информация заключена в промежуточных стадиях этого процесса. Следующий шаг – вычисление алгебраических инвариантов для каждого члена фильтрации. Группа kk-мерных гомологий с коэффициентами в поле FF является векторным пространством, размерность которого, называемая kk-м числом Бетти, неформально интерпретируется как количество kk-мерных «дыр». Так, β0β0 – число компонент связности, β1β1 – число одномерных замкнутых петель, не являющихся границами, β2β2 – число трёхмерных пустот, и т. д. Главное преимущество гомологий перед прямым геометрическим подсчётом заключается в их функториальности: отображение включения.

2. Топологический анализ временных рядов: реконструкция аттрактора и шум

Перейдём к первой из заявленных прикладных задач. Пусть мы наблюдаем скалярный временной ряд, порождённый некоторой неизвестной динамической системой с непрерывным временем, или являющийся дискретной по времени выборкой из такой системы. Применим описанную выше процедуру вычисления устойчивых гомологий. Рассмотрим классический пример – аттрактор Лоренца. Его топология характеризуется наличием двух различных «дыр», что отражается в диаграмме устойчивости для размерности 1 наличием двух точек, значительно отстоящих от диагонали. При этом 0-мерные гомологии, отвечающие компонентам связности, устроены относительно тривиально: аттрактор представляет собой одну связную компоненту, что проявляется в наличии одного очень долгоживущего 0-мерного класса.

3. Топологическая регуляризация в глубоких нейронных сетях

Обратимся теперь к совершенно иной области – обучению глубоких нейронных сетей прямого распространения. Рассмотрим стандартную задачу классификации. Нейронную сеть можно концептуально разделить на две части: кодировщик, отображающий входные данные в скрытое представление в пространстве, и классификатор, выполняющий линейное разделение классов в этом скрытом пространстве. В процессе обучения, путём минимизации эмпирического риска, сеть деформирует входное многообразие данных, стремясь сделать его удобным для финального линейного слоя. Скрытое представление Z для обучающей выборки образует облако точек, топологию которого мы теперь можем изучать. С какой топологии следует желать? Ответ зависит от априорных предположений о задаче. Во многих случаях разумно ожидать, что данные каждого класса в исходном пространстве формируют своё связное многообразие, возможно, с определённой внутренней структурой (например, класс «цифра 8» топологически отличен от «цифры 0» наличием одной одномерной дыры). В идеальном сценарии хороший кодировщик должен сохранять эту значимую топологию, упрощая геометрию, то есть «распрямляя» многообразие, но не разрывая и не склеивая его критические части. Альтернативный, и часто более практичный сценарий, особенно для задач тонкой классификации, состоит в том, что мы вообще хотим получить тривиальную топологию скрытого представления: каждый класс должен стягиваться в плотный, односвязный кластер, чтобы максимизировать линейную разделимость.

Список литературы

Журавлёв Ю.И., Рудаков К.В., Воронцов К.В. [и др.] Алгебраическая топология и анализ данных: учебное пособие. – М.: МФТИ, 2017. – 204 с.
Матвеев С.В. Лекции по алгебраической топологии. Теория гомологий. – М.-Ижевск: Институт компьютерных исследований, 2014. – 208 с.
Ананьевский М.С., Невмержицкий И.Д. Топологический анализ данных: теория устойчивых гомологий и её приложения к задачам машинного обучения // Математическое просвещение. – 2020. – Вып. 24. – С. 105-131.
Edelsbrunner H., Letscher D., Zomorodian A. Topological Persistence and Simplification // Discrete & Computational Geometry. – 2002. – Vol. 28, № 4. – P. 511-533.
Cohen-Steiner D., Edelsbrunner H., Harer J. Stability of Persistence Diagrams // Discrete & Computational Geometry. – 2007. – Vol. 37, № 1. – P. 103-120.

Устойчивые гомологии как инструмент анализа топологических инвариантов в задачах обработки временных рядов и снижения размерности глубоких нейросетей

Цитирование

Похожие статьи

Другие статьи из раздела «Информационные технологии»