Исследование оценки адаптивных методов управления

1. Применение на городских перекрестках

Перекрестки являются центром дорожного движения. Водители должны проезжать или поворачивать на перекрестке, что неизбежно приведет к возникновению конфликтных точек, таких как переплетение и пересечение. Эти конфликтные точки являются частыми точками дорожно-транспортных происшествий. Уровень аварийности составляет около 50%. Видно, что первое, что нужно сделать для повышения безопасности движения на городских дорогах, – это снизить количество аварий на перекрестках.

1.1. Состав и процесс работы системы автоматического управления светофорами

Автоматизированная система управления дорожным движением контролирует светофоры, установленные на различных перекрестках. Система автоматического управления светофорами является важным элементом интеллектуальной транспортной системы. Автоматическая система управления дорожными сигналами на городских дорогах обычно состоит из средств обнаружения транспортных средств, компьютерных, аппаратных средств, центра управления дорожным движением, компьютерного программного обеспечения (такого как модель движения и оптимизация синхронизации сигналов трафика), контроллеров и линий передачи информации [2].

Процесс работы системы автоматического управления светофорами.

Детектор транспорта встроен в проезжую часть или установлен на придорожной стойке. Когда транспортное средство проезжает мимо датчика, датчик улавливает сигнал о прохождении транспортного средства. Этот сигнал передается на датчик, и датчик фиксирует параметры трафика (такие как объем трафика, скорость или расстояние между транспортными средствами и т. д.), необходимые для определения времени сигнала светофора. Эти параметры трафика передаются от детектора на компьютер центра управления трафиком по линии передачи информации в качестве входных данных программного обеспечения оптимизации времени сигнала, и программное обеспечение оптимизации вычисляет соответствующий оптимальный план синхронизации на основе входных данных. Этот оптимизированный план синхронизации сигналов выводится и передается соответствующему контроллеру сигналов, и контроллер управляет светофором в соответствии с оптимизированным планом синхронизации; компьютер также отправляет условия движения и другие параметры и план синхронизации сигнала в центр управления движением. Различные средства отображения используются для мониторинга рабочего состояния системы управления сигналами и состояния движения.

Принципиальная схема процесса работы системы автоматического управления светофором. Проблемы с дорожным движением, главным признаком которых является затор, стали одним из основных препятствий на пути развития города. Люди пытаются уменьшить заторы с разных сторон. С развитием компьютеров, технологий автоматического контроля и обнаружения люди думают об использовании технологии автоматического управления для подключения красных и зеленых сигнальных огней первоначально независимо контролируемых перекрестков, использования компьютеров для единообразного и автоматического управления, а также расчета и согласования времени зеленого света на соседних перекрестках. Чтобы транспортные средства могли проезжать через несколько перекрестков непрерывно, избегая проблем с красным светом на каждом перекрестке; в то же время детектор транспортных средств используется для определения статуса транспортного средства, прибывающего на перекресток в любое время, а компьютер основывается на изменяющихся условиях движения, передаваемых детектором. Рассчитывается соответствующий план оптимальной синхронизации светофоров, чтобы повысить эффективность движения на перекрестках, контролируемых сигналом светофора.

2. Основные принципы адаптивной системы управления светофорами

Адаптивная система управления сигналами дорожного движения сокращенно называется ATCS. Так называемая «адаптивная» система относится к системе сигналов трафика, которая может автоматически адаптироваться к изменениям трафика в реальном времени и изменять синхронизацию сигналов трафика в реальном времени. В настоящее время британская система SCOOT означает «зеленый цвет светофоров» - технологию, которая оптимизирует период и разницу во времени между зелеными светофорами.

2.1. Основные понятия

Чтобы объяснить основной принцип такой «адаптации» системы, мы должны сначала объяснить базовые знания о четырех основных параметрах синхронизации сигналов трафика: «фаза сигнала», «продолжительность цикла сигнала», «коэффициент зеленого сигнала» и «разница во времени».

Фаза сигнала. Это множество различных состояний управления сигналами. Одно состояние управления позволяет проезжать транспортным средствам и пешеходам в определенных направлениях и горит зеленым в этом направлении; состояние управления запрещает движение транспортных средств и пешеходов в других направлениях и включает красный свет в этих направлениях. Комбинация этих разных цветов света, отображаемых в каждом направлении пересечения в этом состоянии управления, называется фазой сигнала. В соответствии с характеристиками транспортного потока на перекрестке и в соответствии с потребностями проектирования выбор подходящей фазы и расположение фаз является одним из основных факторов, определяющих эффективность движения при управлении сигналом перекрестка. В системе управления сигналом, которая совместно управляется множеством перекрестков, организация согласованного соотношения фазы сигнала между соседними перекрестками является основным фактором, определяющим эффективность движения системы управления сигналом.

Время цикла сигнала (цикл сигнала). Это время, необходимое для того, чтобы различные цвета светового сигнала отображались один раз по очереди, то есть сумма времени отображения различных цветов света; или период времени от зеленого света определенной основной фазы до следующего раза, когда зеленый свет этой фазы снова включится. Время цикла сигнала является ключевым параметром управления, который определяет эффективность движения при управлении сигналами перекрестка, поэтому это основной объект разработки плана синхронизации сигналов.[3]

Соотношение зеленого сигнала – это отношение эффективной продолжительности зеленого света фазы сигнала к длительности цикла. Эффективная продолжительность зеленого света – это фактическая продолжительность зеленого света фазы сигнала плюс продолжительность желтого света минус время потери трафика. Время фазы сигнала зеленого цвета – это параметр синхронизации сигнала, который напрямую влияет на эффективное использование времени зеленого цвета всего цикла сигнала.

Смещение. Также называется «разность фаз», это относится к разнице во времени между началом или средней точкой зеленого или красного света двух соседних сигналов. Как правило, начальная точка или средняя точка зеленого света часто используется в качестве знака разницы во времени, что называется «разницей во времени для зеленого». Разница во времени для зеленого света адаптирована к времени в пути транспортного средства между ними, поэтому разница во времени для зеленого света является ключевым параметром для системы управления сигналами для достижения скоординированного управления.

2.2. Основные принципы системы SCOOT

Система SCOOT в основном состоит из модели имитации трафика и оптимизации синхронизации сигналов [4]. Целью создания модели имитации трафика является использование математических методов для моделирования рабочих условий потока трафика в транспортной сети и изучение влияния изменений синхронизации сигнала каждого перекрестка в сети трафика на поток трафика, чтобы объективно оценить плюсы и минусы любого набора планов синхронизации. По этой причине модель имитации дорожного движения должна иметь возможность измерять индекс производительности (Performance Index, сокращенно PI) транспортного потока под контролем различных временных схем, таких как время задержки остановки на красный свет и скорость парковки, которые могут отражать парковочную линию на перекрестке. Индикаторы состояния очереди трафика дают достоверные оценки.

Во-первых, параметры транспортной сети (например, расстояние между входной полосой перекрестка и парковочной линией соседнего перекрестка и т. д.) И обнаруженные параметры трафика каждой въездной полосы перекрестка (например, объем трафика каждого транспортного потока и необязательный начальный временной план и т. д.) Входные данные, необходимые для имитационного расчета, отправляются в имитационную модель трафика системы, а индекс эффективности системы при начальном времени распределения сигнала получается посредством имитационного расчета имитационной модели трафика. Этот показатель производительности не будет лучшим показателем. Следовательно, индикатор отправляется в часть вычисления оптимизации синхронизации сигналов для оптимизации вычислений, и получается новый план синхронизации сигналов, и этот новый план синхронизации сигналов используется для замены первоначального плана синхронизации, а затем часть моделирования трафика отправляется в план моделирования. Оптимизируйте расчет до тех пор, пока не будет получен лучший индекс выгоды. Схема синхронизации сигнала, которая может получить наилучший индекс выгоды, является лучшей схемой синхронизации сигнала. Наконец, лучший план синхронизации сигнала отправляется контроллеру сигналов, чтобы управлять сигнальной лампой, чтобы работать в соответствии с этим планом. Классическая система адаптивного управления по площади представлена британской системой SCOOT и австралийской системой SCATS. В соответствии с конструкцией детектора и методом обнаружения каждая система имеет свою собственную модель и алгоритм адаптивного управления. Например, для SCOOT требуются детекторы. Конструкция спроектирована так, чтобы находиться на расстоянии 80–150 м от стоп-линии перед перекрестком. Согласно данным обнаружения, прогнозируется прибытие, выпуск и постановка в очередь транспортных средств на текущей фазе выпуска на каждом участке входа, что называется «моделью организации очереди», как показано на рисунке 1. На основе прогнозирования очереди и освобождения скоординированная работа трех оптимизаторов периода, соотношения зеленых букв и разности фаз используется для достижения регионального адаптивного управления оптимизацией. Система SCATS использует детектор парковочных линий для "насыщения", то есть использования зеленого света. Скорость – это принцип управления. В соответствии с информацией об обнаружении трафика в реальном времени в библиотеке планов выбирается оптимальный план управления для реализации адаптивного управления.

Рис. 1. Модель массового обслуживания SCOOT

3. Основные понятия управления сигналом MARL

Системы многоагентного обучения с подкреплением (MARL) быстро развивались в области адаптивного управления региональными сигналами дорожного движения и применялись на практике. С точки зрения теории управления, менеджмент MARL может независимо изучать и оптимизировать стратегические знания на основе информации обратной связи об эффектах управления. Это истинное управление с обратной связью; исходя из объема контроля, оно может точно вывести максимальную ценность между несколькими пересечениями. Хорошая синергия, обогащает содержание и форму управления координацией регионального трафика; с точки зрения управления в реальном времени он не имеет модуля оптимизации сложной модели, но использует второй уровень принятия решений в реальном времени, который может реагировать на изменения трафика в реальном времени с течением времени Разнообразие. Из масштабируемости системы видно, что MARL распределенного управления имеет единую структурную модель, которая может быть изменена в соответствии с конкретной структурой дорожной сети и характеристиками транспортного потока; с точки зрения совместимости системы, самому контролю MARL требуется только ввод системы. И вывод, и конкретный сбор данных. Нет требований к технологии и форме [3].

В качестве безмодельного самообучающегося итеративного метода, управляемого данными, MARL предоставляет решение для реализации адаптивного управления с обратной связью.

3.1. Стандартная модель управления RL

Сигнал трафика на каждом перекрестке абстрагируется как агент, а объект управления – это поток трафика, который со временем изменяется в транспортной сети. Агент RL постоянно взаимодействует с управляемыми объектами в замкнутой системе. Посредством мониторинга условий движения в реальном времени, извлечения информации о состоянии движения и информации, необходимой для управляющих сигналов, выбора соответствующих мер и их реализации; чтобы максимизировать общий доход, управляющий эффект операции оптимизирует стратегию управления до достижения наилучшего состояния и наилучшей вероятности работы Сказано до сих пор. Таким образом, агент RL делит процесс оптимизации системы управления на несколько этапов в соответствии с течением времени. Эти этапы имеют взаимосвязанные состояния и принимают лучшее решение в соответствии с текущим состоянием каждого этапа [4], что типично. Марковский процесс принятия решений (MDP).

Алгоритм обучения RL используется для улучшения знания стратегии управления для адаптации к случайно изменяющейся среде. Уравнение (1) показывает типичный алгоритм обучения Q. Он выбирает операции на основе принципа максимизации общего возвращаемого значения, полученного операциями в каждом состоянии.

Среди них: Q (s, a) – совокупное значение функции возврата сигнала a в состоянии трафика s, называемое значением Q; α – скорость обучения; коэффициент потерь γ; rt +1 получен в состоянии трафика s в момент времени t. Полученный сигнал сразу возвращает значение вознаграждения.

3.2. Технология оптимизации управления RL

Как показано на рисунке 2, предполагая фиксированную фазовую структуру и последовательность фаз, управление циклом RL использует цикл, а соотношение зеленого сигнала и разность фаз используются в качестве синхронизации схемы управления.

Используя целочисленный интервал текущего цикла в качестве параметров, алгоритм RL используется для оптимизации этих параметров, чтобы реагировать на колебания спроса на трафик на перекрестках. Схема управления технологией оптимизации имеет фиксированную структуру, обновление синхронизации имеет задержку, а согласование сигналов на перекрестке реализуется с помощью технологии разности фаз, которая представляет собой адаптивное управление трафиком.

Рис. 2. Фазовая синхронизация метода управления RL с фиксированным периодом

4. Последние продвинутые достижения

Недавно немецкие ученые разработали предварительную интеллектуальную систему управления дорожным движением, которая использует бионику для моделирования обработки изображений животных, расчета и анализа информации о дорожном движении на перекрестках и помощи отделам управления дорожным движением в координации дорожных условий. В настоящее время для отделов управления дорожным движением наиболее подходящим методом подсчета уличного движения является установка датчиков на дороге. Однако установка датчика на застроенной улице не только дорогостоящая, но и позволяет измерять только количество транспортных средств и не может получить информацию о скорости транспортного средства. Интеллектуальная система управления дорожным движением просто преодолевает эти недостатки. Она использует цифровые камеры, обычные микрокомпьютеры и фрагмент графической информации. Состав платы обработки. Цифровая камера снимает условия движения на перекрестке, а компьютер анализирует и оценивает информацию об изображении, и результат может быть передан в центр управления дорожным движением; его также можно обработать на месте, а компьютер может напрямую управлять преобразованием светофора. На основе программного обеспечения немецкие ученые разработали программный алгоритм, основанный на методе биологической оценки, для отображения визуальной информации. С помощью этого алгоритма можно судить, сколько легковых и грузовых автомобилей пересекут дорогу за определенный период времени, с какой скоростью движутся эти автомобили, как долго они ждут перед красным светом, а также рассчитать степень загруженности на улице.

Исследование оценки адаптивных методов управления

Похожие статьи

Другие статьи из раздела «Технические науки»