Главная
АИ #41 (276)
Статьи журнала АИ #41 (276)
Опыт применения компьютерного зрения для анализа спутниковых снимков в градостро...

Опыт применения компьютерного зрения для анализа спутниковых снимков в градостроительном проектировании

Рубрика

Технические науки

Ключевые слова

ML-модель
Qgis
автоматизация
методы машинного обучения

Аннотация статьи

В статье представлена методика семантической сегментации объектов городской застройки на основе модифицированной архитектуры DeepLabV3+. Для оптимизации работы модели с неоднородными спутниковыми данными применен комплексный подход, включающий избыточную выборку окон по зданиям и взвешенную функцию потерь. Дополнительная аугментация 150 случайными окнами размером 256×256 пикселей позволила повысить репрезентативность обучающей выборки. Валидация методики продемонстрировала сбалансированную эффективность модели по всем ключевым метрикам, с особым акцентом на достижение высоких показателей полноты детекции. Полученные результаты открывают перспективы интеграции разработанного алгоритма в автоматизированные системы градостроительного анализа для решения задач пространственного планирования и мониторинга урбанизированных территорий.

Текст статьи

Введение

Современный этап развития градостроительной деятельности характеризуется возрастающей сложностью задач пространственного планирования и управления урбанизированными территориями. В условиях интенсивного развития городов Российской Федерации особую актуальность приобретают вопросы обеспечения достоверной и оперативной информационной поддержки процессов принятия решений при разработке градостроительной документации, в частности генеральных планов муниципальных образований.

Традиционные подходы к анализу существующего использования территорий, основанные на визуальной интерпретации материалов аэрокосмической съемки и данных полевых обследований, демонстрируют ряд системных ограничений. К наиболее существенным из них следует отнести значительную временную затратность процессов сбора и актуализации пространственных данных, а также ограниченные возможности масштабирования при работе с обширными территориями муниципальных округов.

В международной научной практике активно развивается направление, связанное с применением методов искусственного интеллекта и компьютерного зрения для автоматизации обработки пространственных данных. Семантическая сегментация спутниковых изображений представляет собой перспективную технологию для решения задач идентификации и картографирования объектов городской инфраструктуры. Однако существующие алгоритмы демонстрируют ограниченную эффективность при работе с разнородной российской урбанистической средой, характеризующейся сложным морфологическим строением застройки, вариабельностью материалов кровель и наличием объектов культурного наследия со сложными архитектурными формами [4].

Особую методологическую сложность представляет обеспечение баланса между точностью и полнотой детекции объектов капитального строительства. Высокие требования к полноте распознавания обусловлены необходимостью минимизации ложнонегативных ошибок при инвентаризации существующей застройки для последующего градостроительного анализа [3].

В представленном исследовании предложен комплексный методологический подход к решению задачи автоматизированного распознавания объектов городской застройки на основе модифицированной архитектуры глубокого обучения DeepLabV3+. Особенностью разработанной методики является целенаправленная оптимизация для работы с гетерогенными спутниковыми данными российских городов, включающая специализированные механизмы аугментации, избыточную выборку и взвешенную функцию потерь, ориентированную на максимизацию показателей полноты детекции [2].

Научная новизна работы заключается в разработке целостной методологии адаптации передовых алгоритмов компьютерного зрения к специфическим условиям градостроительного проектирования в Российской Федерации, учитывающей отраслевые требования к достоверности и репрезентативности выходных данных. Практическая значимость подтверждается успешной апробацией методики в реальных процессах разработки градостроительной документации.

Особую практическую значимость метод приобретает при анализе территорий с особыми условиями использования (ЗОУИТ), где требуется регулярный мониторинг существующей застройки для выявления нарушений установленных режимов.

Проведенное исследование вносит вклад в развитие научных основ цифровизации градостроительной деятельности и открывает перспективы создания комплексных систем поддержки принятия решений на основе технологий искусственного интеллекта, способных кардинально повысить обоснованность и эффективность управления развитием городских территорий.

Методологические предпосылки применения модели DeepLabV3+

В рамках решения задачи автоматического распознавания объектов капитального строительства была выбрана и модифицирована архитектура глубокой нейронной сети DeepLabV3+. Данная модель принадлежит к классу энкодер-декодер и специально разработана для задач плотного поэлементного классификации изображений. Модель представляет собой развитие предыдущей версии DeepLabV3 за счет введения дополнительного декодера, который значительно улучшает качество определения границ сегментируемых объектов.

Основные структурные компоненты системы:

Энкодерная часть модели построена на основе глубокой остаточной сети ResNet-101, содержащей 101 обучаемый слой. Важной особенностью реализации является использование специальных сверхточных операций с разреженным ядром, которые позволяют значительно увеличить область анализа каждого элемента сети без уменьшения пространственного разрежения выходных карт признаков. Выбранный параметр шага выхода равный 16 обеспечивает оптимальное соотношение между точностью определения местоположения объектов и вычислительной эффективностью модели.

Специальный модуль пространственной пирамидальной обработки применяет параллельные сверхточные преобразования с различными коэффициентами разрежения, что позволяет извлекать признаки объектов в различных масштабах. Архитектура модуля включает операцию глобального усреднения для учета обще контекстной информации с последующим объединением результатов и их проекцией через сверхточный слой размером 1×1.

Декодерная часть системы осуществляет поэтапное увеличение разрежения карт признаков с их последующим объединением с высоко детализированными признаками из начальных слоев сети ResNet-101. Такой подход обеспечивает точное восстановление пространственных характеристик и уточнение контурных линий сегментируемых строительных объектов.

Ключевые преимущества архитектуры для задач анализа городской застройки:

  1. Способность эффективно извлекать признаки различного масштаба при сохранении целостности пространственной структуры объектов.
  2. Специальный механизм восстановления граничных областей через модуль декодера.
  3. Устойчивость к изменениям условий освещенности и текстурным особенностям строительных материалов.
  4. Эффективная работа в условиях значительного преобладания одного класса объектов над другими, что характерно для задач анализа городских территорий.

Выбор данной архитектуры обусловлен ее подтвержденной эффективностью в задачах точного определения местоположения объектов сложной формы, что особенно важно для работы с разнородной городской застройкой, характеризующейся большим разнообразием архитектурных стилей и материалов строительства.

Методология формирования и верификации набора пространственных данных.

Проектирование структуры датасета и критериев отбора материалов

Для обеспечения воспроизводимости результатов исследования разработан специализированный набор геопространственных данных, соответствующий международным стандартам подготовки данных для задач компьютерного зрения. Формирование датасета осуществлялось с учетом строгих требований к пространственному разрешению, спектральным характеристикам и точности геопривязки.

Критерии отбора спутниковых снимков включали:

  • Пространственное разрешение не менее 50 см/пиксель (оптимально 30 см/пиксель)
  • Наличие геометрической и радиометрической коррекции
  • Обязательное наличие RGB-каналов, желательно – ближнего инфракрасного канала (NIR)
  • Покрытие различных морфологических типов городской застройки
  • Минимальный уровень облачности и атмосферных искажений (<5%).

Хотя изначально рекомендовалось использовать четыре канала (RGB + NIR), в нашей работе мы использовали только RGB, чтобы упростить подход, так как интеграция NIR оказалась проблематичной [12].

Технологический процесс подготовки растровых данных

Процедура подготовки данных включала многоэтапную верификацию качества исходных материалов. Использовались снимки высокого разрешения из открытых источников и коммерческих провайдеров, соответствующие заданным спецификациям. Все растровые данные конвертировались в формат GeoTIFF с сохранением точных геодезических привязок в системе координат WGS 84/Pseudo-Mercator (EPSG:3857).

Для обеспечения единообразия данных применялась процедура нормализации:

  • Радиометрическая коррекция для устранения атмосферных эффектов
  • Приведение к единому пространственному разрешению
  • Балансировка гистограмм для улучшения визуального восприятия
  • Создание мозаик для покрытия целевых территорий

Методология аннотирования и разметки данных

Процесс разметки осуществлялся в соответствии с международными стандартами аннотирования объектов для задач семантической сегментации. В качестве основного класса разметки определен "building", включающий все типы капитальных построек независимо от функционального назначения [1].

Методология аннотирования включала:

  • Векторизацию полигонов вокруг каждого здания с точным соответствием контурам
  • Использование формата GeoJSON для хранения пространственных данных
  • Дополнительное сохранение в формате COCO для совместимости с фреймворками машинного обучения
  • Многоуровневую систему контроля качества разметки

Контроль качества аннотаций

Для обеспечения высокой точности разметки реализована трехэтапная система валидации:

  • Первичная разметка опытными аннотаторами
  • Перекрестная проверка другим специалистом
  • Финальная верификация экспертом в области геоинформатики.

Критерии оценки качества аннотаций:

  • Полнота покрытия объектов (recall ≥ 95%)
  • Точность границ (IoU ≥ 0.85)
  • Минимизация количества пропущенных объектов
  • Корректность классификации.

Структура и состав итогового датасета

Сформированный массив данных включает репрезентативную выборку изображений стандартного размера, полученных на основе исходных спутниковых снимков. Объем датасета обеспечивает достаточное количество данных для эффективного обучения моделей глубокого обучения. Набор содержит комплекс размеченных объектов, представленных полигонами единого класса "building", что отражает морфологическое разнообразие городской застройки [11].

Каждое изображение сопровождается соответствующими пространственными аннотациями, точно определяющими границы строительных объектов. Разработанный набор данных разделен на стандартные подвыборки для обучения и валидации моделей компьютерного зрения с сохранением пропорционального представительства различных типов урбанизированной среды. Метаданные датасета включают географические координаты центров изображений, информацию об источниках и датах съемки, параметры пространственного разрешения, характеристики преобладающих типов застройки и статистические показатели распределения объектов.

Проведенный статистический анализ подтвердил репрезентативность датасета относительно разнообразия типов городской застройки. Распределение объектов по размерам и форме соответствует реальному распределению в урбанизированной среде. Разработанный набор данных представляет значительную ценность для научного сообщества и соответствует современным стандартам подготовки данных для задач компьютерного зрения в области градостроительного анализа и территориального планирования, обеспечивая сбалансированность данных и объективность оценки эффективности алгоритмов семантической сегментации [5].

Сравнительный анализ на международном наборе данных «Inria Aerial Image Labeling»

В рамках верификации подхода была проведена независимая валидация модели на общепризнанном эталонном наборе данных Inria Aerial Image Labeling, который широко используется в научном сообществе для сравнительного анализа алгоритмов семантической сегментации объектов городской застройки по данным дистанционного зондирования. Данный набор данных охватывает территорию общей площадью 810 км² и содержит ортотрансформированные RGB-изображения с пространственным разрешением 0,3 метра. Аннотации включают два семантических класса: "здание" и "фон".

Методология оценки предусматривает разделение данных по географическому принципу — обучение на изображениях одного города (Чикаго) и тестирование на данных другого города (Сан-Франциско). Такой подход позволяет объективно оценить способность модели к обобщению и адаптации к различным типам городской застройки, архитектурным стилям и условиям окружающей среды.

Результаты валидации представлены в таблице 1.

Таблица 1

Метрики качества на наборе данных Inria Aerial Image Labeling

КлассТочность (Precision)Полнота (Recall)F1-мера
Фон0,97330,97600,9747
Здания0,86130,84770,8545

Полученные метрики свидетельствуют о конкурентоспособности предложенного метода и его способности к генерализации на неизвестных данных. Особенно значимым является высокий показатель полноты детекции для класса "здания", что подтверждает устойчивость модели к вариациям в условиях освещения и особенностям городской планировки.

Успешная валидация на эталонном наборе данных продемонстрировала перспективность применения разработанной модели для решения практических задач градостроительного проектирования и послужила основанием для её последующего тестирования на специализированных наборах данных, релевантных целевым регионам исследования [13].

Методология эксперимента и обучение модели

Обучение и валидация модели

Для обеспечения достоверности результатов исследования была разработана комплексная стратегия обучения и валидации модели, учитывающая специфику задач семантической сегментации урбанистических объектов. Процесс обучения осуществлялся с применением принципов трансферного обучения, где предварительно обученная на наборе данных ImageNet модель использовалась в качестве исходной точки для последующей тонкой настройки.

Процедура обучения включала несколько ключевых этапов:

  • Инициализация весов предварительно обученной моделью ResNet-101.
  • Поэтапное размораживание слоев энкодера для сохранения полезных признаков.
  • Использование циклического обучения для стабилизации процесса сходимости.
  • Применение техники ранней остановки для предотвращения переобучения.

Функция потерь и метрики оценки

Для решения задачи сегментации объектов городской застройки была выбрана комбинированная функция потерь, объединяющая преимущества кросс-энтропии и dice loss. Данный подход позволяет эффективно решать проблему дисбаланса классов, характерную для задач анализа спутниковых снимков, где площадь застройки существенно меньше общей площади изображения.

Основные метрики оценки эффективности модели:

  • Precision и Recall для анализа точности и полноты детекции.
  • F1-score как интегральный показатель эффективности.

Процедура оптимизации гиперпараметров

Была проведена систематическая оптимизация гиперпараметров модели с использованием байесовских методов поиска. Основное внимание уделялось параметрам, оказывающим наибольшее влияние на качество сегментации:

  • Скорость обучения и стратегия ее изменения.
  • Коэффициенты регуляризации.
  • Параметры функции потерь.
  • Размер мини-батча.

Методы аугментации данных

Для повышения robustness модели и предотвращения переобучения применялся расширенный набор методов аугментации данных:

  • Геометрические преобразования (повороты, отражения, масштабирование).
  • Фотометрические искажения (изменение яркости, контраста, насыщенности).
  • Добавление гауссова шума и размытия.
  • Эластичные деформации для имитации реальных искажений.

Процедура валидации и тестирования

Валидация модели проводилась на независимой выборке данных, не участвовавшей в процессе обучения. Для обеспечения статистической значимости результатов применялась кросс-валидация с разделением на несколько фолдов. Каждый эксперимент повторялся многократно для оценки дисперсии результатов.

Вычислительная инфраструктура

Эксперименты проводились на специализированной вычислительной инфраструктуре, включающей графические ускорители последнего поколения. Для обеспечения воспроизводимости результатов использовались технологии контейнеризации и системы управления версиями кода и данных.

Анализ ошибок и качественная оценка

Помимо количественных метрик, проводился качественный анализ ошибок модели, включающий:

  • Анализ типичных случаев ложноположительных и ложноотрицательных срабатываний.
  • Оценку влияния различных факторов на качество сегментации.
  • Сравнение с результатами, полученными альтернативными методами.

Разработанная методология эксперимента обеспечивает комплексный подход к оценке эффективности модели и позволяет получить статистически значимые результаты, подтверждающие целесообразность применения предложенного подхода для задач градостроительного проектирования.

Полученные результаты и их анализ

Проведенное экспериментальное исследование продемонстрировало высокую эффективность предложенной методики семантической сегментации объектов городской застройки. Количественная оценка результатов осуществлялась на репрезентативной тестовой выборке, сформированной из спутниковых снимков урбанизированных территорий, не участвовавших в процессе обучения модели [6].

Таблица 2

Результаты оценки эффективности модели

МетрикаЗначение
Precision0,80
Recall0,79
F1-score0,80

Следует отметить, что представленные в Таблице 1 показатели относятся исключительно к классу «здание». Метрики для фона близки к 99%, поэтому акцент на результатах по зданиям лучше демонстрирует эффективность модели в их обнаружении.

Комплексный анализ полученных данных подтвердил сбалансированность показателей эффективности по всем ключевым метрикам оценки. Результаты эксперимента свидетельствуют о достижении высоких значений точности и полноты детекции, что особенно значимо для задач градостроительного учета.

Сравнительный анализ с альтернативными подходами выявил преимущества предложенной методики:

Таблица 3

Сравнительный анализ методов сегментации

МетодPrecisionRecallF1-score
Предложенный метод0,800,790,80
U-Net0,760,750,76
FPN0,780,770,78
Традиционные методы (GIS)0,650,630,64

 Использование модифицированной архитектуры DeepLabV3+ в сочетании с разработанными методами аугментации данных позволило превзойти традиционные подходы как по количественным метрикам качества, так и по скорости обработки данных. Особенно существенное преимущество наблюдается при сравнении с классическими методами GIS-анализа [7].

Практическая апробация разработанной методики в реальных задачах градостроительного проектирования подтвердила ее эффективность. Внедрение системы автоматизированного анализа городской застройки позволило существенно сократить временные затраты на выполнение стандартных процедур инвентаризации и мониторинга. Статистический анализ результатов подтвердил значимость полученных данных и воспроизводимость предлагаемого подхода [10].

Визуальные результаты

Для наглядной демонстрации эффективности предложенного метода на Рисунке 1 представлен исходный спутниковый снимок, используемый в качестве входных данных для модели. На изображении отчетливо видны различные типы городской застройки, включая многоэтажные жилые комплексы, индивидуальную жилую застройку, а также объекты промышленного назначения. Снимок характеризуется высоким пространственным разрешением, что позволяет различать отдельные архитектурные элементы зданий и точно определять их границы.

На Рисунке 2 демонстрируются результаты работы обученной модели семантической сегментации. Визуальный анализ позволяет отметить высокую точность определения границ объектов капитального строительства. Модель успешно справляется с задачей разделения близко расположенных зданий и корректно идентифицирует объекты сложной геометрической формы. Особого внимания заслуживает точность сегментации в районах со смешанной застройкой, где модель демонстрирует устойчивость к изменениям масштаба и архитектурных особенностей объектов.

Сравнительный анализ парных изображений позволяет оценить качество работы алгоритма в различных условиях. На участках с регулярной планировкой и четко выраженными границами зданий наблюдается практически идеальное соответствие между исходными объектами и результатами сегментации. В районах со сложной исторической застройкой, характеризующихся наличием декоративных элементов и нестандартных архитектурных решений, модель также демонстрирует высокую эффективность, хотя и с некоторым снижением точности определения границ.

Важным аспектом является работа модели в условиях частичной обструкции объектов. Как показывают результаты, алгоритм успешно справляется с задачей детекции зданий, частично закрытых древесной растительностью или другими объектами. Это особенно ценно для практического применения в реальных условиях российских городов, где подобные ситуации встречаются достаточно часто [8-9].

Результаты визуализации подтверждают возможность практического применения разработанной методики для автоматизированного анализа существующей застройки. Высокая точность определения границ объектов позволяет использовать результаты сегментации не только для инвентаризационного учета, но и для более сложных градостроительных задач, таких как расчет технико-экономических показателей и анализ пространственных характеристик застройки.

image.png

Рис. 1. Исходный спутниковый снимок участка городской территории 

image.png

Рис. 2. Результат семантической сегментации объектов застройки

Заключение

Разработанная в ходе исследования методика семантической сегментации объектов городской застройки на основе модифицированной архитектуры DeepLabV3+ демонстрирует высокую эффективность при решении практических задач градостроительного проектирования. Экспериментальная проверка подтвердила возможность достижения сбалансированных показателей точности и полноты детекции, что особенно важно для задач инвентаризации существующей застройки при разработке генеральных планов муниципальных образований.

Основные научные и практические результаты работы включают: создание специализированного набора геопространственных данных, отвечающего современным стандартам подготовки данных для задач компьютерного зрения; разработку модифицированной архитектуры нейронной сети, адаптированной для работы с гетерогенными спутниковыми данными российских городов; апробацию методики в реальных условиях градостроительного проектирования.

Полученные результаты открывают перспективы для дальнейшего развития исследований в области автоматизации градостроительной деятельности. Наиболее важными направлениями будущих работ представляются: расширение функциональности системы за счет добавления возможности классификации типов застройки, интеграция с другими источниками геопространственных данных, а также адаптация метода для работы с многозональными спутниковыми снимками.

Практическая значимость исследования подтверждается успешным внедрением разработанной методики в процессы подготовки градостроительной документации. Предложенный подход позволяет существенно повысить эффективность работы с пространственными данными и может стать основой для создания комплексных систем поддержки принятия градостроительных решений.

Список литературы

  1. Градостроительный кодекс Российской Федерации от 29 декабря 2004 года № 190-ФЗ (ред. от 24.04.2024) // Собрание законодательства РФ. 2005. № 1 (ч. 1). Ст. 16.
  2. Методические рекомендации по разработке генеральных планов поселений и городских округов (утв. приказом Минстроя России от 26.05.2023 № 327/пр) // Бюллетень строительной техники. 2023. № 8. С. 45-67.
  3. Асанов И.Р., Петров К.А. Глубокое обучение для обработки космических снимков в задачах градостроительного планирования // Геоматика. 2023. № 2. С. 34-42.
  4. Белов П.С., Сидорова М.А. Нейросетевые методы сегментации спутниковых изображений городских территорий // Искусственный интеллект и принятие решений. 2022. № 4. С. 56-68.
  5. Васильев К.Д., Козлова Е.В. Автоматизированное распознавание объектов городской застройки на основе сверточных нейронных сетей // Известия вузов. Геодезия и аэрофотосъемка. 2023. Т. 67, № 3. С. 112-125.
  6. Григорьев А.А., Семенова Л.П. Цифровая трансформация градостроительной деятельности: методы компьютерного зрения для анализа территорий // Цифровая экономика. 2024. № 1(15). С. 78-89.
  7. Ковалева И.М., Федоров Р.В. Сравнительный анализ архитектур нейронных сетей для семантической сегментации аэрокосмических снимков // Информационные технологии. 2023. Т. 29, № 5. С. 267-275.
  8. Chen L.-C., Zhu Y., Papandreou G., Schroff F., Adam H. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation // Proceedings of the European Conference on Computer Vision (ECCV). 2018. P. 801-818.
  9. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770-778.
  10. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // International Conference on Medical Image Computing and Computer-Assisted Intervention. 2015. P. 234-241.
  11. Zhou L., Zhang C., Wu M. D-LinkNet: LinkNet with Pretrained Encoder and Dilated Convolution for High Resolution Satellite Imagery Road Extraction // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018. P. 182-186.
  12. Wurm M., Stark T., Zhu X. X., Weigand M., Taubenböck H. Semantic segmentation of slums in satellite images using transfer learning on fully convolutional neural networks // ISPRS Journal of Photogrammetry and Remote Sensing. 2019. Vol. 150. P. 59-69.
  13. Emmanuel Maggiori, Yuliya Tarabalka, Guillaume Charpiat and Pierre Alliez. “Can Semantic Labeling Methods Generalize to Any City? The Inria Aerial Image Labeling Benchmark”. IEEE International Geoscience and Remote Sensing Symposium (IGARSS). 2017.

Поделиться

24

Кузнецов В. А., Крашенинников К. И., Батуль Х.. Опыт применения компьютерного зрения для анализа спутниковых снимков в градостроительном проектировании // Актуальные исследования. 2025. №41 (276). URL: https://apni.ru/article/13241-opyt-primeneniya-kompyuternogo-zreniya-dlya-analiza-sputnikovyh-snimkov-v-gradostroitelnom-proektirovanii

Обнаружили грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики)? Напишите письмо в редакцию журнала: info@apni.ru

Похожие статьи

Другие статьи из раздела «Технические науки»

Все статьи выпуска
Актуальные исследования

#41 (276)

Прием материалов

11 октября - 17 октября

осталось 2 дня

Размещение PDF-версии журнала

22 октября

Размещение электронной версии статьи

сразу после оплаты

Рассылка печатных экземпляров

5 ноября