Методология цифрового распознавания изображений: современные подходы, архитектуры и перспективы развития

Агазаде Алихан Адильшах оглу

Аннотация статьи

В статье представлен систематический обзор современной методологии цифрового распознавания изображений. Рассмотрены ключевые этапы обработки визуальной информации: предварительная обработка, извлечение признаков, классификация и постобработка результатов. Проведён сравнительный анализ классических методов компьютерного зрения и современных подходов на основе глубокого обучения, включая свёрточные нейронные сети (CNN), архитектуры на базе трансформеров (Vision Transformer), а также гибридные модели. Представлены результаты сравнительного анализа эффективности различных архитектур на стандартных наборах данных (ImageNet, CIFAR-10, COCO). Сформулированы перспективные направления развития методологии распознавания изображений.

Текст статьи

Введение

Цифровое распознавание изображений является одной из центральных задач компьютерного зрения и искусственного интеллекта, имеющей фундаментальное значение для широкого спектра практических приложений. От медицинской диагностики до автономного вождения, от промышленного контроля качества до систем видеонаблюдения – способность машин корректно интерпретировать визуальную информацию определяет развитие целых отраслей экономики и науки [1, с. 5].

Исторически развитие методов распознавания изображений прошло несколько ключевых этапов. Ранние работы были сосредоточены на разработке эвристических алгоритмов обнаружения контуров и текстур [3, с. 12]. В 1960–1980-х годах сформировались базовые подходы к сегментации и фильтрации изображений, включая оператор Собеля, детектор границ Кэнни и преобразование Хафа [4, с. 679]. Параллельно развивались статистические методы классификации – метод главных компонент (PCA), линейный дискриминантный анализ (LDA) и метод опорных векторов (SVM) [5, с. 71-86; 6, с. 273-297].

Революционным этапом стало появление глубокого обучения. В 2012 году архитектура AlexNet продемонстрировала беспрецедентное качество классификации на соревновании ImageNet Large Scale Visual Recognition Challenge (ILSVRC), снизив ошибку Top-5 с 26,2% до 16,4% [7, с. 1097]. Этот результат ознаменовал начало эры свёрточных нейронных сетей (Convolutional Neural Networks, CNN). В последние годы наблюдается новый парадигматический сдвиг, связанный с применением архитектуры трансформеров к задачам компьютерного зрения [8].

Целью настоящей работы является систематический обзор современной методологии цифрового распознавания изображений, охватывающий как классические подходы, так и новейшие разработки в области глубокого обучения.

Объекты и методы исследования

В качестве объекта исследования выступают архитектуры и методы цифрового распознавания изображений. Методология работы включает системный анализ научной литературы, сравнительный анализ архитектур на стандартных наборах данных (ImageNet-1K, CIFAR-10, MS COCO), а также обзор методов обучения и оптимизации моделей.

Задача распознавания изображений формализуется следующим образом. Пусть X – пространство изображений, где каждое изображение x ∈ X представлено в виде тензора размерности H × W × C, где H – высота, W – ширина, C – число каналов. Задача классификации состоит в нахождении отображения f: X → Y, где Y = {y₁, y₂, ..., yₖ} – множество классов [10, с. 100].

Этап предварительной обработки (preprocessing) включает нормализацию значений пикселей, приведение изображений к единому размеру, коррекцию яркости и контраста, а также фильтрацию шума [12]. Фильтрация шума реализуется с применением линейных фильтров (гауссовский, усредняющий) и нелинейных фильтров (медианный, билатеральный). Адаптивные методы пороговой обработки, такие как метод Оцу, позволяют автоматически определять оптимальный порог бинаризации [15, с. 62-66].

Классические методы извлечения признаков основаны на ручном проектировании дескрипторов: SIFT (Scale-Invariant Feature Transform) – 128-мерный вектор гистограмм ориентированных градиентов [16, с. 91-110], HOG (Histogram of Oriented Gradients) – метод, основанный на подсчёте распределения направлений градиентов [17, с. 886-893], LBP (Local Binary Patterns) – оператор текстурного анализа для распознавания лиц и текстур [18, с. 971-987].

Результаты и их обсуждение

Свёрточные нейронные сети являются фундаментальной архитектурой для обработки визуальной информации. Эволюция CNN характеризуется последовательным углублением сетей: VGGNet (2014) с 16–19 слоями [21], GoogLeNet с модулями Inception [22, с. 1-9], ResNet (2015) с остаточными связями, позволяющими обучать сети глубиной до 152 и более слоёв [23, с. 770-778]. Дальнейшее развитие получили DenseNet [24, с. 4700-4708], EfficientNet [25, с. 6105-6114] и ConvNeXt [26, с. 11976-11986].

Vision Transformer (ViT) адаптирует архитектуру трансформера для обработки изображений путём разбиения входного изображения на непересекающиеся патчи фиксированного размера (16×16 пикселей), которые подаются на вход энкодера трансформера [8]. Механизм многоголового самовнимания позволяет моделировать глобальные зависимости между всеми патчами изображения, что является преимуществом перед локальными рецептивными полями CNN [9, с. 5998-6008].

Гибридные модели объединяют преимущества CNN и трансформеров: CoAtNet [30] комбинирует свёрточные слои с трансформерными блоками, CvT [31] вносит индуктивное смещение через свёрточные операции, LeViT [32] оптимизирован для высокоскоростного вывода. Экспериментальные результаты показывают, что гибридные архитектуры зачастую превосходят чистые CNN и трансформерные модели при ограниченном объёме данных [30].

Аугментация данных позволяет искусственно увеличить объём и разнообразие обучающей выборки. Современные методы включают Cutout [34], Mixup [35], CutMix [36], а также автоматический поиск стратегий (AutoAugment [37], RandAugment [38]). Трансферное обучение основано на использовании предобученной модели в качестве начальной точки для обучения на целевой задаче [39, с. 1345-1359].

Сравнительный анализ архитектур проведён на наборе данных ImageNet-1K (табл. 1).

Таблица 1

Сравнительная характеристика архитектур на ImageNet-1K

Архитектура	Год	Парам. (М)	GFLOPs	Top-1 (%)
AlexNet	2012	61	0,7	63,3
VGG-16	2014	138	15,5	73,4
ResNet-50	2015	25,6	4,1	76,1
EfficientNet-B7	2019	66	37,0	84,3
ViT-B/16	2020	86	17,6	77,9
Swin-B	2021	88	15,4	83,5
ConvNeXt-B	2022	89	15,4	83,8
CoAtNet-4	2021	275	360,9	87,9

Анализ данных таблицы 1 позволяет выделить несколько ключевых тенденций. Во-первых, наблюдается последовательный рост точности классификации от AlexNet (63,3% Top-1) до современных моделей, превышающих 87%. Во-вторых, рост качества не всегда пропорционален увеличению числа параметров: EfficientNet-B7 достигает 84,3% при 66 млн параметров, тогда как VGG-16 с 138 млн параметров обеспечивает лишь 73,4%. В-третьих, гибридные архитектуры (Swin, CoAtNet) демонстрируют наилучшие результаты (табл. 2).

Таблица 2

Соотношение точности и вычислительных затрат

Архитектура	Top-1 (%)	GFLOPs	Top-1/GFLOPs
EfficientNet-B0	77,1	0,4	192,8
ResNet-50	76,1	4,1	18,6
MobileNetV3-L	75,2	0,22	341,8
Swin-T	81,3	4,5	18,1
ConvNeXt-T	82,1	4,5	18,2

Семейство EfficientNet и мобильные архитектуры обеспечивают наилучшее соотношение точности к вычислительным затратам. MobileNetV3-Large достигает 75,2% Top-1 при всего 0,22 GFLOPs, что делает его пригодным для развёртывания на мобильных устройствах [41].

Среди актуальных проблем области особого внимания заслуживают: интерпретируемость моделей (Grad-CAM [42, с. 618-626], SHAP [43], LIME [44, с. 1135-1144]), робастность к состязательным атакам (FGSM, PGD [45]) и вычислительная эффективность (квантизация, прунинг, дистилляция знаний [46, 47, 48]).

Перспективными направлениями развития являются: мультимодальные модели (CLIP [49], ALIGN [50]), обеспечивающие zero-shot классификацию изображений по текстовым описаниям; генеративные модели для визуального понимания (диффузионные модели [51]); нейроморфные и квантовые вычислительные платформы [52, с. 82-99; 53, с. 195-202].

Заключение

В ходе работы проведён систематический обзор современной методологии цифрового распознавания изображений. Глубокое обучение совершило революцию в данной области, обеспечив переход от ручного проектирования признаков к автоматическому извлечению иерархических представлений. Архитектуры трансформеров открыли новую парадигму обработки визуальной информации на основе механизма самовнимания.

Сравнительный анализ показал, что гибридные архитектуры, объединяющие свёрточные и трансформерные компоненты, демонстрируют наилучшие результаты на стандартных бенчмарках. Методы аугментации данных, трансферного и самоконтролируемого обучения являются неотъемлемыми компонентами современных пайплайнов обучения.

Ключевыми нерешёнными проблемами остаются: обеспечение интерпретируемости глубоких моделей, робастность к состязательным атакам, эффективность при ограниченных вычислительных ресурсах и данных. Развитие мультимодальных моделей и новых аппаратных платформ определяют перспективные направления исследований в области цифрового распознавания изображений.

Список литературы

Szeliski R. Computer Vision: Algorithms and Applications. 2nd ed. Springer, 2022. 925 p.
Voulodimos A., Doulamis N., Doulamis A., Protopapadakis E. Deep learning for computer vision: A brief review // Computational Intelligence and Neuroscience. 2018. Vol. 2018. P. 1-13.
Marr D. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. W.H. Freeman, 1982.
Canny J.A computational approach to edge detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1986. Vol. 8, No. 6. P. 679-698.
Turk M., Pentland A. Eigenfaces for recognition // Journal of Cognitive Neuroscience. 1991. Vol. 3, No. 1. P. 71-86.
Cortes C., Vapnik V. Support-vector networks // Machine Learning. 1995. Vol. 20, No. 3. P. 273-297.
Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Advances in Neural Information Processing Systems. 2012. Vol. 25. P. 1097-1105.
Dosovitskiy A., Beyer L., Kolesnikov A. et al. An image is worth 16×16 words: Transformers for image recognition at scale // Proc. ICLR. 2021.
Vaswani A., Shazeer N., Parmar N. et al. Attention is all you need // Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5998-6008.
Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016. 800 p.
Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006. 738 p.
Gonzalez R.C., Woods R.E. Digital Image Processing. 4th ed. Pearson, 2018.
Deng J., Dong W., Socher R. et al. ImageNet: A large-scale hierarchical image database // Proc. CVPR. 2009. P. 248-255.
Tomasi C., Manduchi R. Bilateral filtering for gray and color images // Proc. ICCV. 1998. P. 839-846.
Otsu N. A threshold selection method from gray-level histograms // IEEE Transactions on Systems, Man, and Cybernetics. 1979. Vol. 9, No. 1. P. 62-66.
Lowe D.G. Distinctive image features from scale-invariant keypoints // International Journal of Computer Vision. 2004. Vol. 60, No. 2. P. 91-110.
Dalal N., Triggs B. Histograms of oriented gradients for human detection // Proc. CVPR. 2005. Vol. 1. P. 886-893.
Ojala T., Pietikäinen M., Mäenpää T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No. 7. P. 971-987.
LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. 2015. Vol. 521, No. 7553. P. 436-444.
LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. Vol. 86, No. 11. P. 2278-2324.
Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // Proc. ICLR. 2015.
Szegedy C., Liu W., Jia Y. et al. Going deeper with convolutions // Proc. CVPR. 2015. P. 1-9.
He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proc. CVPR. 2016. P. 770-778.
Huang G., Liu Z., Van Der Maaten L., Weinberger K.Q. Densely connected convolutional networks // Proc. CVPR. 2017. P. 4700-4708.
Tan M., Le Q.V. EfficientNet: Rethinking model scaling for convolutional neural networks // Proc. ICML. 2019. P. 6105-6114.
Liu Z., Mao H., Wu C.-Y. et al. A ConvNet for the 2020s // Proc. CVPR. 2022. P. 11976-11986.
Liu Z., Lin Y., Cao Y. et al. Swin Transformer: Hierarchical vision transformer using shifted windows // Proc. ICCV. 2021. P. 10012-10022.
Touvron H., Cord M., Douze M. et al. Training data-efficient image transformers & distillation through attention // Proc. ICML. 2021.
Wang W., Xie E., Li X. et al. Pyramid Vision Transformer: A versatile backbone for dense prediction // Proc. ICCV. 2021.
Dai Z., Liu H., Le Q.V., Tan M. CoAtNet: Marrying convolution and attention for all data sizes // Advances in Neural Information Processing Systems. 2021. Vol. 34.
Wu H., Xiao B., Codella N. et al. CvT: Introducing convolutions to Vision Transformers // Proc. ICCV. 2021.
Graham B., El-Nouby A., Touvron H. et al. LeViT: A Vision Transformer in ConvNet's clothing for faster inference // Proc. ICCV. 2021.
Shorten C., Khoshgoftaar T.M. A survey on image data augmentation for deep learning // Journal of Big Data. 2019. Vol. 6, No. 1. P. 1-48.
DeVries T., Taylor G.W. Improved regularization of convolutional neural networks with Cutout // arXiv preprint arXiv:1708.04552. 2017.
Zhang H., Cisse M., Dauphin Y.N., Lopez-Paz D. mixup: Beyond empirical risk minimization // Proc. ICLR. 2018.
Yun S., Han D., Oh S.J. et al. CutMix: Regularization strategy to train strong classifiers with localizable features // Proc. ICCV. 2019.
Cubuk E.D., Zoph B., Mane D. et al. AutoAugment: Learning augmentation strategies from data // Proc. CVPR. 2019.
Cubuk E.D., Zoph B., Shlens J., Le Q.V. RandAugment: Practical automated data augmentation with a reduced search space // Proc. CVPR Workshops. 2020.
Pan S.J., Yang Q. A survey on transfer learning // IEEE Transactions on Knowledge and Data Engineering. 2010. Vol. 22, No. 10. P. 1345-1359.
Yosinski J., Clune J., Bengio Y., Lipson H. How transferable are features in deep neural networks? // Advances in Neural Information Processing Systems. 2014. Vol. 27.
Howard A., Sandler M., Chu G. et al. Searching for MobileNetV3 // Proc. ICCV. 2019.
Selvaraju R.R., Cogswell M., Das A. et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization // Proc. ICCV. 2017. P. 618-626.
Lundberg S.M., Lee S.-I. A unified approach to interpreting model predictions // Advances in Neural Information Processing Systems. 2017. Vol. 30.
Ribeiro M.T., Singh S., Guestrin C. «Why should I trust you?»: Explaining the predictions of any classifier // Proc. KDD. 2016. P. 1135-1144.
Madry A., Makelov A., Schmidt L. et al. Towards deep learning models resistant to adversarial attacks // Proc. ICLR. 2018.
Hinton G., Vinyals O., Dean J. Distilling the knowledge in a neural network // arXiv preprint arXiv:1503.02531. 2015.
Han S., Mao H., Dally W.J. Deep compression: Compressing deep neural networks with pruning, trained quantization and Huffman coding // Proc. ICLR. 2016.
Zoph B., Le Q.V. Neural architecture search with reinforcement learning // Proc. ICLR. 2017.
Radford A., Kim J.W., Hallacy C. et al. Learning transferable visual models from natural language supervision // Proc. ICML. 2021.
Jia C., Yang Y., Xia Y. et al. Scaling up visual and vision-language representation learning with noisy text supervision // Proc. ICML. 2021.
Rombach R., Blattmann A., Lorenz D. et al. High-resolution image synthesis with latent diffusion models // Proc. CVPR. 2022.
Davies M., Srinivasa N., Lin T.-H. et al. Loihi: A neuromorphic manycore processor with on-chip learning // IEEE Micro. 2018. Vol. 38, No. 1. P. 82-99.
Biamonte J., Wittek P., Pancotti N. et al. Quantum machine learning // Nature. 2017. Vol. 549, No. 7671. P. 195-202.

Методология цифрового распознавания изображений: современные подходы, архитектуры и перспективы развития

Цитирование

Похожие статьи

Другие статьи из раздела «Информационные технологии»