Некоторые функциональные аспекты алгоритмов распознавания

Гаджиев Ганбар Рафиг

Введение

Люди обладают замечательной способностью быстро и просто распознавать лица, не прилагая к этому никаких усилий. Это совершенствуется в течение нескольких лет детства, в результате чего мы можем распознавать тысячи лиц на протяжении всей жизни.

Этот навык постепенно набирает силу и дает нам возможность точно идентифицировать других людей, несмотря на изменения во внешности, такие как старение, прическа, волосы на лице и эмоции. Кроме того, на него не влияет манера лица и условия освещенности. Разработка вычислительной модели распознавания лиц является довольно сложной задачей, поскольку лица – это сложные многомерные и значимые визуальные стимулы.

Техника распознавания лиц часто сосредоточена на идентификации отдельных физических элементов у людей, таких как глаз, нос или рот, например, и размер головы, Форма лица также может быть определена по его размеру и количеству пространства, которое оно занимает от тела, а также его размер пропорционален размерам остальных органов лица, таких как рот, глаз и нос.

Для распознавания лиц используются те черты лица, которые не претерпевают значительных изменений с возрастом или в результате хирургического вмешательства. К ним относятся гребень бровей, скулы, края рта, расстояние между глазами, ширина носа, форма челюсти и подбородка.

Эффективность распознавания лиц является ключевым вопросом, поэтому обсуждаются механизмы решения проблемы распознавания не фронтальных лиц.

Искусственные нейронные сети в распознавании лиц

Архитектура нейронной сети намного сложнее обычного программного кода: обрабатывая поток входящей информации, нейроны постоянно взаимодействуют между собой, поэтому коэффициенты связи между ними со временем меняются. Похожие процессы происходят и в мозге живого существа, когда он накапливает опыт решения каких-то задач, поэтому в программировании нейросетей этот процесс называют обучением или тренировкой.

Свёрточная сеть способна к «глубокому обучению» – пропуская через себя большой массив примеров, она учится обнаруживать отличительные черты объектов, находит взаимосвязи между ними и применяет полученный опыт для обнаружения новых объектов. Этот тезис превосходно иллюстрируют события сегодняшнего дня. Пандемия COVID-19 бросила биометрической отрасли новый вызов. Алгоритмы, натренированные на распознавание обычного лица, теперь должны справляться с распознаванием лица, закрытого маской.

Классические алгоритмы распознавания лиц

Дескриптор признаков для распознавания масок лица с помощью SVM

Дескриптор признаков – это представление изображения, которое извлекает необходимую и полезную информацию. Дескриптор признаков преобразует изображение в вектор признаков. Сгенерированный вектор признаков далее поступает в модели классификации изображений, построенные на определенных алгоритмах, в данном случае это линейный SVM как двухклассовый классификатор для обнаружения маски лица.

Локальные бинарные паттерны (LBP)

Локальный бинарный паттерн является дескриптором текстуры. Алгоритм пытается найти локальную структуру изображения, и делает это путем сравнения каждого пикселя с соседними пикселями. Помимо распознавания лица и выражения лица, LBP также используется во многих других приложениях биометрии, включая локализацию глаз, распознавание радужной оболочки глаза, распознавание отпечатков пальцев, распознавание отпечатков ладоней, распознавание походки и классификацию возраста лица. В данной диссертации дескриптор текстуры LBP используется для обнаружения наличия покрытия на лице.

Ориентационные градиенты гистограммы (HOG)

HOG – это дескриптор признаков, который широко используется для задач обнаружения объектов. Он фокусируется на структуре или форме объекта на изображении. Он идентифицирует и извлекает градиент и ориентацию (или величину и направление) краев на основе локализованных участков изображения. Входное изображение фрагментируется на более мелкие области, локализованная часть – это маленькая область изображения, где вычисляются градиент и ориентация. Наконец, гистограммы генерируются с использованием вычисленного градиента и ориентации каждого пикселя в изображении.

Система распознавания лиц в сравнении с системой распознавания глаз

Среди всех биометрических методов распознавания личности чаще всего используются распознавание отпечатков пальцев и лиц. Распознавание отпечатков пальцев – это старый подход, который используется уже давно, но распознавание лиц стало более популярным и сейчас привлекает все больше внимания как бесконтактный подход. Распознавание лиц – основная биометрия, используемая людьми. Системы распознавания лиц и глаз – это две бесконтактные биометрические процедуры аутентификации, изучаемые в данной диссертации.

Когда два человека встречаются, их мозг запускает множество биометрических параметров, основанных на росте, возрасте, цвете и стиле волос, цвете кожи и т.д. Однако окончательное решение о личности другого человека принимается на основе его лица. Поэтому предполагается, что лицо является той частью тела, которая несет больше информации о личности, заметной для всех, чем другие части. Распознавание по лицу и глазу имеет несколько коммерческих и охранных применений в проверке и распознавании личности.

После недавнего кризиса COVID-19 глазная биометрия имеет еще одно преимущество перед лицевой биометрией в присутствии маски. Концепция использования глаз в качестве биометрии началась со сканирования радужной оболочки глаза и привела к обнаружению уникальных особенностей в глазной области. В настоящее время глаз признан одним из основных биометрических признаков.

Глазная биометрия, состоящая из областей в глазу и вокруг него, т.е. радужная оболочка глаза, конъюнктивальных сосудов и окологлазничной области, предлагает отличное альтернативное решение по сравнению с биометрией лица для аутентификации человека. Он привлек значительное внимание исследовательского сообщества благодаря своей точности, безопасности, лучшей устойчивости к мимике лица и простоте использования в мобильных устройствах (поскольку глазная область может быть отсканирована с помощью обычной RGB-камеры) без необходимости в дополнительном оборудовании и при наличии лицевых масок из-за пандемических ситуаций.

Распознавание лиц с помощью глубокого обучения

Модели, основанные на глубоком обучении, в последнее время очень успешно достигают передовых результатов в ряде задач компьютерного зрения, распознавания речи и обработки естественного языка. В последние годы глубокое обучение достигло больших успехов с помощью CNN, внедрение различных функций потерь специально для систем распознавания лиц и аутентификации, таких как ArcFace, CosFace, SphereFace и AdaCos с малым внутриклассовым и большим межклассовым расстоянием, позволило повысить точность системы распознавания лиц.

Сверточная нейронная сеть – это алгоритм глубокого обучения, который принимает входные данные изображения в числовом виде, присваивает веса и смещения различным признакам изображения и способен отличать одно от другого. Предварительная обработка, необходимая в CNN значительно ниже по сравнению с другими алгоритмами классификации, создаваемыми вручную. В то время как в примитивных методах фильтры создаются вручную, при достаточном обучении CNN могут научиться этим фильтрам/характеристикам.

Некоторые функциональные аспекты алгоритмов распознавания

Похожие статьи

Другие статьи из раздела «Информационные технологии, телекоммуникации»