Глазами робота: что такое «машинное зрение. Научные исследования в области видеоаналитики. Формулы работы программы

Ранняя система машинного зрения Автовижн II компании Автоматикс была продемонстрирована на выставке в 1983. Камера на штативе направлена вниз на стол с подсветкой для получения четкого изображения на экране, которое затем подвергается проверке на блобы

Машинное зрение - это применение компьютерного зрения для промышленности и производства. В то время как компьютерное зрение - это общий набор методов, позволяющих компьютерам видеть, областью интереса машинного зрения, как инженерного направления, являются цифровые устройства ввода-вывода и компьютерные сети, предназначенные для контроля производственного оборудования, таких как роботы-манипуляторы или аппараты для извлечения бракованной продукции. Машинное зрение является подразделом инженерии, связанное с вычислительной техникой, оптикой, машиностроением и промышленной автоматизацией. Одно из наиболее распространенных приложений машинного зрения - инспекции промышленных товаров, таких как полупроводниковые чипы, автомобили, продукты питания и лекарственные препараты. Люди, работавшие на сборочных линиях, осматривали части продукции, делая выводы о качестве исполнения. Системы машинного зрения для этих целей используют цифровые и интеллектуальные камеры, а также программное обеспечение обрабатывающее изображение для выполнения аналогичных проверок.

Введение

Системы машинного зрения запрограммированы для выполнения узкоспециализированных задач, таких как подсчет объектов на конвейере, чтение серийных номеров или поиск поверхностных дефектов. Польза системы визуальной инспекции на основе машинного зрения заключается в высокой скорости работы с увеличением оборота, возможности 24-часовой работы и точности повторяемых измерений. Так же преимущество машин перед людьми заключается в отсутствии утомляемости, болезней или невнимательности. Тем не менее, люди обладают тонким восприятием в течение короткого периода и большей гибкостью в классификации и адаптации к поиску новых дефектов.

Компьютеры не могут «видеть» таким же образом, как это делает человек. Фотокамеры не эквивалентны системе зрения человека, и в то время как люди могут опираться на догадки и предположения, системы машинного зрения должны «видеть» путём изучения отдельных пикселей изображения, обрабатывая их и пытаясь сделать выводы с помощью базы знаний и набора функций таких, как устройство распознавания образов. Хотя некоторые алгоритмы машинного зрения были разработаны, чтобы имитировать зрительное восприятие человека, большое количество уникальных методов были разработаны для обработки изображений и определения соответствующих свойств изображения.

Компоненты системы машинного зрения

Хотя машинное зрение - процесс применения компьютерного зрения для промышленного применения, полезно перечислить часто используемые аппаратные и программные компоненты. Типовое решение системы машинного зрения включает в себя несколько следующих компонентов:

Одна или несколько цифровых или аналоговых камер (черно-белые или цветные) с подходящей оптикой для получения изображений
Программное обеспечение для изготовления изображений для обработки. Для аналоговых камер это оцифровщик изображений
Процессор (современный ПК c многоядерным процессором или встроенный процессор, например - ЦСП)
Программное обеспечение машинного зрения, которое предоставляет инструменты для разработки отдельных приложений программного обеспечения.
Оборудование ввода-вывода или каналы связи для доклада о полученных результатах
Умная камера: одно устройство, которое включает в себя все вышеперечисленные пункты.
Очень специализированные источники света (светодиоды , люминесцентные и галогенные лампы и т. д.)
Специфичные приложения программного обеспечения для обработки изображений и обнаружения соответствующих свойств.
Датчик для синхронизации частей обнаружения (часто оптический или магнитный датчик) для захвата и обработки изображений.
Приводы определенной формы, используемые для сортировки или отбрасывания бракованных деталей.

Датчик синхронизации определяет, когда деталь, которая часто движется по конвейеру, находится в положении, подлежащем инспекции. Датчик запускает камеру, чтобы сделать снимок детали, когда она проходит под камерой и часто синхронизируется с импульсом освещения, чтобы сделать четкое изображение. Освещение, используемое для подсветки деталей предназначено для выделения особенностей, представляющих интерес, и скрытия или сведения к минимуму появление особенностей, которые не представляют интереса (например, тени или отражения). Для этой цели часто используются светодиодные панели подходящих размеров и расположения.

Изображение с камеры попадает в захватчик кадров или в память компьютера в системах, где захватчик кадров не используется. Захватчик кадров - это устройство оцифровки (как часть умной камеры или в виде отдельной платы в компьютере), которое преобразует выходные данные с камеры в цифровой формат (как правило, это двумерный массив чисел, соответствующих уровню интенсивности света определенной точки в области зрения, называемых пикселями) и размещает изображения в памяти компьютера, так чтобы оно могло быть обработано с помощью программного обеспечения для машинного зрения.

Программное обеспечение, как правило, совершает несколько шагов для обработки изображений. Часто изображение для начала обрабатывается с целью уменьшения шума или конвертации множества оттенков серого в простое сочетание черного и белого (бинаризации). После первоначальной обработки программа будет считать, производить измерения и/или определять объекты, размеры, дефекты и другие характеристики изображения. В качестве последнего шага, программа пропускает или забраковывает деталь в соответствии с заданными критериям. Если деталь идет с браком, программное обеспечение подает сигнал механическому устройству для отклонения детали; другой вариант развития событий, система может остановить производственную линию и предупредить человека работника для решения этой проблемы и сообщить, что привело к неудаче.

Хотя большинство систем машинного зрения полагаются на «черно-белые» камеры, использование цветных камер становится все более распространенным явлением. Кроме того, все чаще системы машинного зрения используют цифровые камеры прямого подключения, а не камеры с отдельным захватчиком кадров, что сокращает расходы и упрощает систему.

«Умные» камеры со встроенными процессорами, захватывают все большую долю рынка машинного зрения. Использование встроенных (и часто оптимизированных) процессоров устраняет необходимость в карте захватчика кадров и во внешнем компьютере, что позволяет снизить стоимость и сложность системы, обеспечивая вычислительную мощность для каждой камеры. «Умные» камеры, как правило, дешевле, чем системы, состоящих из камеры, питания и/или внешнего компьютера, в то время как повышение мощности встроенного процессора и ЦСП часто позволяет достигнуть сопоставимой или более высокой производительности и больших возможностей, чем обычные ПК-системы.

Методы обработки

Коммерческие пакеты программ для машинного зрения и пакеты программ с открытым исходным кодом обычно включают в себя ряд методов обработки изображений, таких как:

Счетчик пикселей: подсчитывает количество светлых или темных пикселей
Бинаризация : преобразует изображение в серых тонах в бинарное (белые и черные пиксели)
Сегментация : используется для поиска и/или подсчета деталей
- Поиск и анализ блобов: проверка изображения на отдельные блобы связанных пикселей (например, черной дыры на сером объекте) в виде опорных точек изображения. Эти блобы часто представляют цели для обработки, захвата или производственного брака.
- Надежное распознавание по шаблонам: поиск по шаблону объекта, который может быть повернут, частично скрыт другим объектом, или отличным по размеру.
Чтение штрих-кодов : декодирование 1D и 2D кодов, разработанных для считывания или сканирования машинами
Оптическое распознавание символов : автоматизированное чтение текста, например, серийных номеров
Измерение: измерение размеров объектов в дюймах или миллиметрах
Обнаружение краев: поиск краев объектов
Сопоставление шаблонов: поиск, подбор, и/или подсчет конкретных моделей

В большинстве случаев, системы машинного зрения используют последовательное сочетание этих методов обработки для выполнения полного инспектирования. Например, система, которая считывает штрих-код может также проверить поверхность на наличие царапин или повреждения и измерить длину и ширину обрабатываемых компонентов.

Применение машинного зрения

Применение машинного зрения разнообразно, оно охватывает различные области деятельности, включая, но не ограничиваясь следующими:

Крупное промышленное производство
Ускоренное производство уникальных продуктов
Системы безопасности в промышленных условиях
Контроль предварительно изготовленных объектов (например, контроль качества, исследование допущенных ошибок)
Системы визуального контроля и управления (учет, считывание штрих-кодов)
Контроль автоматизированных транспортных средств
Контроль качества и инспекция продуктов питания

В автомобильной промышленности системы машинного зрения используются в качестве руководства для промышленных роботов, а также для проверки поверхности окрашенного автомобиля, сварных швов, блоков цилиндров и многих других компонентов на наличие дефектов.

Одним из важнейших «навыков» автопилота является возможность анализировать дорожную сиутацию и принимать решения о тех или иных действиях на основе получаемой с камер информации. Для того, чтобы автомобиль мог различать встречающиеся ему на дороге объекты используются специальные системы машинного зрения.

Что это такое

Технологии машинного зрения развиваются на протяжении последних десятилетий. Ученые, занимающиеся этим вопросом, хотят научить компьютер видеть и анализировать полученную информацию. У машинного зрения существует большое количество применений - такие технологии можно использовать, например, для получения 3D-моделей из фото и видеоматериалов в процессе создания цифровых карт, для создания архитектурных моделей зданий или в охранных системах для распознавания лиц. Но наибольшее влияние на повседневную жизнь миллионов людей окажет внедрение подходов машинного зрения в автомобилестроении.

Когда машина может видеть

Одно из наиболее очевидных применений технологий машинного зрения в автомобилях - это создание систем предупреждения аварийных ситуаций. Сейчас активно развивается технология Мобилай (Mobileye), которая используется в машинах BMW, General Motors, и, с недавного времени, Tesla Motors. Также свою технологию City Safety разработывает шведский автопроизводитель Volvo.

Эта система отслеживает траекторию движения машины и предупреждает водителя, если он слишком близко приблизится к впереди едущему автомобилю, или в случае его резкого торможения. При этом возможно не только получение предупреждения, но и автоматическое торможение в критических ситуациях - за это отвечают автономные системы экстренного торможения (Autonomous Emergency Braking), которые используются и в беспилотных автомобилях.

Согласно опубликованной в конце января 2016 года статистике Страхового института дорожной безопасности (Insurance Institute for Highway Safety, IIHS), использование автоматических систем экстренного торможения позволяет добиться снижения числа столкновений с движущимся впереди транспортом на 39%, а общего числа аварий - на 12%. Кроме того, Audi ссылается на данные, согласно которым за последние пять лет применение подобных систем позволило снизить число травм пассажиров на 38%.

Существуют и другие способы применения машинного зрения - например, компания Ford научила фары автомобиля реагировать на информацию, поступающую с фронтальной камеры. Электроника расширяет луч света фар при приближении к знаку перекрестка или кругового движения, чтобы водитель мог раньше увидеть объекты, движущиеся сбоку. Кроме того, система может распознавать и внезапно появляющиеся на дороге объекты, заранее освещая их, что помогает снизить вероятность наезда на препятствие:

Технологии машинного зрения также используются для создания систем навигации - с помощью камер и сенсоров машина может определять свое местоположение, сверяться с цифровой картой и прокладывать маршруты движения. Такой проект разрабатывают, к примеру, инженеры Mercedes-Benz (система Route Pilot).

И это еще не все. Так страховые компании могут использовать современные инструменты для фиксации повреждений автомобиля, который попал в ДТП. Кроме того, если в аварию попадут автомобили, оборудованные технологиями машинного зрения, впоследствии это может облегчить реконструкцию сцены происшествия.

Проблемы и перспективы

Несмотря на перспективность технологий машинного зрения и убедительные данные статистики, свидетельствующие о том, что их применение позволяет повысить безопасность на дорогах, существуют и определенные преграды к их дальнейшему внедрению.

Прежде всего, свою роль играет высокая сложность необходимых математических вычислений: данные, поступающие с камер и датчиков, являются, по сути, цветовыми значениями 2D-пикселей, из которых алгоритм должен построить 3D-геометрию сцены и распознать и классифицировать обнаруженные движущиеся и неподвижные объекты. Система должна уметь отличать людей и животных от неподвижных объектов, учитывать особенности освещения и отражения на зеркальных поверхностях, и делать все это в движении.

Не всегда камерам удается получить изображение высокого качества, что затрудняет точность их обработки. Кроме того, существуют и ограничения в вычислительной мощности доступного железа, поскольку автопроизводители стремятся сделать так, чтобы внедрение новых технологий не приводило к удорожанию машин.

При этом существующие проблемы нельзя назвать нерешаемыми, и многие компании ведут разработки, которые позволят получить высокую точность обработки изображения с камеры автомобиля, без необходимости задействовать серьезные вычислительные мощности. Одна из таких технологий создается компанией Cognitive Technologies совместо с автопризводителем КАМАЗ в рамках проекта построения беспилотного грузовика - система использует принцип фовеального зрения. Это позволяет автомобилю строить «зоны интереса», формирующие виртуальный тоннель - в таком случае система может анализировать лишь 5-7% получаемого видеоизображения без падения качества самого анализа.

Технологии машинного зрения - перспективное направление, поэтому в подобные разработки инвестируют даже технологические компании, для которых это не основное направление бизнеса. К примеру, развитием технологии для создания 3D-автомобилей занимается провайдер телематических услуг «Лаборатория умного вождения». Российские разработчики активно взаимодействуют с зарубежными коллегами: на прошедшем в прошлом году во Франции мероприятии 3DV 2015 представители Smartdriving договорились о сотрудничестве со специалистами одного из американских технологических университетов.

Развитие технологий машинного зрения и собранная их разработчиками и сторонними организациями статистика позволяет утверждать, что уже в перспективе 5-10 лет они позволят серьезно повысить безопасность дорожного движения. Еще до того, как на дорогах начнут преобладать машины с автопилотом, системы умного торможения, освещения и картографии, позволят серьезно снизить число аварий и людей, пострадавших в них.

Новые автомобильные технологии, такие как телематика и машинное зрение, позволяют не только повысить безопасность дорожного движения, но и открывают новые возможности по развитию бизнеса компаний из смежных отраслей - например, страхование. Через несколько лет автомобильный рынок, а также работающие с ним в связке отрасли кардинально изменятся. А значит те, кто инвестирует в подобные разработки уже сейчас, смогут захватить лидерство в эпоху распространения новых технологий.

УДК 004.93"1

Машинное зрение

Татьяна Вадимовна Петрова, группа 4241/3

Машинное зрение - это применение компьютерного зрения для промышленности и производства. Областью интереса машинного зрения являются цифровые устройства ввода/вывода и компьютерные сети, предназначенные для контроля производственного оборудования. Машинное зрение имеет некоторые преимущества перед зрением человека. Соответственно, актуально развивать это направление науки. В данном обзоре рассказывается об истории развития машинного зрения, компонентах системы машинного зрения, применении машинного зрения и будущем данной области науки.

Введение

компьютерный машинный зрение производственный

Основную часть информации о внешнем мире человек получает по зрительному каналу и далее весьма эффективно обрабатывает полученную информацию при помощи аппарата анализа и интерпретации визуальной информации. Поэтому встает вопрос о возможности машинной реализации данного процесса.

За счет возрастания сложности решаемых научно-технических задач, автоматическая обработка и анализ визуальной информации становятся все более актуальными вопросами. Данные технологии используются в весьма востребованных областях науки и техники, таких как автоматизация процессов, повышение производительности, повышение качества выпускаемых изделий, контроль производственного оборудования, интеллектуальные робототехнические комплексы, системы управления движущимися аппаратами, биомедицинские исследования и множество других. Кроме того, можно сказать, что успех современного бизнеса основывается главным образом на качестве предлагаемой продукции. А для его обеспечения, если говорить о производстве материальных вещей, требуется визуальный контроль.

Далее мы будем использовать термин «машинное зрение» (Machine vision) как понятие, наиболее полно объемлющее круг инженерных технологий, методов и алгоритмов, связанных с задачей интерпретации визуальной информации, а также как практическое использование результатов этой интерпретации.

1. История развития машинного зрения

Компьютерное зрение оформилось как самостоятельная дисциплина к концу 60х годов. Это направление возникло в рамках искусственного интеллекта в тот его период, когда еще были горячи споры о возможности создания мыслящей машины. Оно выделилось из работ по распознаванию образов. [Зуева, 2008]

Кратко история развития машинного зрения представлена на рисунке 1.

Рис. 1. История машинного зрения

В истории развития машинного зрения можно выделить следующие этапы:

· 1955 г. - профессор Массачусетского технологического института (МТИ) Оливер Селфридж опубликовал статью «Глаза и уши для компьютера». В ней автор выдвинул теоретическую идею оснащения компьютера средствами распознавания звука и изображения.

· 1958 г. - психолог Фрэнк Розенблатт из Корнеллского университета создал компьютерную реализацию персептрона (от perception - восприятие) - устройства, моделирующего схему распознавания образов человеческим мозгом. Персептрон был впервые смоделирован в 1958 году, причем его обучение требовало около получаса машинного времени на ЭВМ IBM-704. Аппаратный вариант - Mark I Perceptron - был построен в 1960 г. и предназначался для распознавания зрительных образов [Компьютерное зрение, 2010] .

Однако рассмотрение задач машинного зрения носило скорее умозрительный характер, так как ни техники, ни математического обеспечения для решения таких сложных задач еще не было.

· 1960-е гг.- появление первых программных систем обработки изображений (в основном для удаления помех с фотоснимков, сделанных с самолетов и спутников), стали развиваться прикладные исследования в области распознавания печатных символов. Однако все еще существовали ограничения в развитии данной области науки, такие как отсутствие дешевых оптических систем ввода данных, ограниченность и довольно узкая специализация вычислительных систем. Бурное развитие систем компьютерного зрения на протяжении 60-х годов можно объяснить расширением использования вычислительных машин и очевидной потребностью в более быстрой и эффективной связи человека с ЭВМ. К началу 60-х годов задачи компьютерного зрения в основном охватывали область космических исследований, требовавших обработки большого количества цифровой информации.

· 1970-е гг. - Лавренсе Робертс, аспирант МТИ, выдвинул концепцию машинного построения трехмерных образов объектов на основе анализа их двумерных изображений. На данном этапе стал проводиться более глубокий анализ данных. Начали развиваться различные подходы к распознаванию объектов на изображении, например структурные, признаковые и текстурные.

· 1979 г. - профессор Ганс-Хельмут Нагель из Гамбургского университета заложил основы теории анализа динамических сцен, позволяющей распознавать движущиеся объекты в видеопотоке.

· В конце 1980-х годов были созданы роботы, способные более-менее удовлетворительно оценивать окружающий мир и самостоятельно выполнять действия в естественной среде

· 80-е и 90-е годы ознаменовались появлением нового поколения датчиков двухмерных цифровых информационных полей различной физической природы. Развитие новых измерительных систем и методов регистрации двухмерных цифровых информационных полей в реальном масштабе времени позволило получать для анализа устойчивые во времени изображения, генерируемые этими датчиками. Совершенствование же технологий производства этих датчиков позволило существенным образом снизить их стоимость, а значит, значительно расширить область их применения

· С начала 90-х годов в алгоритмическом аспекте последовательность действий по обработке изображения принято рассматривать в согласии с так называемой модульной парадигмой. Эта парадигма, предложенная Д. Марром на основе длительного изучения механизмов зрительного восприятия человека, утверждает, что обработка изображений должна опираться на несколько последовательных уровней восходящей информационной линии: от «иконического» представления объектов (растровое изображение, неструктурированная информация) – к их символическому представлению (векторные и атрибутивные данные в структурированной форме, реляционные структуры и т. п.). [Визильтер и др., 2007]

· В середине 90-х годов появились первые коммерческие системы автоматической навигации автомобилей. Эффективные средства компьютерного анализа движений удалось разработать в конце XX века

· 2003 г. - на рынок были выпущены первые достаточно надежные корпоративные системы распознавания лиц.

2. Задачи машинного зрения и области его применения

2.1 Определение понятия «машинное зрение»

Машинное зрение - это применение компьютерного зрения для промышленности и производства. Областью интереса машинного зрения, как инженерного направления, являются цифровые устройства ввода/вывода и компьютерные сети, предназначенные для контроля производственного оборудования, таких как роботы-манипуляторы или аппараты для извлечения бракованной продукции.

Machine vision is the study of methods and techniques whereby artificial vision systems can be constructed and usefully employed in practical applications. As such, it embraces both the science and engineering of vision.

Its study includes not only the software but also the hardware environment and image acquisition techniques needed to apply it. As such, it differs from computer vision, which appears from most books on the subject to be the realm of the possible design of the software, without too much attention on what goes into an integrated vision system (though modern books on computer vision usually say a fair amount about the "nasty realities" of vision, such as noise elimination and occlusion analysis).

2.2 Машинное зрение в настоящее время.

В настоящее время существует четкая граница между так называемым монокулярным и бинокулярным компьютерным зрением. К первой области относятся исследования и разработки в области компьютерного зрения, связанные с информацией, поступающей от одной камеры или от каждой камеры отдельно. Ко второй области относятся исследования и разработки, имеющие дело с информацией, одновременно поступающей от двух и более камер. Несколько камер в таких системах используются для измерения глубины наблюдения. Эти системы называются стереосистемами.

К настоящему моменту теория компьютерного зрения полностью сложилась как самостоятельный раздел кибернетики, опирающийся на научную и практическую базу знаний. Ежегодно по данной тематике издаются сотни книг и монографий, проводятся десятки конференций и симпозиумов, выпускается различное программное и аппаратно-программное обеспечение. Существует ряд научно-общественных организаций, поддерживающих и освещающих исследования в области современных технологий, в том числе технологии компьютерного зрения.

2.3. Основные задачи машинного зрения

В целом, в задачи систем машинного зрения входит получение цифрового изображения, обработка изображения с целью выделения значимой информации на изображении и математический анализ полученных данных для решения поставленных задач.

Однако машинное зрение позволяет решать множество задач, которые условно можно разделить на четыре группы (Рис.2) [Лысенко, 2007] :

Рис.2. Задачи машинного зрения

· Распознавание положения

Цель машинного зрения в данном применении - определение пространственного местоположения (местоположения объекта относительно внешней системы координат) или статического положения объекта (в каком положении находится объект относительно системы координат с началом отсчета в пределах самого объекта) и передача информации о положении и ориентации объекта в систему управления или контроллер.
Примером такого приложения может служить погрузочно-разгрузочный робот, перед которым стоит задача перемещения объектов различной формы из бункера. Интеллектуальная задача машинного зрения заключается, например, в определении оптимальной базовой системы координат и ее центра для локализации центра тяжести детали. Полученная информация позволяет роботу захватить деталь должным образом и переместить ее в надлежащее место.

Измерение

В приложениях данного типа основная задача видеокамеры заключается в измерении различных физических параметров объекта.
Примером физических параметров может служить линейный размер, диаметр, кривизна, площадь, высота и количество. Пример реализации данного задачи - измерение различных диаметров горлышка стеклянной бутылки.

Инспекция

В приложениях, связанных с инспекцией, цель машинного зрения - подтвердить определенные свойства, например, наличие или отсутствие этикетки на бутылке, болтов для проведения операции сборки, шоколадных конфет в коробке или наличие различных дефектов.

Идентификация

В задачах идентификации основное назначение видеокамеры - считывание различных кодов (штрих-кодов, 2D-кодов и т. п.) с целью их распознавания средствами камеры или системным контроллером, а также определение различных буквенно-цифровых обозначений. Кроме того к задачам данной группы можно отнести системы, выполняющие задачи безопасности, такие как идентификация личности и техники, детекторы движения.

Исходя из задач, которые решает машинное зрение, можно выделить множество областей применения машинного зрения. Однако стоит отметить, что сегодняшняя структура спроса определяется пока еще ограниченными возможностями современных систем машинного зрения.

Ниже приведена структура рыночного спроса по проектной тематике (Рис.3) [Бобровский, 2004] :

Рис.3. Структура рыночного спроса

· 50% всех систем машинного зрения эксплуатируются в задачах контроля качества, т.е. решают инспекционные задачи машинного зрения. Это прежде всего визуальный контроль за процессом сборки, цветом и качеством поверхности продукции, внешним видом и чистотой упаковки, правильностью и разборчивостью этикеток, уровнем жидкости во всевозможной таре и т. д. Примерно 10% этих задач выполняются системами трехмерного зрения. Отдельная область использования систем машинного зрения на производстве - проведение всевозможных визуальных измерений параметров технологических процессов и, в частности, определение размеров предметов, т.е. решение задач измерения .

· 20% спроса приходится на системы машинного зрения для проектов автоматизации производства и внедрения промышленных роботов. Такие системы машинного зрения упрощают самые разные виды высокоточной деятельности (сборка и разборка, фасовка, покраска, сварка, утилизация), облегчают транспортировку грузов, применяются в системах учета, маркировки, регистрации и сортировки продукции. Также инспекционные задачи и задачи расположения для правильной работы робота.

· 17% всех продаж систем машинного зрения составляют широко известные и хорошо работающие OCR/OCV-системы распознавания печатных символов и штрих-кодов. Решение задачи идентификации .

· Рынок систем машинного зрения для непроизводственных (развлекательных, бытовых, исследовательских) роботов составляет 13%.

2.4 Основные области применения машинного зрения

В статье Бобровского «Когда машины прозреют» [Бобровский, 2004] представлена следующая статистика областей, в которых востребованы системы машинного зрения:

· Небольшой процент рынка приходится на системы виртуальной реальности, предлагающие качественно новый интерфейс "человек - компьютер", основанный на распознавании лиц и жестов, на системы, обеспечивающие выполнение задач безопасности, смысловой анализ мультимедийных данных и т.д.

· Востребованы системы машинного зрения и в робототехнике. Эксперты полагают, что технологии машинного зрения - самый простой способ научить аппараты автономным действиям в естественном мире.

· Существенный спрос наблюдается со стороны сельскохозяйственных организаций, где необходима автоматизация деятельности по визуальному контролю и сортировке продуктов, однако пока системы машинного зрения показывают в данной области неудовлетворительные результаты.

· Отмечается рост интереса к системам машинного зрения со стороны нанотехнологических фирм, биотехнологических компаний и в сфере медицины (автоматический анализ медицинских изображений – рентген, томография, УЗИ)

· Востребовано машинное зрение и в области охранных систем (идентификация личности, детекторы движения, распознавание и отслеживание движущихся объектов, распознавание автомобильных номеров и т.д.);

· Системы машинного зрения востребованы в области контроля качества и инспекции продуктов питания (в настоящее время оценка качества бисквитов на кондитерской линии осуществляется со скоростью 60 пирожных в секунду), а также в области визуального контроля и управления (учет, считывание штрих-кодов).

· Машинное зрение применяется в системах распознавания рукописного и печатного текста.

3. Техническая составляющая машинного зрения

3.1 Методы обработки изображения

В системах машинного зрения, для решения перечисленных задач, используются различные технологии и методы. Ниже перечислены основные методы обработки изображения:

· Счетчик пикселей : подсчитывает количество светлых или темных пикселей и на основе результата делает необходимые выводы об изображении.

· Выделение связанных областей : Связная область изображения – это, с одной стороны, тип объекта, все еще очень близко связанный с растровым изображением, и в то же время – это уже некая самостоятельная семантическая единица, позволяющая вести дальнейший геометрический, логический, топологический и любой другой анализ изображения

· Бинаризация : преобразует изображение в серых тонах в бинарное (белые и черные пиксели).

· Гистограмма и гистограммная обработка: Гистограмма характеризует частоту встречаемости на изображении пикселей одинаковой яркости.

· Сегментация : используется для поиска и/или подсчета деталей. Сегментацией изображения называется разбиение изображения на непохожие по некоторому признаку области. Предполагается, что области соответствуют реальным объектам, или их частям, а границы областей соответствуют границам объектов.

· Чтение штрих-кодов : декодирование 1D и 2D кодов, разработанных для считывая или сканирования машинами

· Оптическое распознавание символов: автоматизированное чтение текста, например, серийных номеров

· Измерение : измерение размеров объектов в дюймах или миллиметрах

· Сопоставление шаблонов : поиск, подбор, и/или подсчет конкретных моделей

· Инвариантные алгоритмы сопоставления точечных особенностей на изображениях: обнаружения и сопоставление точечных особенностей на изображениях.

· Методы идентификация личности по радужной оболочке глаза

· Различные методы восстановления формы объекта по изображениям

3.2 Компоненты системы

Типовая система машинного зрения состоит из одной или нескольких цифровых или аналоговых камер (черно-белые или цветные) с подходящей оптикой для получения изображений, подсветки и объекта (рис. 4), оборудования ввода/вывода или каналы связи для доклада о полученных результатах. Кроме того, важна и программная составляющая систем машинного зрения, а именно программное обеспечение для подготовки изображений к обработке (для аналоговых камер это оцифровщик изображений), специфичные приложения программного обеспечения для обработки изображений и обнаружения соответствующих свойств.

Рис.4. Состав типовой системы машинного зрения

Матрица чувствительных элементов , входящих в состав видеокамеры, предназначена для получения цифрового изображения. В состав матрицы чувствительного элемента входит множество аналого-цифровых преобразователей, предназначенных для преобразования информации о световой интенсивности в цифровое значение.

Объектив позволяет камере фокусироваться на определенном расстоянии и получать четкое изображение объекта. В случае, когда объект находится вне фокусного расстояния, изображение получается нерезким (размытым, с нечеткими краями), что ухудшает возможность обработки видеоряда. В отличие от обычных цифровых фотоаппаратов с объективами, поддерживающими функции автофокусировки, в машинном зрении применяется оптика с фиксированным фокусным расстоянием или ручной настройкой фокуса. Существуют различные типы объективов для самых разных задач (стандартные, телескопические, с широким углом обзора, с увеличением и другие), и выбор правильного типа оптики - важный этап при проектировании системы машинного зрения.

Подсветка - еще один важный элемент в машинном зрении. Благодаря использованию различных типов освещения можно расширить круг задач, решаемых машинным зрением. Существует различные типы подсветок, но наиболее популярным является светодиодная - в связи с ее высокой яркостью. При этом современный уровень развития светодиодной техники обеспечивает большой срок службы устройства и малое энергопотребление.

3.3. Принципы функционирования систем машинного зрения

Последовательность действий, выполняемых системой машинного зрения, можно представить в следующем виде:

Рис.5. Последовательность действий системы машинного зрения

Изображение, полученное с камеры, попадает в захватчик кадров или в память компьютера. Захватчик кадров - это устройство, которое преобразует выходные данные с камеры в цифровой формат (как правило, это двумерный массива чисел) и размещает изображения в памяти компьютера, так чтобы оно могло быть обработано с помощью программного обеспечения для машинного зрения.

Программное обеспечение, как правило, совершает несколько шагов для обработки изображений. Часто изображение для начала обрабатывается с целью уменьшения шума или конвертации множества оттенков серого в простое сочетание черного и белого (бинаризации). После первоначальной обработки программа будет считать, производить измерения и/или определять объекты, размеры, дефекты и другие характеристики изображения. В качестве последнего шага, программа пропускает или забраковывает деталь в соответствии с заданными критериям. Если деталь идет с браком, программное обеспечение подает сигнал механическому устройству для отклонения детали; другой вариант развития событий, система может остановить производственную линию и предупредить человека работника для решения этой проблемы, и что привело к неудаче. Хотя большинство систем машинного зрения полагаться на «черно-белые» камеры, использование цветных камер становится все более распространенным явлением. Кроме того, все чаще системы машинного зрения используют цифровые камеры прямого подключения, а не камеры с отдельным захватчиком кадров, что сокращает расходы и упрощает систему.

4. Смежные области

Машинное зрение относится к инженерным автоматизированным системам визуализации в промышленности и на производстве, и в этом качестве машинное зрение, связано с самыми разными областями компьютерных наук: компьютерное зрение, оборудования для управления, базы данных, сетевые системы и машинное обучение.

Не стоит путать машинное и компьютерное зрения. Компьютерное зрение является более общей областью исследований, тогда как машинное зрение является инженерной дисциплиной связанной с производственными задачами.

Рассмотрим подробнее смежные науки и их взаимодействие с машинным зрением.

4.1. Компьютерное зрение

Компьютерное зрение представляет собой научную дисциплину, изучающую теорию и базовые алгоритмы анализа изображений и сцен.

Машинное зрениеследует рассматривать как гораздо более комплексную и технологическую область научных и инженерных знаний, охватывающую все проблемы разработки практических систем: выбор схем освещения исследуемой сцены, выбор характеристик датчиков, их количества и геометрии расположения, вопросы калибровки и ориентирования, выбор или разработка оборудования для оцифровки и процессорной обработки, разработка собственно алгоритмов и их компьютерная реализация – то есть весь круг сопутствующих задач.

Кроме того, фигурирует такое понятие как зрение роботов. Это более узкая область технологий машинного зрения, а именно часть, которая обеспечивает функционирование систем машинного зрения в условиях жестких временных ограничений. Например, оборудуя роботов нового поколения мобильными камерами и алгоритмами стереовидения, многие компании работают над созданием интеллектуальных роботов, способных не только свободно ориентироваться в квартире и узнавать своих хозяев, но и выполнять определенные задачи по дистанционно подаваемым командам.

4.2. Обработка и анализ изображений

Обработка изображений - любая форма обработки информации, для которой входные данные представлены изображением, например, фотографиями или видеокадрами. Обработка изображений может осуществляться как для получения изображения на выходе, так и для получения другой информации (например, распознание текста, подсчёт числа и типа клеток в поле микроскопа и т. д.). Кроме статичных двухмерных изображений, обрабатывать требуется также изображения, изменяющиеся со временем, например видео.

В последнее время традиционный термин «обработка изображений » чаще употребляется не как обозначение научной дисциплины, а как указатель на предметную область. Наметилась также тенденция использования этого термина для обозначения обработки нижнего уровня, когда результатом обработки изображения снова является изображение. В то же время термин «понимание изображений » употребляется для обработки верхнего уровня.

Цифровая фотограмметрия , бурно развивающаяся в последние годы дисциплина, пришла на смену аналитической фотограмметрии. В то время как классическая аналитическая фотограмметрия изучала в основном метрические соотношения между точками снимков и реальной сцены, современная цифровая фотограмметрия ставит самые сложные задачи анализа и 3D"описания сцены по видеоданным оптических сенсоров. Цифровая фотограмметрия концентрируется прежде всего не на вопросах «понимания» сцены или обнаружения объектов, а на вопросах высокоточного измерения различных ее элементов и реконструкции форм трехмерных поверхностей с использованием стерео и многокамерной съемки, а также специального структурированного подсвета.

4.3. Машинное обучение

Машинное обучение - обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Целью машинного обучения является частичная или полная автоматизация решения сложных профессиональных задач в самых разных областях человеческой деятельности. Машинное обучение имеет широкий спектр приложений, среди которых есть приложения распознавания изображений - область, которой занимается машинное зрение.

5. Наиболее интересные примеры систем машинного зрения

5.1. Видеонаблюдение

Автоматические и автоматизированные системы видеонаблюдения являются одной из ключевых составляющих современных комплексных систем безопасности. Задача видеонаблюдения подразумевает визуальный контроль заданной области пространства при помощи одной или нескольких видеокамер, позволяющий сохранять и просматривать цифровые видеоданные, а также постоянно оценивать состояние контролируемой территории, выделяя так называемые охранные события.

Охранное видеонаблюдение сегодня имеет два самых важных направления развития - полный переход на цифровые системы видеонаблюдения и развитие функций видеоаналитики. Цифровое (IP) видеонаблюдение предполагает отказ от аналоговых камер и средств передачи данных. Видеоаналитика представляет развитие функций систем видеонаблюдения, позволяя сократить объем регистрируемых данных.

Современная система видеонаблюдения включает в себя значительное количество различных технологий компьютерного зрения. Технология интеллектуального видеонаблюдения должна включать следующие основные элементы и программно-алгоритмические модули:

Визуальные датчики различного типа для дистанционного видеонаблюдения

Средства распределенного сбора информации, сжатия, обработки и передачи цифровой видеоинформации по локальным и глобальным сетям в реальном времени

Автоматическое выделение объектов интереса (люди, транспортные средства, другие объекты)

· автоматическое слежение за движущимися объектами в зоне наблюдения

· биометрическое распознавание персонала, биометрический контроль доступа в критические зоны объекта наблюдения

Автоматическую идентификацию транспортных средств, грузов и оборудования на основе распознавания идентификационных меток (регистрационных номеров, штриховых кодов, других технологических маркировок)

Методы оценки сценариев поведения наблюдаемых объектов и групп объектов

Формирование «тревожных» сообщений оператору в случае реализации неблагоприятных или нестандартных сценариев развития событий в зоне видеонаблюдения

· программно-аппаратные средства для реализации методов и алгоритмов сбора и обработки видеоинформации.

Рассмотрим ряд примеров создания систем видеонаблюдения и их элементов.

5.1.1. Система обнаружения и сопровождения движущихся объектов по признаку их движения

Технология детектирования движения в поле зрения камеры, или motion detection, стала одной из первых коммерческих технологий на потребительском рынке Web-камер [Морзеев, 2002] . Принцип работы технологии очень простой, поскольку предполагается, что камера неподвижна, а следовательно, неподвижен и фон. Движутся только объекты. Хотя существуют и такие технологии, которые позволяют детектировать движущиеся объекты на движущемся фоне.

Разработанная в ИИТ (Институт информационных технологий) система предназначена для автоматического выделения и сопровождения малоразмерных объектов по признаку их движения на изображениях, получаемых с подвижной видеокамеры.

Система, реализованная на базе персонального компьютера, осуществляет ввод с видеокамеры, визуализацию и обработку цифровых изображений движущихся сцен в реальном времени. Система производит оценку и компенсацию общего сдвига изображения сцены, происходящего за счет собственного относительного движения приемника изображения, а также выделение движущихся малоразмерных объектов по признаку их движения и одновременное сопровождение движения нескольких обнаруженных объектов. На рис.6 показаны: слева – кадр видеопоследовательности с выделенными движущимися объектами; справа – стадии выделения движущихся объектов.

Рис.6. Выделение движущихся объектов сцены наблюдения

У систем обнаружения и сопровождения движущихся объектов могут быть различные функции, такие как:

Обнаружение новых объектов сцены наблюдения;

Обнаружение пропавших объектов сцены наблюдения;

Регистрация новой сцены наблюдения;

Контроль отсутствия сдвигов камеры относительно сцены наблюдения.

5.1.2. Система считывания регистрационных номеров автомобилей

Как уже говорилось, одной из функций систем видеонаблюдения является считывание идентификационных меток объектов, прежде всего – номеров транспортных средств, пересекающих зону наблюдения.

Одним из типовых приложений такого рода является разработанная в ИИТ система выделения и распознавания номерных знаков автомашин в потоке на автомагистрали. Система считывания автомобильных номеров реализована на базе системы видеонаблюдения «Интеллект» фирмы ITV и внедрена на ряде зарубежных автомобильных трасс [Визильтер и др., 2007] .

Функции системы:

Регистрация появления автомобиля (подсчет автомобилей);

Выделение номерного знака;

Распознавание символов номерного знака;

Сохранение распознанного номера в базе данных.

5.2 Биометрия

В последние годы во всем мире наблюдается все возрастающий интерес к методам распознавания и идентификации личности. Основные пути и способы решения этих задач лежат в области разработки биометрических систем. В биометрических системах для распознавания человека используется совокупность биометрических характеристик, основанных на биологических особенностях человеческого тела. В качестве таких биометрических характеристик могут выступать голос, почерк, отпечатки пальцев, геометрия кисти руки, рисунок сетчатки или радужной оболочки глаза, лицо и ДНК.

Биометрическая защита более эффективна в сравнении с такими методами, как использование паролей, PIN-кодов, смарт-карт поскольку биометрия позволяет идентифицировать именно конкретного человека, а не устройство. Традиционные методы защиты не исключают возможности потери или кражи информации, вследствие чего она становится доступной незаконным пользователям. Уникальный биометрический идентификатор, каковым является, например, отпечаток пальца или изображение лица, служит ключом, который невозможно потерять.

Биометрическая система безопасности позволяет отказаться от парольной защиты либо служит для ее усиления. Одной из основных причин, которые существенно повысили значимость автоматической обработки и анализа биометрической информации, явилось повышение требований к функциональным возможностям автоматических систем безопасности, расположенных в общественных местах (вокзалы, супермаркеты и т. п.)

Рассмотрим несколько примеров биометрических приложений, встречающихся на практике.

5.2.1. Система обнаружения и распознавания лиц

В ИИТ разработана технология обнаружения и распознавания лиц по двумерным изображениям, включающая три основных модуля:

Детектирование (обнаружение) лиц;

Индексация (кодирование и последующий быстрый поиск лиц в базе);

Идентификация лиц.

Модули применяются последовательно. Выделенные на текущем кадре изображения лиц поступают в систему индексации, которая в ответ указывает заданное количество «кандидатов» из хранящейся базы изображений лиц, наиболее похожих на текущее изображение. После этого процедура идентификации обрабатывает изображения лиц найденных кандидатов с целью их точного распознавания. Такой подход позволяет осуществлять полнофункциональную работу с «живым» видеопотоком с целью выделения и распознавания лиц по значительным объемам банков изображений в режиме, близком к режиму реального времени.

На рисунке 7 показаны составляющие описанной выше технологии обнаружения и распознавания лиц.

Рис.7. Система обнаружения и распознавания лиц

Показаны: текущее видеоизображение (слева вверху), результат выделения лица (справа вверху); результат поиска в индексированной базе изображений лиц (второй ряд изображений – найденные «кандидаты», среди которых могут быть и ложные); результат окончательной идентификации лица (третий ряд изображений – показаны только «кандидаты», успешно прошедшие идентификацию).

5.2.2. Система распознавания жестов руки человека

Распознавание жестов представляет собой обширную область приложений компьютерного зрения. Под «жестами» в широком смысле понимаются любые движения человеческого тела. В узком смысле обычно подразумеваются некоторые характерные движения рук человека, имеющие в определенной предметной области какие-либо определенные семантические значения. Распознавание жестов может использоваться для построения различного рода человеко-машинных интерфейсов, управления различными техническими средствами и системами виртуальной реальности.

В качестве простого примера можно рассмотреть систему распознавания жестов руки человека по изображениям от черно-белой видеокамеры низкого разрешения (рис.8). Система не требует предварительного обучения и устойчиво различает до 10 различных жестов

Рис.8. Простой пример системы распознавания жестов

5.3 Медицинские приложения

Особое место в области разработки систем компьютерного зрения занимают задачи медицинской диагностики. Основные задачи, которые должны решать здесь данные технологии, следующие: задача измерения объектов на рентгенограммах, компьютерных томограммах и современных цифровых ультразвуковых приборах, задача улучшения визуализации, задача восстановления трехмерных форм объектов. Наиболее современной и бурно развивающейся в области разработки медицинских диагностических приложений можно считать технологию, связанную с определением степени алкогольного и наркотического опьянения на основе анализа реакции зрачка пациента.

5.3.1. Системы для компьютерного анализа томографических изображений

При создании систем анализа томографических изображений общего назначения основной акцент делался на разработку процедур автоматической и полуавтоматической сегментации изображений. Реализованная схема алгоритма сегментации включает:

Первичную гистограммную сегментацию методом статистического выделения мод;

Формирование связных областей с заданными характеристиками методом слияния/разбиения.

Специально разработанный для данного класса задач метод статистического выделения мод позволяет оценивать количество и степень выраженности мод гистограммы (рис.9), опираясь на соответствующий график статистической производной.

Рис.9. Пример автоматического разделения мод на гистограмме

Метод слияния/разбиения связных областей использует полученную на первом этапе разметку пикселей изображения в качестве стартового приближения, после чего происходит процесс итеративной релаксации с целью минимизации заданной энергетической функции. Алгоритм сегментации может быть использован как в автоматическом, так и в полуавтоматическом режиме. В этом случае врач-оператор может инициализировать процесс сегментации интересующих его объектов путем указания интересующих его точек.

6. Будущее машинного зрения.

6.1. Достоинства и недостатки систем машинного зрения

Главным недостатком систем машинного зрения, заметно ограничивающим рост их рынка, считается отсутствие единых стандартов на оборудование и программные интерфейсы. Пользователи систем постоянно жалуются на невозможность использовать системы разных производителей, а интеграционные продукты в этой области стоят недешево. Кроме того, по мере улучшения качества сканируемого изображения будет расти нужда в эффективном системном ПО для быстрого захвата видеоданных, их очистки, сжатия и хранения. Если со временем такие функции будут реализованы аппаратно, можно предсказать рост спроса на встраиваемые системы машинного зрения.

Многообещающей выглядит концепция мультиспектральных систем машинного зрения, обрабатывающих изображения не только в области видимого человеком спектра, но и получаемых с помощью радарных или лазерных установок, а также инфракрасных камер (есть примеры применения систем машинного зрения при распознавании тепловых полей людей в охранных системах и при анализе качества горячих булочек в кондитерской промышленности). Основная помеха на этом пути развития машинного зрения - дороговизна и сложность эксплуатации соответствующих датчиков.

Продолжительна и сложна процедура калибровки систем машинного зрения при настройке на определенную предметную область. Нередко она требует значительного времени и вычислительных ресурсов для обучения нейронной сети. Прикладное ПО также нередко отличается неудобным интерфейсом, а перенастройка системы на новую номенклатуру, да еще в реальном масштабе времени, на чем нередко настаивает пользователь, чаще всего невозможна. Покупателям же уже нужны системы, способные анализировать продукцию на конвейере не поштучно, а разом - осматривая все, что находится в данный момент времени на ленте, и мгновенно оценивая состояние всех изделий.

Ощущается нехватка хороших математических алгоритмов, ориентированных на компьютеры с высокой производительностью и поддерживающих параллельную обработку. Остается пока нерешенной проблема распознавания схожих, но по-разному освещенных объектов, и вряд ли с ней удастся справиться в обозримом будущем.

Негативно сказываются на рынке завышенные ожидания потребителей, не очень высокая прибыльность уже существующих систем, небольшое число хороших продуктов, а также возможность решать производственные задачи другим путем - без систем машинного зрения, с помощью дешевого персонала.

Но все эти проблемы временные. Ведущие поставщики уже договариваются о единых стандартах, для чего планируется создать общедоступный репозиторий знаний и типовых шаблонов продуктов, определить программные интерфейсы, а также выработать соглашение по языкам описания и представления данных систем машинного зрения [Бобровский, 2004].

Интерес к системам машинного зрения во многом поддерживается успехами машин в тех областях, где они намного превосходят человека по своим возможностям. Так, компьютер способен выявлять в изображении тысячи градаций серого и различать миллионы цветов, очень быстро решать типовые и хорошо формализуемые задачи распознавания и определять мелкие детали изображений. А растущая вычислительная мощь дешевых процессоров стимулирует выпуск общедоступных бытовых и промышленных "зрячих" роботов, управляемых обычным ПК.

Производители электронных систем безопасности рассчитывают научить системы машинного зрения автоматической классификации объектов. Хорошая система будет выявлять в видеоизображении все виды автомобильной техники и определять их марки, отыскивать в толпе конкретных людей, отслеживать траектории перемещения отдельных лиц и даже движения частей их тел, предсказывая возможное поведение, и т. д.

Мэтт Аллен, руководитель направления из компании Microscan, так описывает достоинства систем машинного зрения: "Сегодняшние технологии оперативных поставок и производства по заказу превратили информацию в один из самых ценных активов компании. Системы машинного зрения являются основой, позволяющей осуществлять автоматизацию многих производственных процессов. В качестве средств сбора данных системы машинного зрения используются в таких областях, как высокоскоростная сортировка, контроль качества продукции и слежение за ходом работ".

6.2 Будущее машинного зрения

Машинное зрение имеет все шансы превзойти человеческое в ближайшие десять лет. Уже сейчас роботы видят сквозь стены и на километры вперед. Последний бастион - расшифровка видеоинформации - скоро падет. В строй встанут роботы-автомобили, роботы-поезда и роботы-самолеты. А еще - доктора, скальпель которых никогда не сорвется, а зоркий глаз вовремя заметит артерию.

Остается надеяться, что люди сумеют направить мощь машинного зрения в верное русло, а не станут в спешном порядке конструировать терминаторов [Талан, 2007] .

У систем машинного зрения достаточно хорошие перспективы. Идеальная система машинного зрения будет полностью построена на цифровых технологиях, станет использовать интеллектуальные камеры и недорогое оборудование, реализующее набор стандартизованных функций обработки и распознавания изображений. Ключевым в ее успехе будет, конечно, удобная интеллектуальная программная среда, способная гибко и быстро настраиваться на произвольную предметную область, допускающая динамическое расширение функциональных возможностей и легко стыкующаяся с технологической аппаратурой.

По мнению Хирохисы Хирукавы, исследователя из Национального института перспективных научных исследований и технологий, производство роботов в XXI веке может стать крупнейшей отраслью промышленности - подобно производству автомобилей в XX столетии. При этом уже к 2025-му, в крайнем случае к 2050 году стоит ожидать массового распространения роботов, служащих для выполнения домашних работ[Морзеев, 2002].

Боб Таплетт, руководитель проектного отдела компании Microscan, говорит следующее: "Полагаю, можно утверждать, что в будущем системы машинного зрения превратятся в системы сбора данных. Считыватели штрих-кодов уйдут в прошлое, и в значительной мере это будет обусловлено тем, что системы машинного зрения способны решать гораздо больший круг задач".

Заключение

Машинное зрение достаточно неоднозначная тематика. С одной стороны, в этой области получены впечатляющие результаты и решены многие поставленные задачи. Системы машинного зрения справляются с автоматизацией производства, видеонаблюдением, анализом медицинских снимков. С другой стороны, машинному зрению все еще далеко до человеческого. Многие высоты достигнуты, многие еще впереди. Поэтому существует два взгляда на развитие машинного зрения. Одни говорят, что машины достигнут небывалых высот и разовьют огромную мощь, опередят человека. Другие утверждают, что машины никогда не превзойдут человека и машинное зрение так и останется непригодным для решения некоторых проблем, где необходимо вмешательство человека.

Несовершенство машинного зрения обусловлено отчасти техническими причинами, однако идет бурное развитие информационных технологий и находится все больше решений технических проблем.

Системы машинного зрения становятся все более актуальны, так как призваны решать наиболее актуальные проблемы человечества, такие как безопасность, медицинские вопросы, вопросы качества продукции.

Список литературы

· [Бобровский, 2004] Бобровский С. «Когда машины прозреют» - http://www.pcweek.ru/themes/detail.php?ID=66663&sphrase_id=12198

· [Визильтер и др., 2007] Визильтер Ю. В., Желтов С. Ю., Князь В. А., Ходарев А. Н., Моржин А. В. Обработка и анализ цифровых изображений с примерами на LabVIEW IMAQVision. – М.: ДМК Пресс, 2007.

· [Зуева, 2008] Зуева Е.Ю. «Компьютерное зрение в ИПМ им. В.М. Келдыша РАН – история развития» - http://www.keldysh.ru/papers/2009/art04/Zueva_09.htm

· [Катыс, 1990] Катыс Г.П. Обработка визуальной информации. – М.: Машиностроение, 1990г.

· [Компьютерное зрение ] Компьютерное (машинное) зрение (computer vision) http://es-prof.com/m_mvision.php

· [Лысенко, 2007] Лысенко О. Машинное зрение от SICK/IVP // Компоненты и технологии. 2007. № 1

· [Морзеев, 2002] Морзеев Ю. "Зачем компьютеру зрение" - http://www.compress.ru/article.aspx?id=10656&iid=434

· [Талан, 2007] Талан А. Перспективы машинного зрения, 2007 - http://www.mirf.ru/Articles/art2170.htm

· Davies E. R. Machine Vision: Theory, Algorithms, Practicalities. Academic Press, 2004.

· Computer Vision - http://www.graphicon.ru/oldgr/ru/library/cv/cv_intro.html

· [ Wikipedia , 2010] Машинное зрение - http://en.wikipedia.org/wiki/Machine_vision

Обзор рынка технологий компьютерного зрения

овременный мир компьютерных систем сложно представить без технологий машинного, или компьютерного, зрения. В статье «Зачем компьютеру зрение?» (КомпьютерПресс № 5’2002) была рассмотрена история становления этой технологии и дан обзор ряда ее приложений. Безусловно, в статье описана лишь малая часть приложений из широкого спектра применяемых систем машинного зрения, и в следующих номерах мы еще вернемся к рассмотрению этой весьма интересной и стремительно развивающейся области знаний. Да, именно стремительно развивающейся. Ведь этой технологии всего около 50 лет, что по меркам многих точных наук не выходит за рамки периода становления. Наращивая свой научный и практический потенциал параллельно с совершенствованием вычислительной и регистрирующей техники, компьютерное зрение постепенно завоевывает все новые технологические рубежи. Высокопроизводительные вычислительные машины последнего поколения (к ним относятся и современные персональные компьютеры) уже позволяют решать многие задачи обработки потоков цифровой видеоинформации и принятия решения в режиме реального времени. И сегодня, порой незаметно для большинства из нас, компьютерное зрение достаточно прочно закрепляется во многих областях жизнедеятельности человека, помогая ему, а подчас заменяя его, избавляя от монотонного, рутинного или, нередко, связанного с риском для жизни труда.

Ни для кого не секрет, что компьютерное зрение как технология получило наиболее широкое, полное и всестороннее развитие на Западе, особенно в США, в Южной Корее и в Японии. Связано это прежде всего с мощной финансовой поддержкой этого направления со стороны правительства и инвесторов, прогнозирующих за ним большое будущее. Причем правительство в основном поддерживает развитие технологии в общеобразовательных центрах, а инвесторы обеспечивают поддержку частным высокоперспективным компаниям. Наиболее яркими примерами таких хорошо финансируемых научных центров могут служить Лаборатория Искусственного Интеллекта Массачусетсского Технологического Института (MIT Artificial Intelligence Laboratory), UC Berkeley Computer Vision Group, Vision and Autonomous Systems Center Университета Корнеги-Меллона, Stanford Vision Laboratory и ряд других. Примерами поддерживаемых частных компаний могут служить такие компании, как Visionics, Eyematic и др. Всего на Интернет-сайте, объединяющем разработчиков в области машинного зрения, - Computer Vision Home Page (http://www.2.cs.cmu.edu/afs/cs/project/cil/ftp/html/txtvision.html) - зарегистрировано около 200 групп и научных лабораторий, работающих над данной проблематикой. Следует отметить, что этим не исчерпывается круг организаций, занимающихся компьютерным зрением, так как существует большое количество коммерческих фирм, специализирующихся в области машинного зрения и обработки изображений. Информацию о них можно найти на специализированных тематических Интернет-сайтах, посвященных отдельным направлениям данной технологии. Иными словами, разработчики различных технологий внутри самой технологии компьютерного зрения как бы объединяются в клубы по интересам. Например, интересующиеся достижениями в области распознавания жестов могут найти достаточно подробную информацию об исследованиях, исследовательских группах, коммерческих приложениях, патентах на соответствующем специализированном Интернет-сайте - Gesture Recognition Home Page (http://www.cybernet.com/~ccohen/gesture.html). Там же можно скачать некоторые демонстрационные приложения и ознакомиться с последними научными публикациями. Если же читатель предпочитает заняться технологиями, связанными с распознаванием лиц, то ему прямая дорога в виртуальный клуб на другом Интернет-сайте - Face Detection and Recognition Home Page (http://home.t-online.de/home/Robert.Frischholz/face.htm).

Следует отметить, что все перечисленное выше приводит к быстрому росту и совершенствованию технологий компьютерного зрения. В настоящее время зарубежные научно-исследовательские и коммерческие центры привлекают большое количество ученых и высококвалифицированных программистов, проводят распараллеленные исследования в различных областях машинного зрения, добиваясь достаточно весомых результатов.

Россия, как полноправный член мирового экономического сообщества, не осталась в стороне от этого процесса. Вот уже несколько лет на российском технологическом рынке также наблюдается тенденция повышения интереса к проблемам компьютерного зрения, причем как со стороны руководителей ряда IT-компаний и компаний, работающих на рынке безопасности, так и со стороны потребителей (пользователей) и студентов, желающих специализироваться в этой области. Реакцией на этот интерес стало появление лабораторий, групп и коммерческих структур, ставящих перед собой задачу разработки различного рода технологий и приложений для решения проблем машинного зрения. И если еще десятилетие назад мы были в роли догоняющих, то на сегодняшний день многие компании - лидеры в области передовых технологий стремятся на российский рынок с целью приобретения соответствующих технологий компьютерного зрения или размещения заказов на передовые исследования и разработки в этой области.

Этой теме и посвящена настоящая статья, целью которой является не только продемонстрировать наличие интереса к данной тематике со стороны российских и зарубежных товаропроизводителей, но и рассказать о ряде российских фирм, разрабатывающих программное обеспечение для различных систем обработки и анализа изображений.

Кто есть кто на российском рынке компьютерного зрения

сследование российского рынка разработчиков технологии машинного зрения показывает, что количество фирм, занимающихся компьютерным зрением, относительно невелико. Рассмотрим наиболее заметные из этих компаний и приведем краткое описание некоторых интересных технологий компьютерного зрения, которые поставляются ими на отечественный и мировой рынки.

Компания SPIRIT

К наиболее известным в мире фотограмметрическим системам относятся такие аппаратно-программные комплексы, как Leica и Intergraph, поставляемые вместе с мощными рабочими станциями. Это весьма дорогостоящие системы, и позволить их себе могут немногие компании. С развитием вычислительной техники все популярнее становятся менее дорогостоящие системы, позволяющие проводить обработку изображений на персональных компьютерах. Российские цифровые фотограмметрические системы «Талка» (http://www.talka-tdv.ru/), Photomod (фирма «Ракурс» (http://www.racurs.ru/)), Z-Space (ГосНИИАС), ЦФС ЦНИИГАиК (Роскартография) или «Фотоплан» (29-й институт Министерства обороны), не уступая, а порой превосходя в качестве обработки цифрового видеосигнала зарубежные аналоги, будучи при этом в десятки раз дешевле аналогичных зарубежных разработок. Рассмотрение характеристик и возможностей таких систем - предмет отдельной статьи.

Еще одно направление в области машинного зрения - построение систем распознавания символов. В данной статье мы лишь косвенно упомянули об этой области, в которой технологии компьютерного зрения можно считать сложившимися. В частности, мы рассмотрели лишь узкоспециализированные задачи, решаемые компаниями в рамках коммерческих проектов. Если же вести речь о сложившихся коммерческих продуктах и технологиях систем распознавания символов, то нельзя не упомянуть о крупнейших российских и мировых поставщиках данной технологии - компании ABBYY с серией программ FineReader и компании Cognitive Technologies с серией программ CuneiForm. Обзору технологий, поставляемых данными компаниями, посвящена не одна статья на страницах КомпьютерПресс. Информацию о достижениях этих компаний можно найти и в этом номере журнала. Поэтому, отдавая должное этим компаниям и их технологиям, мы лишь вскользь упоминаем о них в рамках данной статьи.

Подводя итог, можно с уверенностью заявить, что российские технологии компьютерного зрения не уступают, а во многом и превосходят зарубежные аналоги. Зачастую компаниям, развивающим эти технологии, не хватает всемирно известного имени. Поэтому и инвестиции в них, как правило, делают неохотно. Однако не вызывает сомнений, что высокий уровень технологий и высокая квалификация российских специалистов уже в недалеком будущем приведут к доминированию на мировом рынке именно российских технологий компьютерного зрения.

КомпьютерПресс 7"2002

Технология распознавание лиц на основе биометрии лица является «вершиной» видеоаналитики: она ставит наиболее сложные задачи и задействует широкий спектр математических инструментов. С одной стороны, биометрическая система реализует функцию распознавания, устанавливая вероятностную связь изображения с идентификаторами людей, зарегистрированных в базе данных. С другой стороны, биометрическая система требует безукоризненной работы функций обнаружения и слежения.

Примеры успешно решаемых задач с помощью функций видеоаналитики:

Распознавание с целью подсчёта людей и транспорта
Распознавание номеров (на транспорте, на денежных купюрах, документах и т. п.)
Детектирование событий (перемещения, движения, пересечение допустимых линий и границ, нахождение в зонах, перебрасывание предметов через ограждение и т. п.)
Обнаружение опасных ситуаций (скопления людей, оставленные предметы, возгорания и задымления и т. п.)
Распознавание человеческих лиц и поиск их в базах данных

Применение видеоаналитики

Использование видеоаналитики дает возможность в автоматическом режиме, без участия человека, в процессе видеонаблюдения решать задачи, которые обычно под силу только человеческому зрению. Данная технология используется как для обеспечения безопасности, так и для повышения эффективности бизнеса в торговле, финансовом секторе и на транспорте.

Функции и области применения

Распознавание объектов - Безопасность, подсчет объектов в торговле и на транспорте
Детектирование событий - Безопасность, контроль работы персонала
Анализ активности объектов - Повышение качества обслуживания

Коммерческое использование видеоаналитики

Видеоаналитика часто применяется для получения объективной оценки эффективности бизнеса, так как способна производить непрерывный и автоматизированный сбор данных, не зависящий от человеческого фактора, и формировать отчеты по запросу пользователя в любой момент времени. Технология видеоаналитики используется в розничной торговле, банках, торговых центрах, а также производителями CPG-товаров. Технологии видеоаналитики широко используются для решения комплексных задач по обеспечению безопасности и предоставлению статистических и маркетинговых данных. Видеоаналитика производит анализ следующих параметров:

Поток людей и транспорта
Количество объектов в очереди и время задержки людей в очереди
Активность людей в выбранной зоне

Подсчёт людей и транспорта

Для обеспечения безопасности на производстве успешно применяются не только классические системы видеонаблюдения , но и такие технологии, как системы распознавания лиц и автомобильных номеров. Первая система распознавания лиц была установлена в 1998 году в лондонском районе Ньюэм. В 2000-х годах системы распознавания лиц позволяли идентифицировать лицо человека с точностью не менее 80%. Сегодня же этот показатель превышает 95%. Таким образом, машины научились распознавать изображения лучше людей!

Системы распознавания автомобильных номеров могут применяться на КПП производственного предприятия. Камеры, установленные при въезде на парковку, не только распознают номера автомобилей, но и анализируют, сохраняют в архиве и передают на пульт диспетчера данные о транспортных средствах, а также сообщают сведения об обстановке на контролируемой территории.

До недавних пор алгоритмы видеоаналитики применялись в основном для детектирования событий, подсчета посетителей, распознавания опасных предметов и идентификации лиц с целью обеспечения безопасности на различных объектах. Современные разработки в области видеоаналитики способны решать большой спектр коммерческих задач. Алгоритмы могут осуществлять сбор и анализ важной маркетинговой информации в режиме реального времени (подсчет людей и транспорта, мониторинг активности людей в отдельных зонах и т.д.). По мере развития технологий анализа информация, поступающая от систем видеонаблюдения, становится все более ценной и начинает активно использоваться бизнесом .

Функции системы видеоаналитики в подсчете

Подсчет людей и транспорта, осуществляемый в режиме реального времени
Сбор и анализ количественных данных, собранных в результате работы алгоритмов по подсчету

Подсчет людей в коммерческих целях производится для расчета нескольких важных показателей эффективности бизнеса:

CPM (Cost Per Mile или Cost Per Thousand - объём продаж на тысячу посетителей)
SSF (Sales Per Square Foot или Sales Per Unit Area - число продаж на единицу площади)

Возможности для бизнеса

Прогнозирование продаж на основе данных о реальном потоке посетителей/покупателей
Оценка эффективности бизнеса, расчет коэффициента конверсии en:Conversion rate на основании статистических данных о посещаемости объекта
Привязка мотивационной системы сотрудников к коэффициенту конверсии en:Conversion rate
Анализ качества использования мощностей: торговой площади, работы персонала
Оценка эффективности рекламных компаний и вложений в PR и маркетинг на основании данных о посещаемости объекта
Снижение издержек на персонал, корректировка количества персонала в смене и графика работы объекта в соответствии интенсивностью потока посетителей

Автоматический анализ видеоизображения ограниченной зоны

Функции системы видеоаналитики в анализе периметра

Подсчет количества объектов в ограниченном периметре
Идентификация объектов, находящихся в периметре, по определенным признакам (определение персонала по униформе и т. п.)
Расчет времени задержки объектов в заданном периметре
Мониторинг активности объектов в заданном периметре (детектирование движения, фактов отсутствия в периметреи т. п.)

Возможности для бизнеса

Расчёт оптимального количества обслуживающего персонала на основании данных о поведении посетителей
Фиксация активности персонала для последующего поиска в видеоархиве при разборе конфликтных ситуаций
Оценка эффективности рекламных кампаний и их корректировка
Предоставление вендорам информации об эффективности промоакций
Профилактика хищений денежных средств и товаров (контроль кассовых зон, складских помещений, зон приемки товаров и т. п.)
Анализ активности посетителей/покупателей магазина по выбранным зонам
Расчет коэффициента конверсии по выбранным отделам.

Научные исследования в области видеоаналитики

Анализ видеоданных является подмножеством компьютерного зрения и искусственного интеллекта . Значительные научные исследования в этих областях ведутся в Университете Калгари, Университете Ватерлоо, Университете Кингстона, Технологическом институте Джорджии, Университете Карнеги-Меллона, Университете Западной Вирджинии и технологическом институте Британской Колумбии.

Системы видеонаблюдения

Системы видеонаблюдения Каталог продуктов и проектов
Системы видеонаблюдения: Конструктивные особенности камер
10 способов повысить доходы с помощью скрытого видеонаблюдения
IP-видеонаблюдение розничными организациями для безопасности и предотвращения хищений

Развитие видеоаналитики в России

Научные исследования в области компьютерного зрения и искусственного интеллекта ведутся в России с 2000-х годов на базе исследовательских центров и нескольких крупных университетов.

В России до недавних пор алгоритмы видеоаналитики применялись в основном для детектирования событий, подсчёта посетителей, распознавания опасных предметов и идентификации лиц с целью обеспечения безопасности на различных объектах: охраняемых территориях, транспорте (аэропорты, железнодорожный транспорт, распознавание автомобильных номеров для ГИБДД), а также на государственных объектах.

Современные разработки в области видеоаналитики способны решать большой спектр коммерческих задач. Алгоритмы могут осуществлять сбор и анализ важной маркетинговой информации в режиме реального времени (подсчет людей и транспорта, анализ очередей, мониторинг активности людей в отдельных зонах). Высокая точность и достоверность данных, полученных в результате работы систем видеоаналитики, подтверждается широким использованием алгоритмов в бизнесе.

Кузнецов Виталий , Управляющий партнёр Office Anatomy : На рынке машинного зрения или видеоаналитики слишком много маркетинга от разработчиков, мало опыта у интеграторов и завышенные ожидания от новинки со стороны заказчика. В результате, разработчик нахваливает новоиспеченный, но еще далекий до идеала продукт, интегратор продает его клиенту, а заказчик, подогретый картинками из голливудских блокбастеров с эффектными сценами распознавания лиц и обнаружения преступников, получает в остатке одно разочарование. Все слишком заинтересованы получить революционный продукт, который бесповоротно изменит рынок систем безопасности.

Что такое компьютерное зрение?

Компьютерное зрение - это технология, с помощью которой машины могут находить, отслеживать, классифицировать и идентифицировать объекты, извлекая данные из изображений и анализируя полученную информацию .

Компьютерное зрение применяется для распознавания объектов, видеоаналитики, описания содержания изображений и видео, распознавания жестов и рукописного ввода, а также для интеллектуальной обработки изображений.

Мировой рынок компьютерного зрения

Чем машинное зрение отличается от компьютерного?

Машинное зрение использует анализ изображений для того, чтобы решать промышленные задачи. Машинное и компьютерное зрение - области связанные

Новичкам может показаться, что это разные названия одной и той же технологии, но это не так, так как компьютерное зрение - это общее название набора технологий, а машинное зрение - сфера применения.

Задачи машинного зрения

Машинное зрение позволяет отказаться от ручного труда, ведь контролировать сборку изделий, считать и измерять объекты, читать текст, цифры и идентифицировать объекты может робот .

Машинное зрение используется в различных областях. В медицине - для того, чтобы более точно ставить диагноз, в промышленности - для снижения себестоимости товаров за счёт автоматизации. В автомобильной индустрии - для навигации беспилотников , а в ритейле - для считывания штрихкодов или подсчёта посетителей.

Системы машинного зрения

Так как машинное зрение используется для решения различных промышленных задач, то в зависимости от того, какую именно задачу нужно решить, создаются специальные системы машинного зрения.

Типовые системы машинного зрения состоят из камер, ПО, процессоров, источников света, приложений программного обеспечения и различных датчиков.

Например, датчик определил, что деталь на конвейере нужно проверить, запустил камеру и сделал снимок этой детали. После этого изображение отправляется в компьютер, где программное обеспечение для машинного зрения обрабатывает полученную картинку.

После того, как изображение обработано, в зависимости от состояния детали программа пропускает или не пропускает деталь по конвейеру дальше. То есть, если деталь повреждена - программное обеспечение подаст сигнал устройству для её отклонения, остановит производство или предупредит человека о том, что есть деталь с дефектом.

Системы видеонаблюдения - каталог систем и проектов
ИБ - Биометрическая идентификация - каталог систем и проектов