КЗ: есть проблемы
При разработке системы КЗ на основе машинного обучения сбор необходимого объема репрезентативных данных для обучающей выборки может оказаться самым дорогостоящим этапом. При этом заранее, до сбора размеченных данных и "обучения модели", нельзя сказать, какую именно алгоритмическую модель машинного обучения нужно применить, какой объем обучающей выборки достаточен для достижения требуемой точности классификации и будет ли классификатор устойчив к малому изменению в будущих реальных данных по сравнению с теми, на которых проводилось обучение. При решении этих проблем опыт инженера становится ключевым для успеха проекта.
Часто для достижения требуемых параметров точности работы системы требуются огромные обучающие выборки. Например, не самый большой набор для обучения и тестирования распознавания лиц — CelebFaces Attributes Dataset (CelebA) — содержит более 200 тыс. изображений 10 177 уникальных людей. Что же делать, если требуется сформировать обучающий набор изображений аварийных событий: течей, возгораний, задымлений и прочих нетипичных выбросов в конкретном цехе? Можно ли вообще набрать необходимое количество таких изображений для представительной обучающей выборки? Одна из самых актуальных задач КЗ на основе машинного обучения — это моделирование способности человека обучаться распознаванию на небольшом числе примеров.
Кроме того, для успешной работы системы КЗ с использованием метода машинного обучения требуется выполнять предобработку изображений (разрабатывать код программы по извлечению уникальных признаков). Для этого нужны опытные специалисты по классическому компьютерному зрению.
Основная проблема систем КЗ на основе машинного обучения (и в особенности на основе нейросетей) — это неустойчивость решений к "шумам" во входных данных. Возьмем в качестве примера автомобильный автопилот, считывающий дорожный знак. Если кто-то разместит на знаке наклейку, это не отвлечет внимания водителя-человека. А нейросеть ошибется, потому что знак теперь отличается от тех, на которых система обучалась. Реальная обстановка может создавать всевозможные «шумы», которые люди проигнорируют, а машинный алгоритм легко в них запутается.
Несмотря на общий восторженный новостной фон вокруг использования нейросетей, их применение на практике не всегда успешно. Так, российская компания «Малленом Системс» более 10 лет работает на рынке систем компьютерного зрения. При этом доля внедрения систем КЗ с использованием машинного обучения — лишь 10 %, отмечают в компании. Кроме того, обучение и использование достаточно больших и надежных моделей нейронных сетей требуют выполнения параллельных вычислений на специальном многопроцессорном оборудовании, например GPU (графических ускорителях).
Компьютерное зрение как наука пока еще не состоялось, считает А. С. Потапов: «Разрабатываемые в настоящее время системы компьютерного зрения предназначены для решения конкретных задач, обычно ориентированы только на один тип изображений и работают в ограниченных предметных областях. Построение системы компьютерного зрения общего назначения является неразрешимой на текущий момент задачей и может рассматриваться лишь как некая конечная цель исследований в данной области».