Современные бизнес-помощники: компьютерное зрение и машинное обучение

01.10.2019


Катерина Уфнаровская, директор по развитию компании «Системы компьютерного зрения» (входит в ГК ЛАНИТ)

Сфера применения компьютерного зрения и машинного обучения расширяется год за годом. Уже стало привычным, что эти технологии и алгоритмы помогают решать широкий круг задач: автоматизируют процессы на производстве, применяются в автоиндустрии, медицине и здравоохранении и т.п. Востребованность и рост интереса к таким решениям обусловлены их эффективностью и высокой точностью получаемых результатов по распознаванию, детекции и анализу данных. По подсчетам аналитической компании Market Research Future, в 2017 году мировой рынок компьютерного зрения превысил 9,2 млрд долл., а к 2023 году ожидается превышение отметки в 48,3 млрд долл., что отражает устойчивый рост. По данным исследования, проведенного аналитическим центром TAdviser, на конец 2018 года объем российского рынка компьютерного зрения составил 8 млрд руб., к концу 2023 года прогнозируется рост свыше 38 млрд руб. с CAGR 40%.

Остается все меньше сфер бизнеса, где компьютерное зрение и машинное обучение не смогли бы прийти на помощь человеку, а где-то и полностью заменить ручной труд или автоматизировать и ускорить рутинные операции. В последнее время наметились новые тенденции и появляются наработки в банковском, консалтинговом, бухгалтерском бизнесе, где задачи для данных технологий не так очевидны.

Безопасность

Безусловно, пока самое активное применение компьютерного зрения в бизнес-среде связано с безопасностью. В отличие от человека компьютер не теряет бдительности, не устает, не отвлекается от заданной задачи и соответственно такое понятие как «человеческий фактор» не может негативно повлиять на его работу. Системы безопасности и видеонаблюдения с использованием алгоритмов компьютерного зрения позволяют осуществлять мониторинг обстановки внутри и вне помещений, проводить детекцию различных объектов, вести поиск и сравнение лиц людей. В 2018 году самым дорогим стартапом был признан гонконгский разработчик системы распознавания лиц SenseTim. Он привлек 600 млн долларов от китайских ритейлеров Alibaba и Suning и крупнейшей в Азии инвесткомпании Temasek Holdings, для разработки платформы Viper. Сервис призван анализировать данные видеопотока, поступающего в режиме реального времени с тысяч камер видеонаблюдения — от дорожных камер до банкоматов. Он должен обрабатывать 100000 видеотрансляций единовременно. Однако несмотря на востребованность и техническое превосходство компьютерного зрения над зрительным мониторингом со стороны человека, сдерживающим фактором развития технологий в данном сегменте являются законодательные ограничения, связанные с защитой персональных данных людей.

Банки

С темой безопасности пересекается задача распознавания номинала и проверки подлинности банкнот. Еще недавно детекция в банкоматах, настроенных на прием купюр, осуществлялась с помощью точечных датчиков, сейчас широко внедряются более сложные системы, оснащенные встроенными камерами. В набирающих популярность банкоматах с функцией кэш-ресайклинга (замкнутого оборота наличности внутри банкомата) могут использоваться датчики, камеры и высокотехнологичное ПО, позволяющее обеспечить высокую степень защиты от приема и выдачи поддельных банкнот. Банкиры заявляют о беспрецедентной надежности ресайклинговых банкоматов и планируют расширять их сеть. По понятным причинам разработки в данном направлении строго охраняются производителями и заказчиками.

Патентные бюро

Компьютерное зрение приходит на помощь патентным бюро. Уже есть наработки в области распознавания торговых знаков и логотипов. При регистрации торговой марки или торгового знака система с применением машинного обучения сравнивает регистрируемые логотипы с базой уже существующих, предотвращая повторы и значительно облегчая работу патентных бюро.

Консалтинг

Основной головной болью консалтинговых компаний является необходимость обработки большого количества входящих документов, которые поступают в самых различных форматах: от популярных офисных до скан-копий и заполненных вручную бумаг. Компании, специализирующиеся на предоставлении бухгалтерских услуг, принимают от своих клиентов большой объем счетов и иных документов, подтверждающих бухгалтерские операции. Все они также имеют различные, порой нестандартные шаблоны. Работники вынуждены вручную просматривать массивы бумаг для выявления и последующей обработки необходимых данных и цифр. Такая монотонная работа с объемным потоком информации отнимает много времени и приводит к неминуемым ошибкам. Поэтому крупные консалтинговые компании озаботились поиском решения с применением компьютерного зрения и машинного обучения. Первоначально программное обеспечение с помощью компьютерного зрения решает задачу сортировки документов. Далее вступает в работу машинное обучение, так как именно оно помогает выделить, найти в документе необходимую цифру или код в большом потоке бумаг, быстрее отсортировать по статьям/видам затрат. Таким образом, сотруднику только останется проверить правильность.

Один из крупнейших операторов связи России заменил сотню бухгалтеров роботом, отвечающим за проверку корректности кассовых документов и операций. Благодаря роботу удалось отказаться от визуальной проверки более чем 90% кассовых документов, снизить трудоемкость процесса в 4 раза и повысить скорость выполнения операций на 30%. Также в 2 раза увеличился объем выполняемых действий без найма дополнительных сотрудников. Предполагается, что в первый год работы робота расходы сократятся на 36 млн руб. и проект окупится за 7 месяцев. Сейчас работа интеллектуальной системы основана на технологии RPA, но в компании сообщают, что возможно ее дальнейшее обогащение элементами машинного обучения.

Как правило, компании-заказчики не афишируют свои изыскания в области поиска инновационных бизнес-решений, но с учетом стремительного роста интереса к новым методам обработки информации в ближайшем будущем мы увидим яркие примеры решения проблемы документооборота с помощью компьютерного зрения и машинного обучения. Например, сейчас с такой потребностью в компанию «Системы компьютерного зрения» обратилась крупная голландская консалтинговая компания. Разработка решения ведется на основе алгоритма Universal Sentence Encoder в условиях подписанного NDA.

Обучение/образование

Набирающей популярность областью применения алгоритмов машинного обучения является и электронное обучение. Корпоративное обучение сотрудников – важная составляющая успеха любой компании. Вопрос подготовки квалифицированных кадров стал одним из важнейших для современного бизнеса из-за постоянно меняющихся требований к уровню специалистов. Электронное обучение стало заменять классическое — «в аудитории». Но эффективность электронных курсов, основанных на классической модели, не может сравниться с индивидуальным обучением. Решить эту проблему и призваны алгоритмы машинного обучения, которые дали возможность реализовать для электронных курсов модель адаптивного обучения. Она основана на индивидуальном подходе – оценивается начальный уровень подготовки и курс строится таким образом, чтобы дать обучающемуся только новую и актуальную информацию. Параллельно с этим выявляется неосознанная некомпетентность сотрудника (ошибочные знания, которые сам сотрудник считает верными). Такой подход обеспечивает сокращение времени обучения до двух раз и показывает отличные результаты усвоения материала. Наиболее развитые концепции адаптивного обучения используют биологическую модель для проектирования и прохождения курсов – индивидуальные траектории создаются не в соответствии с заранее определенными блок-схемами, а постоянно подстраиваются под персональные особенности обучающегося (его настойчивость, темп, свойства памяти).

Также идет активная работа по применению машинного обучения для решения отдельных задач электронных образовательных платформ: проверка корректности формулировок тестовых вопросов, генерация разного типа вопросов на основании учебных материалов, распознавание ответов человека, данных в форме эссе. То есть решается задача распознавания и разбора текста на естественном языке, где с помощью алгоритмов машинного обучения оценивается суть высказывания и правильность ответа. В этих задачах внедрение нейронных сетей проходит органично – вначале преподаватель решает задачи по оценке ответов и переформулировке вопросов, попутно обучая алгоритмы, а затем они, в свою очередь, берут на себя рутинные задачи. Многим знакомы OCR-программы, которые позволяют сфотографировать фразу и перевести ее с помощью доступного на любом смартфоне Google-переводчика. Однако данное ПО пока не дает возможность оценить суть (смысл) написанного с точки зрения семантики. Именно алгоритмы машинного обучения позволят платформам адаптивного обучения в самом ближайшем будущем оценивать ответы обучающихся, данные в свободной форме эссе, не только с точки зрения грамотности, но и смысловой нагрузки.

На производстве, в офисе, в работе с документами все чаще в качестве помощников человека выступают алгоритмы и приложения, решающие различные прикладные задачи. Еще многое предстоит сделать, но достигнутые за последние годы результаты говорят о том, что компьютерное зрение и машинное обучение приближаются к пику развития и востребованности. Стремительное развитие технологий, рост интереса к ним со стороны бизнеса вдохновляют нас, ученых и разработчиков, на дальнейшие исследования и создание новых инновационных продуктов.

Автор: Катерина Уфнаровская
Источник: ПЛАС, 01.10.2019

Другие статьи по теме

Как технологии AR Cloud меняют систему передачи и обработки информации Понятие дополненная реальность (AR, augmented reality) объединяет технологии проецирования различной цифровой информации поверх экрана электронных устройств. AR позволяет увидеть реальный физический мир, дополненный виртуальными объектами – полезными текстовыми сведениями, видео, графическими изображениями и т. п. AR может быть реализована с помощью приложений для смартфонов, планшетов, очков дополненной реальности, стационарных экранов и других устройств.

AR Cloud, по официальному определению международной организации AWE – это точная модель мира в масштабе 1:1, которая постоянно обновляется в реальном времени. Это миллиарды распознаваемых компьютером данных и облаков точек, соответствующих реальным координатам мира, так называемая «программная копия» мира, полученная, с помощью сканирования физических предметов вокруг нас, к которым добавляются элементы дополненной реальности. AR Cloud – новое слово в развитии направления AR, которое может изменить и усовершенствовать привычный нам мир. Совместно с экспертами компании «Системы компьютерного зрения» (входит в ГК ЛАНИТ) рассмотрим текущее положение дел, оценим потенциал и пути развития одной из самых перспективных технологий XXI века.
TAdviser, 18.10.2019