Mail.Ru Group запустила новый продукт в рамках платформы Mail Cloud Solutions — сервис аудиоаналитики Sounds, работающий на базе нейронных сетей. Сервис позволяет автоматизировать и упростить многие рядовые процессы и решать задачи в сферах безопасности, ритейла, медиа, телекоммуникаций и др., собщает ComNews.
Данная технология может использоваться во множестве сценариев: распознавание отдельных звуков в аудиопотоке (крики, выстрелы, шаги, звуки разбитого стекла, плач), очистка аудиозаписей от шумов, идентификация людей по голосам, повышение четкости голоса диктора, выявление неполадок в работе механизмов.
С помощью аудиоаналитики можно обрабатывать как архивные файлы, так и онлайн-потоки. В ряде ситуаций технология применяется как альтернатива видеонаблюдению: технология распознает звуки в полной темноте, а микрофоны стоят значительно дешевле камер и не требуют специальных условий для размещения и обслуживания.
Нейронные сети «компьютерного слуха» обучены на собственных датасетах Mail.Ru Group и работают на серверных мощностях компании. Специалисты компании сопровождают проект на всех стадиях реализации и дорабатывают его в соответствии с задачами заказчика.
Не так давно Mail.Ru Group вышла на рынок компьютерного зрения, запустив проект Vision. В компании, что решение востребовано, поэтому пошли дальше и дополнили зрение слухом. Новая технология позволит развить эффективность предложения в целом. Например, нестандартный шум или шорох на наблюдаемом объекте должен вызывать подозрение, если речь идет об охранных функциях.
Это перспективное направление, которое сейчас активно развивается. По прогнозам исследовательской компании Research and Markets, к 2023 г. объем рынка аудиоаналитики составит $18 млрд.
Наибольший интерес к сервису аудиоаналитики сейчас проявляют логистические компании и складские комплексы. Несколько клиентов сейчас находятся на стадии испытания технологии.
Практически все крупные компании, проводящие исследования в сфере искусственного интеллекта и особенно распознавания речи, так или иначе работают с этим направлением. Среди них Google, IBM, Microsoft, Amazon, Nuance и другие компании. «Сейчас точно можно говорить об устойчивом спросе на речевую аналитику: она сейчас используется в большинстве крупных контактных центров, интерес к ней проявляет сфера ритейла.
Данная технология может помочь людям с ограничениями по слуху, работникам шумных производств, вовремя предупреждая об опасности, призывая обратить или повысить внимание через носимые гаджеты — умные очки, браслеты, смартфоны и т.д. Что касается анализа звуковой обстановки, распознавания шумов, регистрации акустических событий, то сферы применения таких технологий — робототехника, интернет вещей, телемедицина, умный дом, умный город. Большие перспективы — в сегменте беспилотных автомобилей, где технология будет дополнять машинное зрение.