Старший исследователь из Microsoft Research Дик Рашид продемонстрировал новый алгоритм распознавания речи, основанный на глубоких нейронных сетях (Deep Neural Networks). Во время выступления Рашид показал, как программа на лету записывает все его слова, переводит их на китайский язык и произносит машинным голосом, напоминающим его собственный.
Как сообщают исследователи из Microsoft Research, использование глубоких нейросетей позволило увеличить точность распознавания речи на 10-20 процентов, а скорость распознавания — на 30 процентов по сравнению с лучшими из существующих алгоритмов.
Новая технология также не нуждается в периоде финальной подстройки под речь конкретного пользователя. Распознавание речи такого типа более полезно, чем «тренирующееся», так как может быть использовано для работы с голосами, отсутствующими в базе данных. Незаменимо, например, для колл-центров.
Разработка уже в ближайшем будущем начнет использоваться в Microsoft Audio Video Indexing Service — сервисе для корпоративных пользователей, позволяющем индексировать звуковые файлы и осуществлять поиск по ним. В будущем эта разработка сможет пригодиться во множестве продуктов Microsoft (Windows Phone и Kinect — первое, что приходит в голову), однако о более широком внедрении пока что ничего не говорится.