Группа ученых из Amazon AGI сообщила о создании самой крупной модели преобразования текста в речь. Под «самой крупной» они подразумевают модель с наибольшим количеством параметров и обширным обучающим набором данных.
Amazon представила новую ИИ-модель Big Adaptive Streamable TTS (BASE TTS), которая содержит 980 млн параметров и прошла обучение на 100 тыс. часах аудиозаписей, в основном на английском языке. Кроме того, исследователи предоставили ей примеры произносимых слов и фраз на различных языках для корректного воспроизведения общеупотребительных выражений, таких как «наоборот» или «прощай, амиго».
Проведенное тестирование BASE TTS на небольших наборах данных позволило выявить ее новое качество, известное как «прыжок на более высокий уровень интеллекта». Специалисты обнаружили, что для данной модели он произошел при использовании среднего набора данных, состоящего из 150 млн параметров.
Исследователи отметили, что этот прыжок коснулся различных языковых аспектов, включая способность работать со сложными существительными и иностранными словами, использовать паралингвистику и правильную пунктуацию, а также расставлять ударение в нужных местах и выражать эмоции.
Amazon объявила, что BASE TTS не будет общедоступна. Компания планирует ее использовать в виде обучающего приложения.