С каждым днем становится все труднее доверять тому, что видите и слышите в Интернете. Дипфейки и обработанный звук стало проще создавать одним нажатием кнопки. Новое исследование позволит легко определить подлинность звука.
В 2022 год казалось, клонированный голос очень отличается от живого, поэтому не стоит беспокоиться о дипфейковом звуке. Однако всего несколько месяцев спустя клонирование голоса с помощью искусственного интеллекта оказалось поразительно успешным, показав, насколько быстро развивается эта технология.
Ромит Баруа, Гаутам Курма, Сара Баррингтон с профессором Хани Фаридом изучили различные методы, позволяющие отличить настоящий голос от клонированного, выдающего себя за конкретного человека. Команда проанализировала аудиообразцы реальных и фальшивых голосов, изучая особенности восприятия или закономерности, которые можно идентифицировать визуально. Получилось выявить паузы и амплитуды как ключевые факторы, на которые следует обратить внимание при попытке определить подлинность голоса. Дальше они обнаружили, что этот метод, хотя и прост для понимания, не дает точных результатов. Затем применили более детальный подход, рассматривающий общие спектральные характеристики. Программа извлекает более 6000 особенностей голоса, изучает их и сокращает до 20 наиболее важных. Анализируя эти извлеченные функции и сравнивая их с другими аудиообразцами, создали более точный метод.
Однако наиболее точные результаты получили с помощью модели глубокого обучения. Для этого команда передает необработанный звук в модель, из которой она обрабатывает и извлекает многомерные представления, называемые эмбеддингами. После создания модель использует их, чтобы различать реальный и синтетический звук. Этот превосходит два предыдущих метода по точности и фиксирует ошибку всего от 0 до 4%.
После публикации этого исследования команду пригласили представить свои выводы на различных конференциях, включая саммит Нобелевской премии и конференцию по информационной криминалистике и безопасности в Германии.