Технологические компании в области ИИ борются за учебные данные для своих моделей. OpenAI, Google и Meta* используют все доступные способы сбора информации, которые не всегда законны.
Компании, занимающиеся разработкой искусственного интеллекта, активно ищут доступные способы сбора данных для обучения своих моделей, нарушая законодательство, авторские права и корпоративные правила платформ.
Подход OpenAI
OpenAI разработала свою модель транскрипции звука Whisper для того, чтобы переписать более миллиона часов видео с YouTube для обучения GPT-4. Отмечается, что отбором видеороликов лично занимался президент OpenAI Грег Брокман.
Пресс-секретарь Линдси Хелд подчеркнула, что компания создает специализированные наборы данных для каждой из своих моделей ИИ. Это помогает им лучше понимать мир и поддерживать конкурентоспособность стартапа в глобальном исследовательском сообществе.
Кроме того, OpenAI использует различные источники данных, включая общедоступные данные и информацию, полученную через партнерские отношения. Компания также планирует создавать собственные синтетические данные.
Подход Google
Google также использовала транскрипцию видеороликов с YouTube. Компания обучала свои модели на основе контента, соблюдая при этом договоренности с авторами этих видеоматериалов.
Отмечается, что в 2023 году Google внесла изменения в свои условия предоставления услуг. Это было сделано для того, чтобы создать возможность использования общедоступных документов, отзывов на Google Maps и других интернет-ресурсов компании с целью сбора большего объема информации для продуктов Google на базе искусственного интеллекта.
Подход Meta*
Meta* также столкнулась с трудностями при поиске качественных обучающих данных. В процессе работы над проектами и попыткой догнать OpenAI, в компании возникли дискуссии о возможности использования материалов, защищенных авторским правом.
Компания, изучив большинство доступных в интернете англоязычных книг, эссе, стихов и новостных статей, рассматривала такие варианты действий, как покупка лицензий на книги или даже прямая оплата материалов крупного издательства.
По данным источника, сотрудники Meta* выражали готовность собирать данные из интернета, несмотря на риск судебных разбирательств. Они считали, что переговоры о лицензировании с издателями, художниками, музыкантами и представителями СМИ могли бы занять слишком много времени.
Решение проблемы
Действия компаний являются иллюстрацией того, как информация в интернете становится источником развития индустрии искусственного интеллекта. Для решения проблемы недостатка данных существуют два основных подхода.
Первый подход включает обучение моделей на синтетических данных, созданных с помощью собственных моделей, или так называемое «изучение учебных программ». Этот подход предполагает последовательное представление моделям качественных данных в надежде на то, что они смогут установить более глубокие связи между концепциями, используя гораздо меньше информации. Однако эффективность этого подхода пока не подтверждена.
Другой подход, который выбирают некоторые компании, — это использование любой доступной информации, независимо от того, имеют ли они на это разрешение. Однако, как показывают многочисленные судебные иски, такой подход может иметь серьезные последствия.
* Meta признана в России экстремистской организацией и запрещена.