Это мультимодальная модель ИИ, то есть она понимает текст, картинки, контент в формате аудио и видео.
Что известно
Microsoft представила нейросеть Kosmos-1, которая может справляться с многопрофильными задачами, как и люди, благодаря мультимодальному восприятию. Это передовое решение в сфере ИИ. Ученые считают, что мультимодальное восприятие поможет нейросетям получать знания с учетом связи с реальным миром. Более подробно концепция изложены в работе «Language Is Not All You Need: Aligning Perception with Language Models», где описана структура и принципы работы нового ИИ.
Детали
Что умеет Kosmos-1:
- анализировать изображения;
- распознавать текст;
- понимать инструкции;
- решать визуальные головоломки.
Система преобразует картинки в текстовые токены, а их анализирует вычислительная машина. Дальше элементы обрабатываются декодером. Microsoft тренировала Kosmos-1 на информации из глобальной сети.
Особенно интересно то, что система уже проходит тесты IQ с точность 22–26%. Неплохие результаты для начала, но их будут улучшать.
Почему это важно
Цель Microsoft — создать ИИ общего назначения (AGI), а Kosmos-1 – важный шаг на пути к ее достижению. Разработчики планируют добавить голосовые возможности и увеличить размер модели. Но уже сейчас, согласно данным Microsoft, по результатам тестов нейросеть обогнала аналоги. Дальнейшие разработки помогут заменить людей и выполнять интеллектуальные задачи.