Исследователи Microsoft разработали модель больших действий (LAM) — ИИ, способный самостоятельно управлять программами Windows. Это означает переход от ИИ, который лишь говорит о своих возможностях, к ИИ, который действительно может их реализовывать.
В отличие от обычных языковых моделей, которые в основном генерируют текст, LAM могут преобразовывать пользовательские запросы в действия, например, управлять программным обеспечением или роботами. Это первая модель, обученная работе с продуктами Microsoft Office.
LAM могут понимать различные типы ввода, такие как текст, голос или изображения, и превращать их в пошаговые планы. Они могут корректировать свой подход в реальном времени на основе происходящего.
Разработка LAM включает четыре этапа: обучение с использованием данных плана задач, обучение с использованием экспертных моделей, таких как GPT-4o, самостоятельное изучение новых путей решения и оптимизация производительности с использованием моделей вознаграждения.
В тестах с Microsoft Word на основе модели Mistral-7B LAM достигла 71% успеха и превзошла GPT-4o по скорости без визуального ввода. Однако система сталкивается с рядом проблем, включая опасения по поводу ошибок ИИ, регуляторные вопросы и технические сложности с масштабированием и адаптацией. Несмотря на это, исследователи считают LAM важным шагом в развитии ИИ. В будущем могут появиться ИИ-помощники, активно помогающие выполнять задачи, а не просто понимать и генерировать текст.