Представитель «большой тройки консалтинга» компания Boston Consulting Group (BCG) провела исследование совместно с MIT и Harvard University Business School. Они протестировали работу GPT-4 в бизнес-процессах на примере ежедневных задач консультантов компании.
Кто участвовал в исследовании
Эксперимент проводили весной 2023 года и использовали GPT-4, то есть ту же самую версию, которая доступна всем пользователям (без специального дообучения). Кстати, так как это было только весной, тогда у людей был еще небольшой опыт работы с этим инструментом.
Для исследования привлекли 7% сотрудников BCG — 728 консультантов, то есть исследование можно считать достаточно крупным. Команда провела сотни интервью и замеров. Результаты оценивались вручную, хотя и были попытки задействовать LLM.
Чтобы замотивировать сотрудников и обеспечить максимальную точность результатов, всех участников эксперимента удостаивали признания «служебного вклада», что предполагало финансовые бонусы. Было и дополнительное поощрение: 20% лучших участников получили дополнительные признания, а 5% награждены подарками.
Какие были типы задач
Для эксперимента выбирали реальные задачи, которые решают консультанты в ходе работы. Их разделили на 2 группы в зависимости от того, справится ли с работой GPT-4 или нет, по мнению авторов исследования. Второй тип включал только одно задание — составить отчет и заметку на 500-750 слов, проанализировав 3 подразделения и интервью инсайдеров.
Первая группа задач была проще и включала 18 заданий. На самом деле это одна большая задача, разделенная на несколько. Выполнять их нужно последовательно. Вот несколько примеров:
- напишите идеи для новой обуви для определенного рынка или вида спорта, который пока востребован в недостаточной мере;
- напишите шаги для запуска продукта;
- разделите обувной рынок на сегменты в зависимости от покупателей;
- составьте слоган для каждого сегмента;
- составьте отчет, в котором объясните отличие вашего продукта от предложений конкурентов. Сделайте это в виде вдохновляющей записки для сотрудников;
- всю информацию, полученную в предыдущих шагах, обобщите, проанализируйте и напишите статью на 2500 слов в стиле Harvard Business Review.
Для составления вопросов и заданий задействовали профессионалов по соответствующим секторам, то есть это реальные задачи для бизнес-консультантов. Более того, руководитель проверил их и отметил их соответствие повседневной работе сотрудников.
Что показало исследование
Прирост производительности у всех, кто работал с GPT-4
Оказалось, что люди с базовыми навыками (уровень ниже среднего) улучшили свою эффективность на 43%. У участников с уровнем выше среднего прирост составил 17%. Даже самые лучшие консультанты стали работать эффективнее, используя GPT-4.
Повышение качества ответов
На графике распределение усредненных результатов выполнения задач первого типа для участников эксперимента в трех группах:
- красный — участники использовали GPT-4 и им предварительно объяснили, как работать с этим инструментом;
- зеленый — ответы, полученные от GPT-4;
- синий — результаты от людей без использования искусственного интеллекта.
Все, кто задействовал ИИ в своей работе:
- были продуктивнее — выполнили задач на 12,2% больше;
- были быстрее — выполнили задачи на 25,1% быстрее;
- показали более качественные результаты — их ответы были на 40% лучше, чем у контрольной группы, которая решала задания без помощи GPT-4.
Но есть еще один нюанс: ответы тех, кто использовал ИИ, были менее вариативными, чем идей тех, кто работал самостоятельно.
Слепое полагание на технологии
Когда задача прописана не совсем точно и требует более тщательного анализа дополнительной документации, у людей, которые использовали GPT-4, корректность работы была ниже, чем у тех, кто полагался только на свои силы — 60% против 84,5%. То есть правильность ответов снижалась из-за того, что человек чересчур полагался на технологии. С другой стороны, показатель менялся до 70,6%, когда участникам предварительно давали пояснения об ограничениях модели и помогали правильно составлять промты.
Какие выводы можно сделать
Недостаточное количество людей задумываются о том, как бы выросла их продуктивность, если бы они начали использовать GPT-4 в своей работе. И искусственный интеллект, исходя из этого исследования, уравнивает возможности людей. У лучших был прирост эффективности в 17%, а у людей со средним уровнем — аж на 43%. В итоге их оценка рабочих задач практически сравнялась.
Но с другой стороны, нельзя слишком сильно полагаться только на технологии. Происходит своеобразное «засыпание за рулем» (как это назвал один из авторов статьи), то есть люди могут слепо полагаться на технологию, а это навредит их дальнейшему развитию, так как нет причин работать усерднее и обращать внимание на детали.