Исследователи из MIT CSAIL, Nvidia, Университета Вашингтона и Университета Торонто создали систему искусственного интеллекта, которая изучает физические воздействия, влияющие на тканевые материалы. ИИ обучался, просматривая видео. Разработчики утверждают, что система может предсказать поведение тканей и их взаимодействие, даже если не видела подобного раньше. Например, создать эмуляцию с участием множества рубашек и брюк.
Исследователи создали сеть визуальных причинно-следственных связей (V-CDN), которая осуществляет взаимодействие с тремя модулями: один для визуального восприятия, один для структурного вывода и один для прогнозирования динамики.
Разработчики пытались заложить в основу системы понимание причин, чтобы ИИ создавал возможные альтернативы движения. Например, на изображении, содержащем пару шариков, соединенных друг с другом пружиной, система будет прогнозировать влияние пружины на взаимодействие шариков. Таким образом ИИ делает различные прогнозы.
Модель восприятия обучена извлекать определенные ключевые точки (области интереса) из видео. Затем модуль воздействия определяет переменные, которые управляют взаимодействиями между парами ключевых точек. Между тем, модуль динамики учится предсказывать будущие движения ключевых точек, опираясь на график нейронной сети, созданный модулем вывода.
Исследователи изучали V-CDN в моделируемой среде, содержащей ткани различной формы: рубашки, брюки и полотенца различной длины. Разработчики взаимодействовали с контурами тканей, чтобы деформировать и перемещать одежду, а ИИ реагировал на их действия и пробовал предсказать, как поведет себя модель ткани. Исследователи были нацелены создать единую модель, которая могла бы обрабатывать ткани разных типов и форм.
Результаты показывают, что производительность V-CDN увеличилась, поскольку система наблюдала большой массив видеокадров. Согласно исследователям, работа системы сравнима с интуицией. Больше предыдущих наблюдений обеспечивают лучшую оценку переменных, управляющих поведением тканей.
«Модель не предполагает доступа к основному причинно-следственному графу, ни динамике, которая описывает эффект физических взаимодействий, — написали ученые в тексте, описывающем систему. — Вместо этого система учится создавать структуры зависимостей и моделировать причинные механизмы из видео без участия человека, что, как мы надеемся, может способствовать будущим исследованиям с более обобщенными системами визуального мышления».
Исследователи отмечают, что V-CDN не решает грандиозную задачу причинного моделирования. Скорее, разработчики видят в работе начальный шаг к более широкому исследованию по созданию физически обоснованного «визуального интеллекта», способного моделировать динамические изменения. Исследователи надеются привлечь внимание людей к этой задаче и вдохновить на будущие исследования.
Причинность лежит в основе человеческого познания. Это позволяет людям рассуждать об окружающей среде и делать гипотетические прогнозы относительно сценариев, которые могут значительно отличаться от предыдущего опыта. Современный искусственный интеллект еще не умеет принимать решения на основе причинно-следственных связей. Поэтому одна из главных задач в машинном обучении — поиск и расшифровка причинно-следственных связей в больших массивах данных. Например, из видеороликов. Затем происходит обучение систем на основе этой информации.
Предварительный текст исследования опубликован на arxiv.org.