Сотрудники Yandex Research, IST Austria и Kaust придумали интересные методы сжатия нейросетей, позволяющие значительно уменьшить затраты бизнеса. Об этом сообщили в Yandex.
Для быстрого получения качественных ответов языковой модели требуется много дорогих графических процессоров с большой мощностью. Разработчики сделали модель меньше в несколько раз, поэтому для ее запуска не нужны очень мощные устройства. Предложенные методы сжатия не оказывают негативного влияния на качество ответов нейросети.
Разработчики воспользовались двумя инструментами. Уменьшение нейросети с помощью одного из них позволяет производить ее запуск одном графическом процессоре. Задача второго — исправление ошибок, появляющихся при сжатии языковой модели. Несмотря на уменьшение, скорость работы нейросети увеличилась.
Тестирование методов сжатия показало преимущества нового метода. Он позволяет сохранять 95% качества ответов нейросети. Сохранение при других популярных методах варьируется от 59% до 90% показателей качества.
Код этого метода сжатия появился в открытом доступе. Его можно использовать. Помимо этого, разработчики Yandex Research предоставили коллегам инструкции для обучения. При необходимости они смогут усовершенствовать уменьшенные нейросети под нужные им сценарии.