Группа южнокорейских исследователей обучает новый искусственный интеллект исключительно в даркнете. Модель ИИ получила название DarkBERT.
Что известно
DarkBERT основана на архитектуре RoBERTa, то есть технологии ИИ, разработанной еще в 2019 году. Она пережила своеобразный ренессанс, когда исследователи обнаружили, что ее производительность на самом деле больше, чем можно было извлечь из нее в 2019 году. Похоже, что при выпуске модель была сильно недотренирована, ее эффективность была намного ниже максимальной.
Для обучения модели исследователи попадали в даркнет через анонимизирующий брандмауэр сети Tor, а затем фильтровали необработанные данные для создания базы данных. Они применяли такие методы, как дедупликация, балансировка категорий и предварительная обработка данных. DarkBERT — это результат использования этой базы данных для LLM RoBERTa. Модель может анализировать новую порцию контента Dark Web и извлекать из нее полезную информацию. Учитываются особые диалекты и сильно закодированные сообщения.
Почему это важно
Выпуск в свет больших языковых моделей, таких как ChatGPT, точно вызвал эффект снежного кома, и пока что человечество находится только в самом начале пути. Вместе с открытыми исходными кодами других моделей GPT (Generative Pre-Trained Transformer) количество приложений, использующих ИИ, растет. Со временем количество прикладных LLM будет только расти, и каждый из них будет специализироваться в своей области, обучаясь на тщательно подобранных данных для конкретной цели. И одно из таких инструментов только что появился.
Исследователи считают, что DarkBERT превосходит другие большие языковые модели и она поможет специалистам в сфере безопасности и правоохранительным органам проникать глубже в даркнет. Работа над DarkBERT еще не завершена, и дальнейшее обучение и настройка могут улучшить ее результаты. Как ее будет использовать, еще предстоит увидеть.