Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой мо…

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в друг... https://clck.ru/3Lqskg

Автор: Habr все новости об IT