Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking» Буквально несколько часов назад (н…
Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking» Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.Суть BoN Jailbreaking — в добавлении искажени... https://clck.ru/3FEah8
Автор: Habr все новости об IT