Project Vend: может ли языковая модель продавать чипсы и вольфрам? В феврале этого года стартап исследования …
Project Vend: может ли языковая модель продавать чипсы и вольфрам? В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата.Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet ... https://clck.ru/3MrGdZ
Автор: Habr все новости об IT