Benchmark — разрушитель LLMок, или Как мы собрали свой мультиязычный SWE-Bench В статье представлено многоязы…

Benchmark — разрушитель LLMок, или Как мы собрали свой мультиязычный SWE-Bench В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, пре... https://clck.ru/3MWHdL

Автор: Habr все новости об IT