[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям Прошло семь лет с мом…
[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Que... https://clck.ru/3NM5aU
Автор: Habr все новости об IT