Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры Ребята, кажет…
Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention. https://clck.ru/3SCcBq
Автор: Habr все новости об IT