Бустим Transformer-модель через адаптивную TSCO-архитектуру Как я получил Perplexity~26 на сверхмалой модели …
Бустим Transformer-модель через адаптивную TSCO-архитектуру Как я получил Perplexity~26 на сверхмалой модели трансформерного типа собственной разработки (16M параметров, сверхмалый датасет) на тестовом корпусе и выжал Val Accuracy~0.982 на временных рядах (физических данных, EEG). https://clck.ru/3QNk4c
Автор: Habr все новости об IT