Обучение GigaChat с контекстом в сотни тысяч токенов

На русском языкеСложность -

Языковые модели достигли высокого качества ответов в самом широком спектре задач. Однако им не хватает контекста. Документы в десятки страниц текста А4 не помещаются в контекст алгоритма. Обсудим, как GigaChat увеличил контекст модели до сотен тысяч токенов (дальше — больше) и как проверял качество получившейся модели.

Рост контекста модели требует больше GPU-памяти и тратится больше времени на его обработку как на обучении, так и на инференсе. Задача состоит в том, чтобы в распределенном сетапе ускорить модель и оптимизировать использование памяти. Для этого нам помогут следующие технологии и библиотеки:

Flash Attention.
Sliding Window Attention (SWA).
Расчет активаций тензоров. Tensor Parallel, Sequence Parallel.
Ring Attention, Striped Ring Attention.
Бенчмарк понимания длинного контекста PassKey.

Расскажу про плюсы и минусы каждого подхода, а также объединю их в пайплайн — на котором обучался GigaChat — позволяющий обучать и использовать модели на контексте в сотни тысяч токенов.

Будет полезно NLP-разработчикам и всем, кто интересуется LLM и развитием ИИ.