Тип доклада: Доклад

Обучение GigaChat с контекстом в сотни тысяч токенов

  • Доклад на русском языке

Языковые модели достигли высокого качества ответов в самом широком спектре задач. Однако им не хватает контекста. Документы в десятки страниц текста А4 не помещаются в контекст алгоритма. Обсудим, как GigaChat увеличил контекст модели до сотен тысяч токенов (дальше — больше) и как проверял качество получившейся модели.

Рост контекста модели требует больше GPU-памяти и тратится больше времени на его обработку как на обучении, так и на инференсе. Задача состоит в том, чтобы в распределенном сетапе ускорить модель и оптимизировать использование памяти. Для этого нам помогут следующие технологии и библиотеки:

  • Flash Attention.
  • Sliding Window Attention (SWA).
  • Расчет активаций тензоров. Tensor Parallel, Sequence Parallel.
  • Ring Attention, Striped Ring Attention.
  • Бенчмарки длинного контекста из LongBench.

Расскажу про плюсы и минусы каждого подхода, а также объединю их в пайплайн — на котором обучался GigaChat — позволяющий обучать и использовать модели на контексте в сотни тысяч токенов и получать высокие показатели качества на LongBench.

Будет полезно NLP-разработчикам и всем, кто интересуется LLM и развитием ИИ.

Спикеры

Приглашенные эксперты

Расписание