Доклад

Обучение Mixture of Experts в GigaChat

Зал 1На русском языке

В декабре 2024 года наша команда поделилась с комьюнити полностью русскоязычной MoE-моделью GigaChat-20B-A3B. Расскажу, почему выбрали эту архитектуру, с какими сложностями сталкиваемся во время обучения MoE, в том числе в мультимодальных режимах. И что нас отделяет от по-настоящему огромных MoE-моделей.

Спикеры

Доклады