Доклад

Масштабирование обучения и инференса LLM

На русском языке

Поговорим о масштабируемости обучения и инференса языковых моделей.

Сейчас LLM становятся всё больше и больше (например, DeepSeek-V3/-R1), а существующее железо не успевает за этим. Чтобы хоть как-то покрывать потребности в мощностях, применяют горизонтальное масштабирование — подключают больше GPU. С ростом числа GPU появляются проблемы с их эффективной утилизацией.

Я рассмотрю инструменты и подходы, которые применяются для обучения и использования огромных моделей на большом количестве GPU. Обсудим PyTorch FSDP, подходы из статей Llama / Qwen / DeepSeek, рассмотрим различные варианты параллелизма, их преимущества и слабые стороны. Расскажу про наш опыт в обучении. Кроме того, затрону инференс, vLLM, SGLang и другие инструменты — их проблемы и наш опыт развертывания моделей внутри.

Спикеры

Доклады