
Сергей Воробьёв
Яндекс
Поговорим о масштабируемости обучения и инференса языковых моделей.
Сейчас LLM становятся всё больше и больше (например, DeepSeek-V3/-R1), а существующее железо не успевает за этим. Чтобы хоть как-то покрывать потребности в мощностях, применяют горизонтальное масштабирование — подключают больше GPU. С ростом числа GPU появляются проблемы с их эффективной утилизацией.
Я рассмотрю инструменты и подходы, которые применяются для обучения и использования огромных моделей на большом количестве GPU. Обсудим PyTorch FSDP, подходы из статей Llama / Qwen / DeepSeek, рассмотрим различные варианты параллелизма, их преимущества и слабые стороны. Расскажу про наш опыт в обучении. Кроме того, затрону инференс, vLLM, SGLang и другие инструменты — их проблемы и наш опыт развертывания моделей внутри.
Яндекс