Доклад

Собственная централизованная платформа MLOps: от R&D до инференса в едином контуре

  • На русском языке
Презентация pdf

Расскажем, почему мы пришли к созданию MLOps-платформы в нашей компании и как выбирали стек исходя из оргструктуры, бизнес-задач и потребностей ML-разработчиков. Сделаем обзор нашего решения на базе Kubeflow — со всеми плюсами и минусами — и этапов его раскатки в Яндекс.Облаке. Подсветим нетривиальные задачи и сложности, с которыми столкнулись, включая разработку шаблонов и обучений, деление GPU на команды, интеграцию с Vault для хранения секретов и подготовки CI/CD на базе Jenkins и Artifactory.

Также расскажем, что мы получили с точки зрения пользовательского опыта и бизнеса:

  • Сократили time to market выкатки моделей в прод в 1,5 раза.
  • Используем в 1,9 раза меньше ресурсов.
  • Стандартизировалась продуктивизация моделей машинного обучения.
  • Появился удобный централизованный инструмент для проведения исследований.
  • Появилась платформа продуктивизации моделей с шаблонами и поддержкой.

Спикеры

Расписание