
Лина Вельтман
Wildberries Tech
Поделимся нашим опытом внедрения и оптимизации больших языковых моделей (LLM) для рекомендательных систем. Расскажем о нашем пути от использования архитектуры P5 (encoder-decoder) до создания оптимизированной decoder-only small language model. Вы узнаете, как мы преодолевали ключевые вызовы: адаптацию модели под высокие нагрузки, подбор промптов, обработку пользовательских данных и оптимизацию архитектуры.
Мы использовали P5 как базовую модель и провели серию улучшений, включая анализ влияния языка модели на рекомендации, эксперименты с фичами в промптах, оптимизацию токенизации и параметров генерации. Результатом стал переход к decoder-only архитектуре, что позволило снизить вычислительные затраты.
В заключение рассмотрим практические инсайты, ошибки и решения, которые помогли нам улучшить офлайн-метрики и создать уникальную модель, адаптированную под задачи маркетплейса.
Будет полезно ML-исследователям, инженерам по машинному обучению, специалистам по рекомендательным системам и техническим лидерам, работающим с LLM в продакшене.
Wildberries Tech
Wildberries Tech