Проблемы обучения и инференса больших табличных нейросетей

Inference of Large Models

Рассказ о трудностях, связанных с обучением больших рекомендательных моделей. О том, как эти трудности преодолеть и что это нам дало в онлайн-метриках.

В популярных сервисах копится огромное количество данных. Один из наиболее интересных и продвинутых способов обработки этих данных — использование нейросетей. Для нейросетевых моделей параметры — это ID пользователей, айтемов, а также дополнительные фичи. В ситуации, когда количество позитивных взаимодействий пользователей с различными айтемами переваливает за несколько терабайт, а самих этих айтемов миллиарды, возникает вопрос: как обучить нейросетевую модель, параметры которой занимают несколько сотен гигабайт и явно не влезают в стандартные GPU сервера?

Будет интересно ML-инженерам, работающим с высоконагруженными рекомендательными системами.

Технологии: Torch, TorchRec, ONNX, feature store.