Тип доклада: Доклад от партнера

LLaVA: от теории до практики

  • Доклад на русском языке

LLaVA — Large Language and Visual Assistant — одна из наиболее популярных работ на тему использования больших языковых моделей (LLM) для работы с изображениями. LLaVA одновременно показывает хорошее качество и не требует больших ресурсов, благодаря чему подход перенесли не только на другие языки, но и добавили новые домены, например, видео.

Доклад будет состоять из двух частей. В первой разберем теорию, скрывающуюся за LLaVA: как авторы предлагают объединять LLM и изображения, откуда брать данные для этого, какие улучшения предлагались в дальнейшем. Во второй части поделюсь нашим опытом применения этого подхода, но уже для русского языка. Обсудим, какие из шагов легко переносятся, какие — нет, где возникли трудности и как мы их решили.

Спикеры

Расписание