![](https://squidex.jugru.team/api/assets/srm/120f26a4-a1ff-40c7-98a0-e7646ec9103f/5.jpg?cache=3600&width=74&height=74&mode=CropUpsize)
Егор Спирин
Компания: VK / ВКонтакте
Тип доклада: Доклад от партнера
LLaVA — Large Language and Visual Assistant — одна из наиболее популярных работ на тему использования больших языковых моделей (LLM) для работы с изображениями. LLaVA одновременно показывает хорошее качество и не требует больших ресурсов, благодаря чему подход перенесли не только на другие языки, но и добавили новые домены, например, видео.
Доклад будет состоять из двух частей. В первой разберем теорию, скрывающуюся за LLaVA: как авторы предлагают объединять LLM и изображения, откуда брать данные для этого, какие улучшения предлагались в дальнейшем. Во второй части поделюсь нашим опытом применения этого подхода, но уже для русского языка. Обсудим, какие из шагов легко переносятся, какие — нет, где возникли трудности и как мы их решили.
Компания: VK / ВКонтакте