LLaVA: от теории до практики

LLaVA — Large Language and Visual Assistant — одна из наиболее популярных работ на тему использования больших языковых моделей (LLM) для работы с изображениями. LLaVA одновременно показывает хорошее качество и не требует больших ресурсов, благодаря чему подход перенесли не только на другие языки, но и добавили новые домены, например, видео.

Доклад будет состоять из двух частей. В первой разберем теорию, скрывающуюся за LLaVA: как авторы предлагают объединять LLM и изображения, откуда брать данные для этого, какие улучшения предлагались в дальнейшем. Во второй части поделюсь нашим опытом применения этого подхода, но уже для русского языка. Обсудим, какие из шагов легко переносятся, какие — нет, где возникли трудности и как мы их решили.

Спикеры

Егор Спирин
VK / ВКонтакте

Другие доклады по теме «NLP»
- Смотреть запись
  Галлюцинации в LLM: что это и как с ними бороться?
  Артем Ерохин
  X5 Tech
- Смотреть запись
  Построение RAG-приложения с использованием YaGPT
  Кузьма Лешаков
  Yandex Cloud
- Смотреть запись
  Синтез речи в Марусе: проблемы, успехи и неудачи
  Максим Галайко
  VK
- Смотреть запись
  SAGE: мультиязычная коррекция орфографии и пунктуации
  Никита Мартынов
  SberDevices
- Смотреть запись
  Почему мы уже живем в Черном зеркале
  Александр Смирнов
  AskGuru
  Таисия Пенская
  Яндекс
  Андрей Дмитриев
  JUG Ru Group
- Смотреть запись
  Обучение GigaChat с контекстом в сотни тысяч токенов
  Евгений Косарев
  SberDevices
- Смотреть запись
  LLM в 2024-м: вызовы и перспективы
  Сергей Марков
  Сбер
  Александр Толмачев
  Ozon

Расписание

LLaVA: от теории до практики

Спикеры

Другие доклады по теме «NLP»