Доклад от партнера

Кто такие эти ваши «мультимодалки» и почему все о них говорят? Взгляд со стороны Computer Vision

Зал 3На русском языке

Объединение модальностей — сегодня одна из самых популярных тем множества топовых научных конференций в области ИИ. Мультимодальные алгоритмы используются системами поиска, в голосовых ассистентах, в генеративных моделях и отлично себя показывают. Кроме этого, тема объединения модальностей находится на острие технологий в задачах распознавания.

Алгоритмы распознавания активно используют в области автономного транспорта, где применяется очень широкий спектр видов входных данных: лидарные, сонарные, радарные, камерные, звуковые. Каждый вид данных для распознавания в области автономного транспорта имеет свои преимущества и недостатки. Например, у данных с камер свои преимущества — камеры далеко видят, хорошо отличают контекст и обычно дешево стоят. Лидары отлично измеряют пространство, но, например, не различают цвета в общем случае, плохо работают во время осадков. Радары отлично видят в любую погоду, но подвержены шумам в данных, могут видеть невидимые объекты, которые не интересны для распознавания.

В докладе поговорим о том, какие существуют способы объединения данных от таких источников, а именно — о late- и early-фьюженах. Например, поздний фьюжен работает с результатами отдельных алгоритмов распознавания и объединяет уже их результаты, а ранний позволяет объединять информацию на ранних этапах признаковых представлений нейронных сетей. Мы обсудим преимущества и недостатки каждого из подходов, углубимся в то, почему сейчас все пытаются работать с ранним фьюженом данных. А еще поговорим о нашем опыте работы с мультимодальными архитектурами распознавания и обсудим, что нужно для того, чтобы у вас это заработало.

Спикеры

Расписание