Доклад

Ищем релевантные признаки из сотен источников для любой модели

На русском языке
Презентация pdf

Итак, вы хотите использовать внешние данные для обучения. Как найти нужные? Можно опираться на метаданные датасетов: их схему, описание, различные фильтры... и потом погрузиться в работу по очистке данных и в эксперименты. И может случиться так, что с виду хороший датасет совсем не подходит для вашей задачи.

А если иначе? Мы в Upgini делаем сервис, который упрощает этот процесс до одного запроса в Google вызова open-source библиотеки. Каков путь от эталона и сотен источников до фич, повышающих GINI? Какие ловушки подстерегают, когда из тысяч признаков нужно выбрать оптимальный набор? И при чем тут LLM? Обо всем этом расскажу в своем докладе.

Приглашенные эксперты

Расписание