Ищем релевантные признаки из сотен источников для любой модели

General ML

Сложность -

Итак, вы хотите использовать внешние данные для обучения. Как найти нужные? Можно опираться на метаданные датасетов: их схему, описание, различные фильтры... и потом погрузиться в работу по очистке данных и в эксперименты. И может случиться так, что с виду хороший датасет совсем не подходит для вашей задачи.

А если иначе? Мы в Upgini делаем сервис, который упрощает этот процесс до одного запроса в Google вызова open-source библиотеки. Каков путь от эталона и сотен источников до фич, повышающих GINI? Какие ловушки подстерегают, когда из тысяч признаков нужно выбрать оптимальный набор? И при чем тут LLM? Обо всем этом расскажу в своем докладе.