Доклад

Чистим большие текстовые корпусы, или Почему CulturaX некультурная

На русском языке

При обучении любой NLP- (да и не только NLP) модели встает вопрос о сборе и чистке данных. Но особенно острым он становится при обучении LLM и иже с ними, так как данных нужно существенно больше чем обычно, а значит — скрупулезно отобрать их руками уже точно не получится. Поэтому надо придумывать способы автоматической чистки. Об этом и пойдет речь в докладе: как мы в Точке для обучения своей LLM и небольшого семейства энкодеров чистили большие текстовые корпусы.

Расскажу, почему данные в принципе стоит фильтровать, а потом поговорим про все типичные этапы очистки: избавление от артефактов парсинга (а в Common Crawl-корпусах их море), подокументную фильтрацию (от простеньких статистических фильтров до более продвинутой разметки специально обученными под это дело классификаторами), дедупликацию и доменную балансировку. И в качестве вишенки на торте — покажу на реальных метриках, насколько такая очистка может уменьшить датасет и как это отражается на качестве итоговой модели и потреблении компьюта (спойлер: крайне положительно).

Доклады