Антон Кленицкий | 2 место в задаче Matching, Data Fusion Contest 2022
Решение основано на старом добром ансамбле градиентых бустингов. Основной ингредиент решения – feature engineering. Есть несколько идей, которые позволяют существенно улучшить качество по сравнению с бейзлайном и публичными решениями. В качестве модели использовался catboost c ранжирующим лоссом. Обучим несколько моделей с одинаковыми параметрами на разных фичах, сделаем из них ансамбль – и готово. Постфактум все выглядит достаточно просто, но по ходу соревнования пришлось перепробовать много идей, которые не сработали.
Полезные ссылки
Data Fest Online 2022:
Секция ML Trainings x Data Fusion Contest 2022:
Хаб ВТБ:
Наши соц.сети
Telegram:
Вконтакте:
Twitter:
2 views
151
42
2 months ago 00:47:50 1
6 / «Ужас что творится в силовых структурах» / Новая реформа полиции может стать реальностью?@TDG78
2 months ago 02:21:39 2
Запись трансляции ML тренировки SDSJ AutoML, Kaggle Inclusive Images, Airbus Ship Detection
2 months ago 00:42:06 3
Построение системы автоматического машинного обучения (SDSJ AutoML 2018) – Антон Кленицкий
2 months ago 00:17:16 1
Антон Кленицкий: Кластеризация коротких текстов
2 months ago 00:14:53 2
Антон Кленицкий | 2 место в задаче Matching, Data Fusion Contest 2022
2 months ago 00:00:44 4
Кластеризации текстовых данных, как ее сделать хорошо и как ее использовать для анализа и разметки