Александр Календарев | Машинное обучение в PostgreSQL

Спикер: Александр Календарев, Datagile разработчик Тема доклада: Машинное обучение все глубже и глубже проникает в повседневное использование. Так, как вся аналитическая информация собирается и заносится базу данных, то любая аналитика не может обойтись без базы данных. Если рассмотреть процесс машинного обучения в современных системах, то мы увидим следующую схему: данные собираются в разные таблицы. Далее из таблиц формируются тренировочные наборы данных (датасеты), которые экспортируются на внешние сетевые носители данных. Эти данные обрабатываются специальными скриптами, как правило, на языке Python или R и получается файл модели. Далее этот файл оттренированной модели используют для получения предсказаний или иной аналитики используя данные, взятые из базы данных. Наиболее логичным, было бы использование непосредственно самого обучения и применение машинного обучения в самой базе данных. В рамках проекта с открытым исходным кодом pg_ml был разработан и запущен модуль для базы данных PostgreSQL на базе CatBoost. Проект pg_ml обращается непосредственно к библиотеке машинного обучения , что экономит процессорную загрузку и уменьшает время выполнения запроса. В отличие от аналогичных проектов Madlib и PostgresML у проекта пока еще не реализована функция обучения, но активно идут работы в эту сторону. Данный проект по своей функциональности в части ML повторяет возможности СУБД ClickHouse и даже превосходят её. Проект Data Fest 2024: Презентацию к докладу Вы можете скачать в треке секции OpenSource: ______ Наши соц.сети: Telegram: Вконтакте: Канал с вакансиями в telegram: Канал с апдейтами по курсам: Как попасть в чат сообщества ODS Mattermost:
Back to Top