Векторизация текстов для практических задач // Курс «Natural Language Processing (NLP)»

Обсудим, как можно получать векторы текстов и использовать их в практических целях. Вы узнаете, как быстро сделать рекомендательную систему для текстов - поищем похожие статьи на основе методов LSI, экстрактивной суммаризации и векторизации FastText. Поищем похожие товары на основе векторизации TF-IDF. Обсудим векторизацию текстов архитектурой BERT. Результаты урока: Вы узнаете как делать текст короче, как искать похожие по смыслу и тематике тексты. Кому подходит этот урок: - IT-специалистам, которые хотят применить знание обработки текстов к практическим задачам. - Аналитикам и руководителям контентных сервисов. - Тем IT специалистам, кто хочет быстро и просто создать рекомендательную систему для контента. «Natural Language Processing (NLP)» - Преподаватель: Александр Брут-Бруляко - Ds инженер в СБЕР Neurolab Пройдите опрос по итогам мероприятия - Эпизоды: 00:00 - Начало трансляции 01:36 - О чем сегодня поговорим: способы построения векторизации текстов 02:50 - Основной шаг - это токенизация 06:10 - Лемматизация слов, приведение слов к нормальной форме 09:40 - One-hot encoding 13:27 - Что делать с потерей смысла? 15:50 - TF-IDF 21:20 - Все очень просто: мера близости текстов 22:36 - OKAPI BM25 23:54 - Минусы пословных векторов 27:50 - Word-to-Vec 36:10 - Проблемы word2vec 39:38 - FastText 45:12 - Работа с текстом 48:20 - Более умный способ (BERT эмбеддинги) 54:40 - GPT эмбеддинги 55:57 - Когда помогает абстрактивная суммаризация 59:42 - LSI или тематические векторы 1:03:40 - Практика в jupyter notebook 1:38:09 - Summarization (сравнение с Open AI) 1:45:26 - Карьерная информация 1:46:30 - Записывайтесь к нам на курс NLP 1:47:50 - С какого уровня открываются перспективы удаленной работы Следите за новостями проекта: - Telegram: - ВКонтакте: - LinkedIn: - Хабр:

26 views