Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов

В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага: 1. Токенизация - разделение текста на отдельные части: символы, слова, предложения. 2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding). Предварительно обученные плотные векторные представления слов: 1. GloVe (Global Vectors) - 2. Word2Vec, Google - 3. FastText, Facebook - Плотные векторные представления слов для русского языка: 1. RusVectōrēs – 2. RUSSE (Russian Semantic Evaluation) – Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - Как можно поддержать курс: 1. Яндекс Кошелек - 2. PayPal - Заранее спасибо за помощь! Добавляйтесь в друзья в социальных сетях: вКонтакте - Instagram - Facebook - Twitter - Мой сайт - Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках -
Back to Top