LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures

LLM-JEPA: Большие языковые модели и архитектуры совместного предсказательного внедрения В этой статье представлена LLM-JEPA, новая архитектура совместного предсказательного внедрения (JEPA) для улучшения больших языковых моделей (LLM). Рассматривается несоответствие между языковым обучением, основанным на восстановлении входного пространства, и обучением в области компьютерного зрения, где цели в пространстве внедрения, такие как JEPA, более эффективны. LLM-JEPA объединяет стандартную цель обучения LLM с целью JEPA, улучшая возможности абстрагирования. Метод использует наборы данных с несколькими представлениями одних и тех же базовых знаний, таких как текст и код. Эмпирические результаты показывают, что LLM-JEPA превосходит стандартное обучение LLM на различных моделях и наборах данных. Результаты предполагают потенциал для JEPA-ориентированного предварительного обучения и тонкой настройки в LLM, улучшая их возможности рассуждения и генерации. Исследование вносит вклад в создание новой цели обучения на основе JEPA и обширную проверку на различных моделях и наборах данных. #LLM #JEPA #NLP #МашинноеОбучение #ПредставлениеОбучения #ГлубокоеОбучение #ИИ документ - подписаться - отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Back to Top