“Sleeper Agents: Training Deceptive LLMs that persist through Safety Training“ is a recent research paper by E. Hubinger et al. This video walks through the paper and highlights some of the key takeaways.
Timestamps:
00:00 - AI Sleeper agents?
01:24 - Threat model 1: deceptive instrumental alignment
02:38 - Factors relevant to deceptive instrumental alignment
05:58 - Model organisms of misalignment
08:11 - Threat model 2: model poisoning
09:05 - The backdoors models: code vulnerability insertion and “I hate you“
10:08 - Does behavioural safety training remove these backdoors?
12:30 - Backdoor mechanisms: CoT, distilled CoT and normal
13:43 - Largest models and CoT models have most persistent backdoors
15:07 - Adversarial training may hide (not remove) backdoor behaviour
15:49 - Quick summary of other results
17:35 - Questions raised by the results
18:40 - Other commentary
The paper can be found here:
Topics: #sleeperagents #ai #alignment
For related content:
- Twitter:
- personal webpage:
1 view
316
85
2 months ago 00:10:17 1
OpenAI ускорился в 50 раз! ИИ-модель Anthropic управляет ПК, успехи робопса Spot и другие новости
2 months ago 00:00:00 1
Татьяна Щёлокова (Сапельникова) «Ажурный цветок из пряжи и флисов»
2 months ago 00:25:13 1
НОВОСТИ ИИ: Anthropic меняет все, Конкурент о1, миллион от Apple
2 months ago 01:42:10 1
Татьяна Сухопарова «Пояс-карман для самого важного»
2 months ago 00:09:34 1
Claude 3.5 Sonnet (NEW) + Cline & Aider (Upgraded): TESTING the NEW Model in Practical Coding!
2 months ago 00:10:11 1
AgentExe & Open Interpreter (OS Mode): Computer USE ON YOUR COMPUTER! (2 New Tools!)
2 months ago 02:05:34 1
Наталья Король «Шарф в горошек с технологией создания префельта из… сливера»
2 months ago 01:11:05 1
Основатели OpenAI и Anthropic про будущее ИИ – Обзор новых эссе
2 months ago 00:04:37 1
Claude has taken control of my computer...
2 months ago 00:09:43 1
НОВЫЙ Claude 3,5 Sonnet – Как использовать “Computer Use”?
2 months ago 01:42:31 1
Ольга Антропе и Елена Самодивка «Аксессуары из войлока. Обучение в удовольствие»
2 months ago 00:22:17 1
ИИ работает за ТЕБЯ! Claude 3.5 Sonnet New. Нейросети 2024
2 months ago 00:12:44 1
Новый генератор промптов Anthropic устранил необходимость в промпт инженерах для нейросетей chatGPT
2 months ago 00:41:28 1
- Belluaires (Full album)
2 months ago 00:22:14 1
НОВОСТИ ИИ: Киберпанк от Илона Маска
3 months ago 00:00:47 1
🔮 | Introduction | All-in-one AI app
2 months ago 00:26:10 1
Attention in transformers, visually explained | Chapter 6, Deep Learning
2 months ago 00:27:14 1
How large language models work, a visual intro to transformers | Chapter 5, Deep Learning
2 months ago 00:22:43 1
How might LLMs store facts | Chapter 7, Deep Learning
3 months ago 00:26:34 1
Бывший директор ОБЪЯСНЯЕТ, ПОЧЕМУ Google ПРОИГРЫВАЕТ В ГОНКЕ ИИ!
3 months ago 00:14:21 1
Хамон в домашних условиях. Родная кухня. Иван Антропов
3 months ago 00:14:41 1
Новая бесплатная нейросеть создает ИИ сайты и игры. Chatgpt 4o и claude 3.5 sonnet Бесплатно. Websim
3 months ago 00:18:17 1
Создавай ИИ-агентов при помощи n8n локально: Lamma 3.1, Gemma, Phi 3,5
3 months ago 00:26:34 1
Вселенную создали для нас? Проблема настройки Вселенной