Доброкачественное переобучение в моделях, дополненных поиском по хранилищу
Спикер
Женисбек Ассылбеков, Назарбаев Университет, Нур-Султан, Казахстан
Тема
Научно-технический вебинар «Доброкачественное переобучение в моделях, дополненных поиском по хранилищу»
Спикер о вебинаре:
Теория длинного хвоста Фельдмана (STOC 2020) утверждает, что запоминание редких/атипичных примеров неизбежно при обучении на естественных данных. Несмотря на то, что современные глубокие нейронные сети имеют возможность запоминать (почти) всю обучающую выборку, при обучении с SGD они этого не делают. Напротив, они доброкачественно переобучаются, то есть делают точные прогнозы на новых данных, несмотря на идеальную подгонку к обучающей выборке.
Грубо говоря, все это происходит из-за неявной предвзятости к простоте: SGD предпочитает более простые и надежные модели и использует возможности нейронной сети для запоминания, чтобы подгоняться к нетипичным/редким примерам только в случае необходимости.
В то же время специалисты по машинному обучению (особенно в области обработки естественного языка) придумали, как использовать эту возможность для более эффективного обучения: модели, дополненные поиском по хранилищу данных (kNN-LM, RETRO) явно запоминают (часть) обучающей выборки в хранилище и, таким образом, пытаются (частично) снять нагрузку запоминания с нейронной сети. Насколько мне известно, в настоящее время нет теоретического анализа доброкачественного переобучения в таких моделях.
В своем выступлении я предложу несколько возможных исследовательских вопросов, касающихся доброкачественной переобучения в моделях, снабженных поиском по хранилищу, для дальнейшего обсуждения с участниками вебинара.
Страница вебинара на сайте НТР:
Наш чат в Telegram: aGZorUQIvT45MTMy
6 views
2
0
2 years ago 01:12:47 6
Доброкачественное переобучение в моделях, дополненных поиском по хранилищу