Распознавание образов и машинное обучение. Чтение 41. Гауссовские процессы: классификация, или no pain, no gain

Продолжаем разбирать решение задачи бинарной классификации в модели гауссовских процессов. Нам нужно оценить распределение p(a[N 1] | t[N]) ([] использованы как указания нижних индексов). После несложных преобразований понимаем, что для этого нам нужно вычислить распределение p(a[N] | t[N]). Остальные компоненты возникающих интегралов нам известны из предположения о том, что функции активации a – гауссовский процесс. Аналитически найти это распределение мы не можем, поэтому будем строить к нему нормальное распределение, чтобы хотя бы аналитически взять интеграл для p(a[N 1] | t[N]). Существуют разные методы приближения, мы выбираем уже знакомое приближение Лапласа. Этот метод требует найти сначала некоторую моду распределения p(a[N] | t[N]). Её поиск осложняется нелинейностью сигмоиды, которая входит в выражение производной ln(p(a[N] | t[N])) по вектору a[N] (это вектор из N значений гауссовского процесса). Приходится искать моду итерационным методом, методом Ньютона-Рафсона, для которого требуется вычисление гессиана (итеративное). Усилия по вычислению гессиана не пропадают зря, ведь, как мы знаем, он является матрицей точности искомого приближающего p(a[N] | t[N]) нормального распределения. Дальнейшие – вычисление распределение p(a[N 1] | t[N]) и вычисление по нему предсказывающего распределения p(t[N 1] | t[N], X[N]) – дело уже известной нам техники. #теорвер и #machinelearning, #иммуроран и прикладной #матан 1P.S. Опять я заблудился в матричном анализе. Но, как говорится: no pain, no gain.

11 views

415

135