Человек и LLM. Как оценивать качество моделей и строить метрики | Ирина Барская, Яндекс Поиск

Это доклад Ирины Барской, руководителя службы аналитики и исследований в Яндекс Поиске, на Practical ML Conf 2024. В своём выступлении Екатерина рассмотрела важную проблему: почему чем лучше становятся LLM-модели, тем сложнее построить систему оценки их качества. Из доклада узнали, как с этим жить: как строить метрики, какие бенчмарки самые правильные и надёжные, нужны ли нам эксперты и как выстраивать процессы разметки данных. Подписывайтесь на телеграм-канал Яндекса для ML-специалистов:

81 view

106