Светлана Яцык: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты
За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы.
На заседании клуба 17 мая 2023 мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют.
В частности, на примере платформы eScriptorium мы разберем, как
- готовить данные для тренировки;
- обучать модели и делать их тонкую настройку (fine-tuning);
- оценивать качество транскрипции;
- использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач.
27 views
644
154
10 months ago 00:04:26 64
Л.Н. Толстой. Басня. От чего зло на свете. Читает- Анна Яцык