Техническое задание: Разработка OCR-модели для старославянских печатных текстов XVI-XVII веков
Проект направлен на создание специализированной системы оптического распознавания символов для исторических документов. Стандартные OCR-движки не справляются с уникальными особенностями шрифта этого периода, что требует разработки кастомного решения.
Ключевые проблемы для решения
- Сложная типографика: Наличие 10-15 типов надстрочных знаков (диакритики), которые стандартные движки интерпретируют некорректно.
- Особенности набора: Нестандартная раскладка символов и редкие кириллические/греческие графемы.
- Проблемы сегментации: Надстрочные знаки часто определяются системой как отдельная текстовая строка, что ломает логику распознавания.
Обязанности и задачи специалиста
- Подготовка данных: Полуавтоматическая и ручная разметка строк в сканированных изображениях.
- Формирование датасета: Создание и структурирование набора пар «изображение - текстовый эталон» для обучения модели.
- Разработка и тестирование модели: Обучение, валидация и тестирование кастомной OCR-модели с использованием современных фреймворков.
- Оптимизация: Решение проблем, связанных с точной привязкой диакритических знаков к базовым символам.
Требования к экспертизе
Необходим практический опыт в решении аналогичных задач компьютерного зрения и обработки исторических документов. Приветствуется понимание принципов работы современных OCR-движков и опыт адаптации их под нестандартные шрифты и символы.