Разработка OCR-модели для старославянских текстов

В рамках проекта требуется создать и обучить кастомную модель оптического распознавания символов (OCR), адаптированную под специфику старославянских печатных текстов XVI-XVII веков.

Ключевая проблема

Стандартные OCR-движки не справляются с рядом особенностей исторических документов, что требует разработки специализированного решения.

Основные задачи и требования

Обработка и распознавание 10-15 типов надстрочных знаков (титлов, ударений и других диакритических знаков), характерных для старославянской печати.
Работа с исторической типографской вёрсткой и шрифтами.
Настройка или обучение модели на основе фреймворков Kraken или Calamari (или аналогичных).
Обеспечение высокой точности распознавания для дальнейшей цифровой обработки и анализа текстов.
Предпочтение отдаётся специалистам с опытом работы в области компьютерной лингвистики, Digital Humanities или исторической информатики.

Ожидаемый результат

Готовая, протестированная и документированная модель OCR, способная корректно преобразовывать изображения страниц старославянских книг в машиночитаемый текст с сохранением всех надстрочных элементов.

обработка изображений

Разработка OCR-модели для старославянских текстов

Ключевая проблема

Основные задачи и требования

Ожидаемый результат

Оцифровка книг с улучшением качества изображений

Разработка парсера данных из навигационных файлов RINEX

Фотомонтаж с интеграцией модели парусника в интерьер кабинета