Техническое задание: Разработка OCR-модели для старославянских печатных текстов XVI-XVII веков

Проект направлен на создание специализированной системы оптического распознавания символов для исторических документов. Стандартные OCR-движки не справляются с уникальными особенностями шрифта этого периода, что требует разработки кастомного решения.

Ключевые проблемы для решения

  • Сложная типографика: Наличие 10-15 типов надстрочных знаков (диакритики), которые стандартные движки интерпретируют некорректно.
  • Особенности набора: Нестандартная раскладка символов и редкие кириллические/греческие графемы.
  • Проблемы сегментации: Надстрочные знаки часто определяются системой как отдельная текстовая строка, что ломает логику распознавания.

Обязанности и задачи специалиста

  1. Подготовка данных: Полуавтоматическая и ручная разметка строк в сканированных изображениях.
  2. Формирование датасета: Создание и структурирование набора пар «изображение - текстовый эталон» для обучения модели.
  3. Разработка и тестирование модели: Обучение, валидация и тестирование кастомной OCR-модели с использованием современных фреймворков.
  4. Оптимизация: Решение проблем, связанных с точной привязкой диакритических знаков к базовым символам.

Требования к экспертизе

Необходим практический опыт в решении аналогичных задач компьютерного зрения и обработки исторических документов. Приветствуется понимание принципов работы современных OCR-движков и опыт адаптации их под нестандартные шрифты и символы.

Настройка автоматического кросс-постинга из Telegram в социальные сети

Требуется создать систему автоматической публикации нового контента из технического Telegram-канала на другие площадки. Автоматизация должна работать через платформу Make (или n8n) и корректно обрабатывать разные типы медиа.