Цель проекта
Разработка процесса автоматизированной обработки отсканированных старинных книг (около 300 страниц каждая), включающего улучшение качества изображений, точное распознавание текста, транскрипцию и адаптацию на современный русский язык.
Этапы обработки
1. Улучшение изображений
- Применение ИИ для апскейла (увеличения разрешения) сканов, повышения читаемости без искажения форм букв, переносов строк и структуры страницы.
- Запрещено изменять или модернизировать символы.
2. OCR-распознавание
- Использование нескольких OCR-движков с поддержкой церковнославянского и дореформенной кириллицы.
- ИИ-валидация результатов.
- Обязательное сохранение строк, переносов и всех знаков оригинального текста.
3. Транскрипция
- Полное соответствие оригиналу: символ в символ, строка в строку.
- Формат Unicode.
- Без исправлений и нормализации текста.
4. Адаптация на современный русский язык
- Перевод в современную орфографию и пунктуацию.
- Без художественного перевода.
- Сохранение исходного смысла текста.
Выходные форматы
- DOCX или PDF с текстом на современном русском языке.
- DOCX, PDF или TXT с оригинальной транскрипцией в Unicode.
- PDF-макет, визуально идентичный оригиналу: сохранение структуры страниц и шрифтов, но с текстом на современном русском языке или в Unicode.
Дополнительные требования
- Поддержка книг до 500 и более страниц.
- Пакетная обработка (возможность запуска сразу нескольких книг).
- Возможность повторного запуска отдельных этапов (например, только OCR или только адаптация).
- Контроль качества: автоматическая проверка всех страниц + выборочная ручная валидация 5-10% страниц.