Цель проекта

Разработка процесса автоматизированной обработки отсканированных старинных книг (около 300 страниц каждая), включающего улучшение качества изображений, точное распознавание текста, транскрипцию и адаптацию на современный русский язык.

Этапы обработки

1. Улучшение изображений

  • Применение ИИ для апскейла (увеличения разрешения) сканов, повышения читаемости без искажения форм букв, переносов строк и структуры страницы.
  • Запрещено изменять или модернизировать символы.

2. OCR-распознавание

  • Использование нескольких OCR-движков с поддержкой церковнославянского и дореформенной кириллицы.
  • ИИ-валидация результатов.
  • Обязательное сохранение строк, переносов и всех знаков оригинального текста.

3. Транскрипция

  • Полное соответствие оригиналу: символ в символ, строка в строку.
  • Формат Unicode.
  • Без исправлений и нормализации текста.

4. Адаптация на современный русский язык

  • Перевод в современную орфографию и пунктуацию.
  • Без художественного перевода.
  • Сохранение исходного смысла текста.

Выходные форматы

  • DOCX или PDF с текстом на современном русском языке.
  • DOCX, PDF или TXT с оригинальной транскрипцией в Unicode.
  • PDF-макет, визуально идентичный оригиналу: сохранение структуры страниц и шрифтов, но с текстом на современном русском языке или в Unicode.

Дополнительные требования

  • Поддержка книг до 500 и более страниц.
  • Пакетная обработка (возможность запуска сразу нескольких книг).
  • Возможность повторного запуска отдельных этапов (например, только OCR или только адаптация).
  • Контроль качества: автоматическая проверка всех страниц + выборочная ручная валидация 5-10% страниц.

Разработка телеграм-бота для кофейни на Python

Требуется создать функционального Telegram-бота для автоматизации заказов в кофейне. Бот должен быть написан на чистом Python и включать админ-панель для управления меню и заказами. Все детали реализации будут обсуждены с выбранным исполнителем.