Задача
Необходимо разработать систему на базе искусственного интеллекта, которая получает на вход изображение документа в формате JPG, находит все поля, предназначенные для заполнения, и запрашивает у пользователя недостающую информацию. После ввода данных система должна вписать их в указанные поля от руки обычной ручкой, добавить подпись из файла signature.png, и создать финальное изображение, максимально имитирующее сфотографированный на смартфон распечатанный лист бумаги A4.
Ключевые требования
- Автоматический поиск всех полей (например: Дата, Сумма, ФИО, Должность) на изображении документа.
- Вывод вопросов к пользователю: какой именно один параметр указать в каждом найденном поле? Ответы собираются полностью перед заполнением всего документа.
- Заполнение рукописным стилем обычной синей/черной ручкой - чтобы текст выглядел натурально.
- Перенос растровой подписи на правильное место.
- Добавление легкой перспективы и шума: как у реальной фотографии листа, выполненного в формате A4 и лежащего на столе или в руках.
- В результате - 1 финальное изображение JPG с наложенными данными и подписью.
Технические детали
- Модель ИИ: любая подходящая для детекции полей - на базе YOLO, EasyOCR, или нейросеть на собственных размеченных данных.
- Динамические поля: количество, расположение и состав данных отличаются от документа к документу. Исполнитель получает минимальные примеры типов полей (текстовые строки, одиночная подпись).
- Формат входного файла: просто JPG, типичный отсканированный или фотографически документ. Любое разрешение.
- Выходной файл: JPG, разрешение близкое к А4, имитирующий съемку на телефон под небольшим ракурсом (<10 градусов поворота по каждой оси).
- Стартовые варианты оформления: цвет пера, угол наклона почерка и пр. будут регулироваться к одной константе в коде.
Права и ограничения
- Весь код, нейросеть решается на стороне backend (сервер Python, Flask/FastAPI, без использования сторонних платных API под конкретные данные документа).
- Исполнитель не ответчает за правовую приемку синтезированных документов. Но готов предоставить инструмент просто для внутреннего использования.
- Нельзя привязывать сторонние сервисы, внешние чат-боты (например, ChatGPT) для генерации изображений, утечки подписи или сохранения реакции телефона.
- Описываем в одном подробном техзадании весь промпт исполнителю: понять задачу ясно.
Формат результата и оценка
- Рабочий API-метод POST /process, передающий изображение и список имен полей и их человек желаемое 1-1 (полученный такими волнительными вопросами от пользователя).
- Ответ приходит JPG картинка как я API в нескольких форма ке. также доказано годную модель детектирования.
- Доля видимых пропущенных полей - не более 3 на одном бланке.
- Качество наложения текста - score получает оценку close as phisical reality путем визуализации к сравeняше small blind на слом, спбе способов + sign ok 300