Задача

Написать скрипт для обратного парсинга ИНН по имеющемуся списку юридических лиц (ориентировочно 4800 компаний). Входные данные для каждой записи: наименование компании, сайт, электронная почта, город. Выходные данные: ИНН компании. Все упоминания конкретных фирм, сайтов, телефонов и почт следует исключить.

Требования

  • Использовать язык Python версии 3.8+.
  • Реализовать логику поиска ИНН по заданным реквизитам (например, по комбинации названия и города, сайта и т.д.) с открытых проверенных источников (сервисы ФНС, выписки ЕГРЮЛ/ЕГРИП или сайты-агрегаторы).
  • Обработка ошибок: если по какой-то записи ИНН не найден или данные источника блокируют парсер, реализовать логирование и продолжение обработки.
  • Результат сохранять (предпочтительно связанная структура: исходные поля + поле INN/ИНН) - CSV / JSON на выбор исполнителя или с выгрузкой на гугл-таблицу.
  • Готовый код должен читать входную базу из прилагаемого Excel-файла с анонимными данными (пример во вложении).

Дополнительно

  • Соблюдать регуляторное поле: поиск только по открытым данным, соблюдение частоты запросов, задержки против блокировки.
  • Результаты покрыть статистикой (сколько обработано, сколько найдено ИНН, сколько не найдено).