Описание задачи
Требуется выполнить парсинг официального реестра fp.crc.ru по трём разделам: М, Т, Л. Затем полученные данные (различающиеся по записи, но одинаковые по смыслу) необходимо привести к единому, заранее заданному формату. Задача включает в себя автоматизацию сбора и очистку информации, а также унификацию текстового наполнения.
Основные требования
- Разобрать три целевых раздела реестра.
- Извлечь все доступные записи.
- Сопоставить аналогичные текстовые значения и привести их к одинаковому написанию.
- Убрать упоминания любых сторонних брендов, названий компаний, сайтов, телефонов и адресов электронной почты.
- Результат выдать в виде JSON с чёткой структурой.
- Дополнительно оформить описание как готовый HTML-текст (без стилей, скриптов и тега body).
Формат результата
Готовый ответ должен содержать JSON со следующими полями: title, description, text, theme. Тематика определяется как ‘парсинг’ (автоматический сбор данных).