Техническое задание: Парсер статей для WordPress

Цель проекта

Разработать автономный PHP-скрипт, который автоматически собирает контент с указанных источников, обрабатывает его и публикует в качестве постов в WordPress, минимизируя ручной труд.

Основные функции и требования

1. Парсинг контента

  • Скрипт должен принимать URL статьи с внешнего сайта.
  • Извлекать заголовок (тег title или h1).
  • Извлекать основной текстовый контент статьи, очищая его от рекламы, навигационных элементов, комментариев и другого лишнего HTML-мусора.
  • Находить и извлекать URL главного (основного) изображения статьи.

2. Работа с WordPress

  • Публикация поста через REST API WordPress (wp-json/wp/v2/posts).
  • Загрузка извлеченного главного изображения в медиабиблиотеку WordPress через API.
  • Установка этого изображения как обложки (featured image) для созданного поста.
  • Реализация проверки на дубликаты (например, по заголовку или URL исходной статьи), чтобы избежать повторной публикации одного и того же материала.

3. Технические детали реализации

  • Скрипт должен быть представлен в виде одного готового PHP-файла.
  • Код должен быть написан просто и без излишних усложнений архитектуры.
  • Необходимо предусмотреть возможность автоматического запуска по расписанию (например, с помощью cron на сервере).
  • В коде должны быть четко выделены места для подстановки данных авторизации WordPress (логин, пароль приложения, URL сайта).

4. Результат работы

  • Готовый к использованию PHP-файл.
  • Краткая инструкция по настройке (где прописать учетные данные, как добавить задание в cron).

Ожидаемый результат

Заказчик получает рабочее решение "под ключ", которое после минимальной настройки автоматически наполняет сайт контентом из заданных источников.