Техническое задание
Аппаратная платформа
- Процессор: AMD Epyc 9654QS
- ОЗУ: ~300 ГБ, несимметричная конфигурация (планки 16 ГБ и 32 ГБ вместе)
- Диск: NVMe Samsung HHHL корпоративного класса
- BIOS и микрокод ЦП обновлены до актуальных версий
- Установлен дистрибутив Proxmox последней стабильной версии
Виртуальная среда
На сервере запускаются 12 идентичных виртуальных машин под управлением Windows Server. В каждой ВМ установлено 3 экземпляра приложения, каждый работает с 30 потоками. В ресурсной конфигурации каждой машины: 24 ГБ ОЗУ (динамическая память отключена), 16 ядер CPU, NUMA пул = 1. Также имеется ручная привязка ядер ВМ к CCD процессора.
Наблюдаемая проблема
На части ВМ (теоретически полностью клонированных с базовой конфигурацией) происходят стабильные вылеты пользовательского софта с сопутствующими ошибками, связанными с памятью. Оставшаяся половина ВМ работает без сбоев при идентичных настройках приложений (отличается только порядковый номер инстансов).
Поставленная задача
- Провести диагностику проблемных ВМ на предмет нестабильной работы приложений и памяти
- Выявить причину отказов, связанную с конфигурацией Proxmox, NUMA, привязкой ядер или конфигурацией оперативной памяти, а также настройками софта
- Предложить оптимальную конфигурацию виртуализации (ина с распределением CCD, топологией ядер), драйверы и специальные паравиртуализированные параметры (virtio, пасстхру памяти и т.д.)
- Выполнить настройку сервера для достижения стабильной работы всех 12 машин, а также при необходимости проконсультировать заказчика по методике поддержания кластера в высоконагруженном режиме
Дополнительные требования
- Опыт работы с Ryzen/Epyc, Proxmox, Windows Server под прожкой нагрузки в режиме паравиртуализации
- Предоставление пошагового отчета по выполненным работам с итоговой схемой привязки единиц и настройками, рекомендации по дальнейшей эксплуатации
- Контакт/консультация - в рамках переписки или удаленной сессии (по согласованию)