Настройка сервера с NVIDIA H100 и torch - Androsov IT

Статья-заметка по настройке сервера с NVIDIA H100.

Предистория

Заказчики дали нам сервер с 10-ю видеокартами NVIDIA H100. ОС AlmaLinux 9.

До этого мы работали на серверах с NVIDIA RTX 4090. При попытке проверить доступность cuda в python с импортированным torch поймали ошибку

Оказалось, для NVIDIA H100 нужно установить NVIDIA Fabric Manager

Вот официальная инструкция https://docs.nvidia.com/datacenter/tesla/fabric-manager-user-guide/index.html

Но продублирую краткую заметку. Наверняка вы уже устанавливали драйвера nvidia-dkms. Установка Fabric Manager реализована через него.

dnf module install nvidia-driver:550-open/fm

1	dnf module install nvidia-driver:550-open/fm

Если у вас уже было что-то из драйверов установлено, используйте команду

dnf module switch-to nvidia-driver:550-open/fm

1	dnf module switch-to nvidia-driver:550-open/fm

После установки, запустите Fabric Manager

systemctl start nvidia-fabricmanager
systemctl enable nvidia-fabricmanager
systemctl status nvidia-fabricmanager

systemctl start nvidia-fabricmanager

systemctl enable nvidia-fabricmanager

systemctl status nvidia-fabricmanager

При просмотре статуса должно быть что-то похожее как на скриншоте