Настройка сервера с NVIDIA H100 и torch

Статья-заметка по настройке сервера с NVIDIA H100.

Предистория

Заказчики дали нам сервер с 10-ю видеокартами NVIDIA H100. ОС AlmaLinux 9.

До этого мы работали на серверах с NVIDIA RTX 4090. При попытке проверить доступность cuda в python с импортированным torch поймали ошибку

Решение

Оказалось, для NVIDIA H100 нужно установить NVIDIA Fabric Manager

Вот официальная инструкция https://docs.nvidia.com/datacenter/tesla/fabric-manager-user-guide/index.html

Но продублирую краткую заметку. Наверняка вы уже устанавливали драйвера nvidia-dkms. Установка Fabric Manager реализована через него.

Если у вас уже было что-то из драйверов установлено, используйте команду

После установки, запустите Fabric Manager

При просмотре статуса должно быть что-то похожее как на скриншоте