Статья-заметка по настройке сервера с NVIDIA H100.
Предистория
Заказчики дали нам сервер с 10-ю видеокартами NVIDIA H100. ОС AlmaLinux 9.
До этого мы работали на серверах с NVIDIA RTX 4090. При попытке проверить доступность cuda в python с импортированным torch поймали ошибку
Решение
Оказалось, для NVIDIA H100 нужно установить NVIDIA Fabric Manager
Вот официальная инструкция https://docs.nvidia.com/datacenter/tesla/fabric-manager-user-guide/index.html
Но продублирую краткую заметку. Наверняка вы уже устанавливали драйвера nvidia-dkms. Установка Fabric Manager реализована через него.
1 |
dnf module install nvidia-driver:550-open/fm |
Если у вас уже было что-то из драйверов установлено, используйте команду
1 |
dnf module switch-to nvidia-driver:550-open/fm |
После установки, запустите Fabric Manager
1 2 3 |
systemctl start nvidia-fabricmanager systemctl enable nvidia-fabricmanager systemctl status nvidia-fabricmanager |
При просмотре статуса должно быть что-то похожее как на скриншоте