본문 바로가기

개발

Linux GPU Lost 해결 방법

728x90

Linux(Ubuntu, Centos 등) 에서 GPU 4 개를 이용하여 Deep Learning 을 하다보면 종종 GPU Lost 에러 메세지가 나타나다.

신기하게도 이렇게 GPU Lost 가 발생하여도 Deep Learning 은 계속 진행이 된다. 물론 정말 잘 되고 있는지 확인 하기가 어렵다. 이유는 nvidia-smi 정보가 출력 되지 않기 때문이다.

 

이러한 GPU Lost 문제를 해결 하기 위해서는 다음과 같이 nvidia-persistence 모드를 활성화 해주면 된다.

vi /etc/rc.localnvidia-smi -i 0,1,2,3 -pm ENABLED


이렇게 설정을 하면 확인 은 아래와 같이 하면 된다.

nvidia-smi --query-gpu=pci.bus_id,persistence_mode --format=csv