Kubernetes: k8s: v1.3.10, gpu를 사용하여 gpu에서 컨테이너를 실행하는 방법은 무엇입니까?

에 만든 2017년 02월 27일 · 3코멘트 · 출처: kubernetes/kubernetes

이제 이 질문에 대해 작업할 시간이 거의 1주일 있습니다. 하지만 나는 실패했다.
환경: redhat7.2
k8s:v1.3.10 cuda:v7.5 커널 버전:367.44 t ensorflow:0.11 gpu:1080
tensorflow 및 k8s를 기반으로 하는 우리 플랫폼。 ML에 대한 교육을 위한 것입니다.
cpu 사용시 정상인데 gpu가 안되는 이유를 알고 싶습니다.
나는 당신이 말한 많은 예를 테스트했지만 여전히 실패했습니다.
내 클러스터: 1 마스터 2 노드. 모든 노드에는 GPU 카드가 있지만 마스터만 없습니다.
먼저 @Hui-Zhi가 말한 것처럼 테스트합니다.

vim  test.yaml
apiVersion: v1
kind: Pod
metadata:
  name: nvidia-gpu-test
spec:
  containers:
  - name: nvidia-gpu
    image: nginx
    resources:
      limits:
        alpha.kubernetes.io/nvidia-gpu: 1

예, 테스트했으며 작동합니다. nvidia-gpu: 1에서 2로 변경하면 실패합니다. 포드 유지 보류 중입니다. 모든 노드에 GPU 카드가 하나만 있기 때문에 노드가 이를 만족시킬 수 없습니다. 제 생각에는 작동하는 것 같습니다.
그러나 질문이 오고 있습니다: GPU에서 실행하는 방법? 이 예는 k8이 gpu를 얻을 수 있고 gpu를 알 수 있음을 증명하지만 어떻게 실행합니까? yaml 파일을 사용하여 GPU 리소스에서 실행되는 하나의 포드를 생성하려면 어떻게 해야 합니까?

그런 다음 다른 방법을 찾았습니다. nvidia-docker
나는 gpu-image: gcr.io/tensorflow/t ensorflow:0.11-gpu 를 풀고 docker, docker run -it ${image} /bin/bash에 따라 mnist.py 데모를 실행합니다.
하지만 실패했다. "CUDA 라이브러리 libcuda.so를 열 수 없습니다. libcuda.so를 찾을 수 없습니다"와 같은 오류가 발생했습니다.
누군가 같은 문제가 발생했는지 여부
그런 다음 누군가가 다음과 같이 말한 것을 발견했습니다. GPU는 nvidia-docker를 사용해야 합니다.
운 좋게도 tensorflow로 설치했습니다. https://www.tensorflow.org/install/install_linux#gpu_support가 말했습니다. nvidia-docker에 따르면 GPU에서 훈련이 실행되고 GPU 메모리가 거의 7g, 거의 70%인 것으로 나타났습니다.
나는 다음과 같이 실행한다: nvidia-docker run -it ${image} /bin/bash
파이썬 mnist.py
예, 작동합니다. 하지만 새로운 질문이 오고 있습니다. cpu에서 실행하려면 docker를 사용해야 하고 gpu에서는 nvidia-docker를 사용해야 합니까? 난 그냥 docker, 아마도 nvidia-docker에서만 gpu에서 실행하지만 k8s에서 gpu를 실행하는 방법.
k8s 컨테이너는 도커를 사용했지만 nvidia-docker는 사용하지 않았으므로 같은 방식으로 이 작업을 수행하려면 어떻게 해야 합니까? 도와주시겠습니까? k8이 gpu를 지원한다는 것을 증명하기 위해 데모나 테스트 yaml이 아닌 k8s에서 gpu를 실행하는 방법을 알고 싶습니다.
당신이 나에게 대답 할 수 있기를 바랍니다, 나는 기다리고 있습니다 ....
감사.

출처

tbchj

😄2

가장 유용한 댓글

방금 테스트했는데 작동했습니다. 이전에 마운트한 볼륨이 잘못되었습니다. 내가 아래와 같이 사용한 새로운 yaml

apiVersion: v1
kind: Pod
metadata:
  name: gpu-test
spec:
  volumes:
  - name: nvidia-driver
    hostPath:
      path: /var/lib/nvidia-docker/volumes/nvidia_driver/367.44
  containers:
  - name: tensorflow
    image: tensorflow:0.11.0-gpu
    ports:
    - containerPort: 8000
    resources:
      limits:
        alpha.kubernetes.io/nvidia-gpu: 1
    volumeMounts:
    - name: nvidia-driver
      mountPath: /usr/local/nvidia/
      readOnly: true

나는 내 문제를 해결, 감사합니다

tbchj 에 2017년 03월 03일

👍3

모든 3 댓글

@tbchj #42116이 이제 병합되었으며 1.6과 함께 출시되어야 합니다.

cmluciano 에 2017년 03월 02일

🎉1

@cmluciano 예, 감사합니다. 아마도 당신이 맞을 것입니다. 방금 # 42116을 완전히 읽었습니다. 필요한 것이있는 것 같습니다.

tbchj 에 2017년 03월 03일

방금 테스트했는데 작동했습니다. 이전에 마운트한 볼륨이 잘못되었습니다. 내가 아래와 같이 사용한 새로운 yaml

apiVersion: v1
kind: Pod
metadata:
  name: gpu-test
spec:
  volumes:
  - name: nvidia-driver
    hostPath:
      path: /var/lib/nvidia-docker/volumes/nvidia_driver/367.44
  containers:
  - name: tensorflow
    image: tensorflow:0.11.0-gpu
    ports:
    - containerPort: 8000
    resources:
      limits:
        alpha.kubernetes.io/nvidia-gpu: 1
    volumeMounts:
    - name: nvidia-driver
      mountPath: /usr/local/nvidia/
      readOnly: true

나는 내 문제를 해결, 감사합니다

tbchj 에 2017년 03월 03일

👍3

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Kubernetes: k8s: v1.3.10, gpu를 사용하여 gpu에서 컨테이너를 실행하는 방법은 무엇입니까?

가장 유용한 댓글

모든 3 댓글

관련 문제