Tensorflow: 충돌: convnet을 사용할 때 cuDNN 핸들을 생성할 수 없습니다.

에 만든 2017년 01월 06일 · 145코멘트 · 출처: tensorflow/tensorflow

Tensorflow(GPU)를 성공적으로 가져왔지만 CNN(Convolutional Neural Network)이 포함된 세션을 실행할 때 Python이 다음 메시지와 함께 충돌합니다.

E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

문제는 pip/source에서 설치된 CUDA 툴킷 7.5/8.0과 Tensorflow의 모든 조합에서 지속됩니다. CNN을 사용하지 않는 테스트 세션은 성공적으로 실행됩니다.

웹에서 문제를 검색하여 어떤 관련 GitHub 문제 또는 StackOverflow 스레드를 찾았습니까?

이 문제는 내가 처음으로 언급한 https://github.com/tensorflow/tensorflow/issues/6586 과 유사합니다. 그러나 Mac에서 문제가 발생했기 때문에 별도의 문제를 여는 것이 좋습니다.

환경 정보

운영 체제: macOS 시에라 10.12.2
Xcode 버전 8.2(8C38) (나중에 CUDA 7.5를 시도했을 때 CUDA 7.5가 최신 컴파일러를 지원하지 않았기 때문에 Command Line Tools 버전 7.3.1을 설치했습니다.)
파이썬 3.5.2(아나콘다)

설치된 CUDA 버전: 8.0(초기) 및 7.5 모두 시도(여기에 보고됨, 툴킷만 - 드라이버는 여전히 8.0임)
cuDNN 설치 버전: 5.1(CUDA 버전에 따라 설치가 다름)
( ls -l /path/to/cuda/lib/libcud* 의 출력을 첨부하십시오):

lrwxr-xr-x  1 root   wheel        33  5 Jan 20:33 /usr/local/cuda/lib/libcuda.1.dylib -> /usr/local/cuda/lib/libcuda.dylib
-rwxr-xr-x@ 1 root   wheel      8280 13 Apr  2016 /usr/local/cuda/lib/libcuda.dylib
lrwxr-xr-x@ 1 root   wheel        45 13 Apr  2016 /usr/local/cuda/lib/libcudadevrt.a -> /Developer/NVIDIA/CUDA-7.5/lib/libcudadevrt.a
lrwxr-xr-x@ 1 root   wheel        50 13 Apr  2016 /usr/local/cuda/lib/libcudart.7.5.dylib -> /Developer/NVIDIA/CUDA-7.5/lib/libcudart.7.5.dylib
lrwxr-xr-x@ 1 root   wheel        46 13 Apr  2016 /usr/local/cuda/lib/libcudart.dylib -> /Developer/NVIDIA/CUDA-7.5/lib/libcudart.dylib
lrwxr-xr-x@ 1 root   wheel        49 13 Apr  2016 /usr/local/cuda/lib/libcudart_static.a -> /Developer/NVIDIA/CUDA-7.5/lib/libcudart_static.a
lrwxr-xr-x  1 root   wheel        16  5 Jan 17:14 /usr/local/cuda/lib/libcudnn.5 -> libcudnn.5.dylib
-rwxr-xr-x@ 1 ymfa   staff  58975112 10 Jun  2016 /usr/local/cuda/lib/libcudnn.5.dylib
lrwxr-xr-x@ 1 ymfa   staff        16 10 Jun  2016 /usr/local/cuda/lib/libcudnn.dylib -> libcudnn.5.dylib
lrwxr-xr-x  1 root   wheel        16  5 Jan 17:14 /usr/local/cuda/lib/libcudnn5.dylib -> libcudnn.5.dylib
-rw-r--r--@ 1 ymfa   staff  56392320 10 Jun  2016 /usr/local/cuda/lib/libcudnn_static.a

pip와 소스에서 모두 설치를 시도했습니다. 먼저 바이너리 pip 패키지에서 설치했습니다.

설치한 pip 패키지에 대한 링크:
tensorflow-gpu
python -c "import tensorflow; print(tensorflow.__version__)" 의 출력.
0.12.head

나중에 소스에서 설치했습니다(pip 패키지가 제거됨).

커밋 해시( git rev-parse HEAD )
d67c09d98a576e1fbf2f3609ddb842e53890f31c
bazel version 의 출력
빌드 레이블: 0.4.3-homebrew
빌드 대상: bazel-out/local-opt/bin/src/main/java/com/google/devtools/build/lib/bazel/BazelServer_deploy.jar
빌드 시간: 2016년 12월 22일 목요일 15:20:15 (1482420015)
빌드 타임스탬프: 1482420015
타임스탬프를 int로 빌드: 1482420015

가능하면 최소한의 재현 가능한 예를 제공하십시오.

네트워크를 단순화하고 훈련 데이터를 20개의 이미지와 분류를 위한 2개의 클래스로 줄여 최소한의 예를 만들었습니다. issue.zip 에는 Python 코드와 데이터가 포함되어 있습니다. 하나의 컨볼루션 레이어만 있는 네트워크가 문제 없이 실행되는 것을 발견했기 때문에 두 개의 컨볼루션 레이어를 작성했습니다.

소스에서 컴파일된 CUDA 7.5 및 Tensorflow를 사용하여 전체 로그

I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.7.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcudnn.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcufft.7.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcurand.7.5.dylib locally
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:874] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 650M
major: 3 minor: 0 memoryClockRate (GHz) 0.9
pciBusID 0000:01:00.0
Total memory: 1023.69MiB
Free memory: 740.18MiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 650M, pci bus id: 0000:01:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

pip에서 설치된 CUDA 8.0 및 Tensorflow를 사용하여 전체 로그

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 650M
major: 3 minor: 0 memoryClockRate (GHz) 0.9
pciBusID 0000:01:00.0
Total memory: 1023.69MiB
Free memory: 590.00MiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0: Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 650M, pci bus id: 0000:01:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
E tensorflow/stream_executor/cuda/cuda_dnn.cc:392] error retrieving driver version: Invalid argument: expected %d.%d or %d.%d.%d form for driver version; got ""
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:532] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

awaiting tensorflower builinstall

출처

ymfa

👍30

가장 유용한 댓글

다음은 일시적으로 해결한 방법에 대한 추가 정보입니다. 이러한 문제는 모두 GPU 메모리 할당과 관련이 있으며 보고되는 오류와 아무 관련이 없다고 생각합니다. 이 전에 일종의 메모리 할당 문제를 나타내는 다른 오류가 있었지만 프로그램이 계속 진행되어 결국 모든 사람이 받는 cudnn 오류가 발생했습니다. 가끔 작동한다고 생각하는 이유는 기본 디스플레이와 같은 텐서플로 이외의 다른 용도로 GPU를 사용하는 경우 사용 가능한 메모리가 변동하기 때문입니다. 필요한 것을 할당할 수도 있고 할당할 수 없는 경우도 있습니다.

API에서
https://www.tensorflow.org/versions/r0.12/how_tos/using_gpu/
"기본적으로 TensorFlow는 프로세스에 표시되는 모든 GPU(CUDA_VISIBLE_DEVICES에 따름)의 거의 모든 GPU 메모리를 매핑합니다. 이는 메모리 조각화를 줄여 장치에서 상대적으로 귀중한 GPU 메모리 리소스를 보다 효율적으로 사용하기 위해 수행됩니다."

이 기본 할당이 어떤 식으로든 깨져 이 불규칙한 동작과 특정 상황이 작동하고 다른 상황이 실패하게 되는 것 같습니다.

웹 페이지에 설명된 대로 최소량의 메모리를 할당하고 필요에 따라 확장하도록 TF의 기본 동작을 변경하여 이 문제를 해결했습니다.
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
세션 = tf.Session(구성=구성, ...)

나는 또한 다른 방법을 시도했고 효과가 있는 비율을 실험적으로 선택하여 작동하고 실패할 수 있었습니다. 제 경우에는 약 0.7이 되었습니다.

구성 = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4
세션 = tf.Session(구성=구성, ...)

아직 TF 팀의 누구도 이를 확인하지 않았지만 다른 사람들이 비슷한 행동을 확인할 수 있는지 확인할 가치가 있습니다.

strickon 에 2017년 04월 26일

👍130 ❤39 😄23 🎉20 🚀7

모든 145 댓글

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.so locally
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties:
name: GeForce GTX 1080
major: 6 minor: 1 memoryClockRate (GHz) 1.835
pciBusID 0000:02:00.0
Total memory: 7.92GiB
Free memory: 3.76GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080, pci bus id: 0000:02:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:532] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

CUDA8 및 TF r0.12.1에서와 똑같은 문제를 만났습니다.

EncodeTS 에 2017년 01월 07일

@EncodeTS 방금 첫 번째 게시물에 최소한의 재현 가능한 예를 추가했습니다. 컴퓨터에서 문제가 재현되는지 확인할 수 있습니까? 내 컴퓨터에서는 하나의 컨볼루션 레이어가 작동하지만 두 개의 컨볼루션 레이어가 작동하지 않아 일부 리소스 제한으로 인해 문제가 발생할 수 있다고 생각했습니다.

ymfa 에 2017년 01월 07일

👍1

@ymfa 최소 예제는 MacOS NVidia 750에서 실패하지만 동일한 예제는 Linux/Titan X에서도 작동함을 확인할 수 있습니다.

yaroslavvb 에 2017년 01월 07일

👍3

최소한의 예제는 내 Ubuntu에서 작동합니다. 내가 겪은 문제는 내 컴퓨터에서 발생할 확률이 매우 낮은 것 같습니다.

EncodeTS 에 2017년 01월 08일

같은 문제가 발생했습니다. 그래프는 CPU로 강제 실행될 때 제대로 실행되지만 GPU에서는 충돌합니다.

환경

운영 체제: macOS 10.12.2
GPU: 지포스 GT 750M
TF: 0.12.1(핍 설치)
파이썬: 3.6.0
쿠다: 8.0
cuDNN: 5.1

( ls -l /path/to/cuda/lib/libcud* 출력):

lrwxr-xr-x  1 root  wheel     33 Dec 14 14:25 /usr/local/cuda/lib/libcuda.1.dylib -> /usr/local/cuda/lib/libcuda.dylib
-rwxr-xr-x  1 root  wheel  13504 Dec  2 16:48 /usr/local/cuda/lib/libcuda.dylib
lrwxr-xr-x  1 root  wheel     45 Nov  3 11:40 /usr/local/cuda/lib/libcudadevrt.a -> /Developer/NVIDIA/CUDA-8.0/lib/libcudadevrt.a
lrwxr-xr-x  1 root  wheel     50 Nov  3 11:40 /usr/local/cuda/lib/libcudart.8.0.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudart.8.0.dylib
lrwxr-xr-x  1 root  wheel     46 Nov  3 11:40 /usr/local/cuda/lib/libcudart.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudart.dylib
lrwxr-xr-x  1 root  wheel     49 Nov  3 11:40 /usr/local/cuda/lib/libcudart_static.a -> /Developer/NVIDIA/CUDA-8.0/lib/libcudart_static.a
lrwxr-xr-x  1 root  wheel     47 Dec 14 10:21 /usr/local/cuda/lib/libcudnn.5.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudnn.5.dylib
lrwxr-xr-x  1 root  wheel     45 Dec 14 10:21 /usr/local/cuda/lib/libcudnn.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudnn.dylib
lrwxr-xr-x  1 root  wheel     48 Dec 14 10:21 /usr/local/cuda/lib/libcudnn_static.a -> /Developer/NVIDIA/CUDA-8.0/lib/libcudnn_static.a

예시

@ymfa 가 제공하는 최소 예제는 내 설정에서 실패하고 성공합니다. 다음은 생성된 세 가지 출력입니다.
실패(1)

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.76GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Training...
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:532] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 
Abort trap: 6

실패(2)

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.53GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Training...
E tensorflow/stream_executor/cuda/cuda_blas.cc:372] failed to create cublas handle: CUBLAS_STATUS_NOT_INITIALIZED
W tensorflow/stream_executor/stream.cc:1390] attempting to perform BLAS operation using StreamExecutor without BLAS support
Traceback (most recent call last):
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1021, in _do_call
    return fn(*args)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1003, in _run_fn
    status, run_metadata)
  File "/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/lib/python3.6/contextlib.py", line 89, in __exit__
    next(self.gen)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/errors_impl.py", line 469, in raise_exception_on_not_ok_status
    pywrap_tensorflow.TF_GetCode(status))
tensorflow.python.framework.errors_impl.InternalError: Blas SGEMM launch failed : a.shape=(20, 400), b.shape=(400, 2), m=20, n=2, k=400
     [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Flatten/Reshape, Variable_4/read)]]

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "issue.py", line 52, in <module>
    sess.run(training_operation, feed_dict={x: X, y: Y})
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 766, in run
    run_metadata_ptr)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 964, in _run
    feed_dict_string, options, run_metadata)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1014, in _do_run
    target_list, options, run_metadata)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1034, in _do_call
    raise type(e)(node_def, op, message)
tensorflow.python.framework.errors_impl.InternalError: Blas SGEMM launch failed : a.shape=(20, 400), b.shape=(400, 2), m=20, n=2, k=400
     [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Flatten/Reshape, Variable_4/read)]]

Caused by op 'MatMul', defined at:
  File "issue.py", line 43, in <module>
    logits = SimpleNet(x)
  File "issue.py", line 34, in SimpleNet
    logits = tf.matmul(fc1, fc1_W) + fc1_b
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/ops/math_ops.py", line 1729, in matmul
    a, b, transpose_a=transpose_a, transpose_b=transpose_b, name=name)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/ops/gen_math_ops.py", line 1442, in _mat_mul
    transpose_b=transpose_b, name=name)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/op_def_library.py", line 759, in apply_op
    op_def=op_def)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/ops.py", line 2240, in create_op
    original_op=self._default_original_op, op_def=op_def)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/ops.py", line 1128, in __init__
    self._traceback = _extract_stack()

InternalError (see above for traceback): Blas SGEMM launch failed : a.shape=(20, 400), b.shape=(400, 2), m=20, n=2, k=400
     [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Flatten/Reshape, Variable_4/read)]]

통과하다

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.71GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Training...
Training complete!

axakak 에 2017년 01월 25일

👍4

최근 활동이 없어서 자동으로 닫힙니다. 새로운 정보가 있을 때 문제를 업데이트해 주시면 문제를 다시 열겠습니다. 감사 해요!

aselle 에 2017년 03월 04일

그렇게 빠르지는 않지만 이 충돌도 보입니다. 맥북 프로, 지포스 650. TF v1. 자주 다시 시작해야 하는 jupyter 커널을 통해 실행합니다. 이 그래픽 카드가 너무 약하지 않을까요? op가 동일한 카드를 사용하는 방법을 보면: 가능합니다.

I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.8.0.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcudnn.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcufft.8.0.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcurand.8.0.dylib locally
...
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 650M
major: 3 minor: 0 memoryClockRate (GHz) 0.9
pciBusID 0000:01:00.0
Total memory: 1023.69MiB
Free memory: 870.46MiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 650M, pci bus id: 0000:01:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

colinator 에 2017년 03월 13일

GTX 960m, cudnn5.1.5 및 cuda-8.0.44에서도 동일한 문제가 있습니다.

TheTesla 에 2017년 03월 16일

👍12

centOS, titan X와 동일한 문제가 있습니다.

gururao001 에 2017년 03월 16일

👍2

우분투(14.04) 및 GRID K520(aws g2.2)에 동일한 문제가 있습니다.

BanR 에 2017년 03월 18일

동일한 문제가 있습니다. Windows 10 cudnn 5.1 cuda 8 gtx 1060. 프로그램은 텐서 흐름의 CPU 버전에서 작동하지만 GPU 버전에서도 이와 동일한 오류가 발생합니다.

strickon 에 2017년 03월 28일

👍2

gtx1060, win8.1, cuda8.0.60, cudnn5.0에서도 동일한 문제가 발생했습니다. 안정적인 최신 tensorflow-gpu 야간 빌드(현재 http://ci.tensorflow.org/job/nightly-win/133/) 및 cudnn5.1로 업그레이드되었습니다. 문제 해결됨.

lajos 에 2017년 04월 06일

😕7

동일한 문제가 여기에 있습니다.

TF가 버전 1.0.0이라는 점을 제외하고 아래 나열된 소프트웨어 버전에서 이 문제가 발생했습니다. 그런 다음 TF 1.0.1로 업그레이드했습니다. 같은 프로그램을 한 번 실행했는데 작동했습니다 . 그런 다음 다시 실행했지만 작동하지 않았습니다 . 이전과 동일한 오류가 발생했습니다.

텐서플로우 GPU 1.0.1
맥 OS X 10.12.3
쿠다 8.0.61
CuDNN 5.1
지포스 GT 750M

jake17007 에 2017년 04월 07일

gtx650, 우분투 16.04, CUDA 버전 8.0.61, TF 버전 1.0.0과 동일한 문제가 있음
방금 작동했지만 메모리 부족 경고가 표시됩니다. 그러나 실행 중이었습니다.
이제 전혀 실행되지 않아 동일한 검사 실패: stream->parent()->GetConvolveAlgorithms(&algorithms) 오류가 발생합니다.

dinara92 에 2017년 04월 07일

👍2

gtx 1080 ti, Windows 10, CUDA 버전 8.0.61, TF 버전 1.0.1, 5.1 Cudann, cuda 8.0.61과 동일한 문제가 있음

rtbins 에 2017년 04월 08일

👍1

GPU 사용량을 제한하여 프로그램을 작동시킬 수 있었습니다. 우분투 16.04에서 3GB gtx 1060을 사용하는 제 경우에는 gpu 옵션 per_process_gpu_memory_fraction을 .7로 설정하면 작동합니다. 더 높으면 이러한 오류가 발생합니다.

E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] 확인 실패: stream->parent()->GetConvolveAlgorithms(&algorithms)

tensorflow에 의한 잘못된 오류 보고의 경우일 수 있습니다. 전혀 관련이 없어 보입니다. 이 문제를 더 나은 방식으로 해결하기 위한 단서가 되지 않을까요?

strickon 에 2017년 04월 09일

👍46 🎉30 ❤14 😄8

@zheng-xq 명백한 설정 문제가 있습니까?

drpngx 에 2017년 04월 17일

같은 문제도. 저는 Windows 10, GTX1070, CUDA 8.0, cuDNN 5.1을 사용 중입니다.

E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_NOT_INITIALIZED
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] 드라이버 버전 검색 오류: 구현되지 않음: 커널 보고 드라이버 버전이 Windows에서 구현되지 않음
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM
F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] 확인 실패: stream->parent()->GetConvolveAlgorithms(&algorithms)

Dibel 에 2017년 04월 22일

👍28

누군가에게 도움이된다면 때로는 tf가 다시 제대로 시작되지 않고이 오류가 발생하는 것을 방지하는 좀비 프로세스가 남아있는 것 같습니다. 그들을 죽이면 문제를 해결할 수 있습니다.

serans1 에 2017년 04월 25일

👍26 ❤5 🎉4 😄3

이 기본 할당이 어떤 식으로든 깨져 이 불규칙한 동작과 특정 상황이 작동하고 다른 상황이 실패하게 되는 것 같습니다.

나는 또한 다른 방법을 시도했고 효과가 있는 비율을 실험적으로 선택하여 작동하고 실패할 수 있었습니다. 제 경우에는 약 0.7이 되었습니다.

구성 = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4
세션 = tf.Session(구성=구성, ...)

아직 TF 팀의 누구도 이를 확인하지 않았지만 다른 사람들이 비슷한 행동을 확인할 수 있는지 확인할 가치가 있습니다.

strickon 에 2017년 04월 26일

👍130 ❤39 😄23 🎉20 🚀7

또한 CUDNN_STATUS_NOT_INITIALIZED 오류가 발생합니다. 전체 오류 로그는 다음과 같습니다.

2017-04-26 00:08:57.526234: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:977] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080, pci bus id: 0000:01:00.0)
2017-04-26 00:09:01.111706: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2017-04-26 00:09:01.111805: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] error retrieving driver version: Unimplemented: kernel reported driver version not implemented on Windows
2017-04-26 00:09:01.114040: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-04-26 00:09:01.114232: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

저는 Windows 10, CUDA 8.0, cuDNN 5.1을 사용하고 있습니다. 이것을 피하기 위해 할 수 있는 일이 있습니까? 이전에 다른 tensorflow 테스트를 실행할 수 있었고 잘 작동했지만(conv op 포함) 지금은 이 새로운 테스트에서 작동하지 않습니다...

@serans1 어떤 좀비 프로세스를 말씀하시는 건가요?

이에 대한 해결 방법이 있는지 알려주십시오. 감사합니다!

편집 이것은 초보자 실수 일 수 있지만 다른 사람이 동일한 문제에서 실행되는 경우를 대비하여 여기에 언급하겠습니다.
내 문제는 이미 Jupyter Python Notebook(모든 셀이 이미 실행되어 메모리에 로드됨)의 인스턴스와 GPU 메모리(최소화된 비디오 게임)를 차지하는 다른 프로세스를 실행하고 있다는 것입니다. 따라서 GPU에서 메모리 사용량을 확인했을 때 이미 4GB 이상(50% 이상) 정도였습니다. Jupyter Notebook과 다른 응용 프로그램을 닫고 tensorflow 테스트를 다시 실행했습니다. 이제 모든 것이 원활하게 실행되었습니다. :) 또한 실행하는 동안 최대 GPU 메모리의 90%를 사용한다는 것을 알게 되었고, 따라서 초기 상황에서 사용 가능한 CUDNN이 50% 미만이었을 때 왜 CUDNN을 초기화할 수 없었는지 이해가 됩니다. .

내 실수에 대해 다시 한 번 죄송합니다! 나는 이것을 가지고 놀기 시작하는 단계에 있습니다. :)

vburca 에 2017년 04월 26일

👍11

같은 문제, 그것에 대한 어떤 해결책이 있습니까?

I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:885] 속성이 있는 장치 0을 찾았습니다.
이름: 지포스 GTX 960M
메이저: 5 마이너: 0 memoryClockRate(GHz) 1.176
pci버스ID 0000:01:00.0
총 메모리: 4.00GiB
여유 메모리: 3.35GiB
나는 c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:906] DMA: 0
I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:916] 0: Y
I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:975] TensorFlow 장치 생성(/gpu:0) -> (장치: 0, 이름: GeForce GTX 960M, PCI 버스 ID: 0000:01:00.0)
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:586] /job:localhost/replica:0의 NUMA 노드를 식별할 수 없습니다. /task:0/gpu:0, 기본값은 0입니다. 커널이 NUMA 지원으로 빌드되지 않았을 수 있습니다.
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:385] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_NOT_INITIALIZED
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:392] 드라이버 버전 검색 오류: 권한 거부: 읽기용 드라이버 버전 경로를 열 수 없습니다. : /proc/driver/nvidia/version
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:352] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM
F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:532] 확인 실패: stream->parent()->GetConvolveAlgorithms(&algorithms)

ghost 에 2017년 05월 07일

나는 정확히 같은 문제가 있습니다.
그러나 루트 액세스(sudo 사용)로 코드를 실행할 수 있습니다.
현재 저는 GTX 960과 함께 Ubuntu 16.04에서 작업하고 있습니다.
내 CUDA 버전은 8.0이고 tensorflow 1.01을 사용하고 있습니다.

lazysquid 에 2017년 05월 09일

👍7

윈도우 10 / 텐서플로 1.01
나는 그것을 완벽하게 사용했지만 이제 실수로 같은 오류가 나에게 발생합니다.

이름: 지포스 GTX 1070
메이저: 6 마이너: 1 memoryClockRate(GHz) 1.7715
pci버스ID 0000:03:00.0
총 메모리: 8.00GiB
여유 메모리: 6.68GiB
2017-05-08 21:12:16.103654: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:908] DMA: 0
2017-05-08 21:12:16.105184: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:918] 0: Y
2017-05-08 21:12:16.106710: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:977] TensorFlow 장치 생성 (/gpu:0) -> (장치: 0, 이름: GeForce GTX 1070, PCI 버스 ID: 0000:03:00.0)
2017-05-08 21:12:24.395060: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] cudnn 핸들을 생성할 수 없습니다 : CUDNN_STATUS_NOT_INITIALIZED
2017-05-08 21:12:24.395177: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] 드라이버 버전 검색 오류: 구현되지 않음: 커널 보고 드라이버 버전이 Windows에서 구현되지 않음
2017-05-08 21:12:24.396636: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] cudnn 핸들을 파괴할 수 없습니다 : CUDNN_STATUS_BAD_PARAM
2017-05-08 21:12:24.396846: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] 확인 실패: 스트림- >parent()->GetConvolveAlgorithms(&알고리즘)

Yaredoh 에 2017년 05월 09일

@strickon 의 방법이 저에게

config.gpu_options.allow_growth = 참

juggernaut5k 에 2017년 05월 10일

@strickon 의 제안을 확인하는

https://github.com/awjuliani/DeepRL-Agents/blob/master/Double-Dueling-DQN.ipynb를 실행 중이며 업데이트 블록( The 라인: Q1 = sess.run(mainQN.predict,feed_dict={mainQN.scalarInput:np.vstack(trainBatch[:,3])}) .

(아래에 따라) allow_growth 플래그를 추가하면 이 범프를 극복할 수 있습니다. 코드는 현재 백그라운드에서 실행 중이므로 얼마나 진행되는지 확인할 수 있습니다.

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)

스택:

MacBook Pro, Sierra 10.12.4 실행, NVIDIA GeForce GT 750M 2048MB 일반적으로 1.7GB의 여유 공간이 있습니다.
TensorFlow 1.1 Anaconda 설치 지침 사용.
가상이 아닌 Python 3.6(Anaconda)
쿠다 8 / cuDNN 5

요청에 따라 더 많은 통계를 덤핑하는 것이 좋습니다.

ggranum 에 2017년 05월 11일

👍4

나는 동시에 두 개의 터미널로 작업하고 있었고 같은 문제가있었습니다. 하나의 터미널을 닫아서 해결했습니다.

tnusraddinov 에 2017년 05월 16일

최근 활동이 없어서 자동으로 닫힙니다. 새로운 정보가 있을 때 문제를 업데이트해 주시면 문제를 다시 열겠습니다. 감사 해요!

gunan 에 2017년 06월 17일

@strickon이 제안한 변경 사항을 구현한 후 새로운 정보 로그 세트가 표시되기 시작했습니다.

2017-06-23 04:45:57.156787: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\core\common_runtime\gpu\pool_allocator.cc:247] PoolAllocator: After 3205 get requests, put_count=2333 evicted_count=1000 eviction_rate=0.428633 and unsatisfied allocation rate=0.615289
2017-06-23 04:45:57.156880: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\core\common_runtime\gpu\pool_allocator.cc:259] Raising pool_size_limit_ from 100 to 110
step 0 - loss = 5.632, (19.351 sec/step)

관련이 있는지 확실하지 않습니다.

paddymahoney 에 2017년 06월 23일

여기에 같은 오류가 있습니다.

Windows 10 x86_64, GeForce GTX 970, 드라이버 376.53, Cuda 8.0, cuDNN 5.1., pip의 tensorflow-gpu 1.2.0, python 3.6

웹 사이트의 자습서 섹션에서 기본 예제를 실행하려고 합니다.

https://www.tensorflow.org/tutorials/image_recognition

python classify_image.py

같은 오류가 있습니다.

`
```
(C:\ProgramData\Anaconda3) C:\Users\Locky\Google Диск\MachineLearning\Tensorflow-Tutorials\Repo\models\tutorials\image\imagenet>python classify_image.py
2017-06-25 18:36:32.318287: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 SSE 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.318514: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 SSE2 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.323556: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 SSE3 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.323719: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 SSE4.1 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.323834: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 SSE4.2 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.323930: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 AVX 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.324205: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 AVX2 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.324351: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] TensorFlow 라이브러리 FMA 명령어를 사용하도록 컴파일되지 않았지만 컴퓨터에서 사용할 수 있으며 CPU 계산 속도를 높일 수 있습니다.
2017-06-25 18:36:32.707933: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:940] 발견 속성이 있는 장치 0:
이름: 지포스 GTX 970
메이저: 5 마이너: 2 memoryClockRate(GHz) 1.253
pci버스ID 0000:01:00.0
총 메모리: 4.00GiB
여유 메모리: 3.31GiB
2017-06-25 18:36:32.708332: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:961] DMA : 0
2017-06-25 18:36:32.713764: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:971] 0 : 예
2017-06-25 18:36:32.713991: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:1030] 생성 중 TensorFlow 장치(/gpu:0) -> (장치: 0, 이름: GeForce GTX 970, PCI 버스 ID: 0000:01:00.0)
2017-06-25 18:36:34.854555: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\framework\op_def_util.cc:332] Op BatchNormWithGlobalNormalization은 더 이상 사용되지 않습니다. GraphDef 버전 9에서 작동이 중지됩니다. tf.nn.batch_normalization()을 사용하십시오.
2017-06-25 18:36:35.836895: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\stream_executor\cuda\cuda_dnn.cc:359]를 만들 수 없습니다. cudnn 핸들: CUDNN_STATUS_NOT_INITIALIZED
2017-06-25 18:36:35.837068: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] 드라이버 검색 오류 버전: 구현되지 않음: 커널이 Windows에서 구현되지 않은 드라이버 버전을 보고했습니다.
2017-06-25 18:36:35.841593: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\stream_executor\cuda\cuda_dnn.cc:326]을(를) 파괴할 수 없습니다. cudnn 핸들: CUDNN_STATUS_BAD_PARAM
2017-06-25 18:36:35.841690: F c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\kernels\conv_ops.cc:671] 확인 실패: 스트림->부모()->GetConvolveAlgorithms(&알고리즘)

(C:\ProgramData\Anaconda3) C:\Users\Locky\Google Диск\MachineLearning\Tensorflow-Tutorials\Repo\models\tutorials\image\imagenet>

````

lockywolf 에 2017년 06월 25일

제 경우에는 다른 tensorflow 인스턴스가 GPU를 보유하고 있었기 때문에 이런 일이 발생했습니다. (다른 스크립트가 실행 중입니다.)

더 나은 오류 메시지를 제안할 수 있습니까? "오류: 다른 tensorflow 인스턴스가 실행 중이지만 하나만 지원됩니다."라고 말합니다.

lockywolf 에 2017년 06월 25일

👍6

같은 문제가 있습니다. macOS 10.12.5 GT 750M 2GB 실행

python neural_style.py --content /Users/qinyuhang/Pictures/0.jpeg  --styles IMG_1105.JPG --output 1.out.jpg --iterations 500
2017-07-05 22:16:54.531699: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:857] OS X does not support NUMA - returning NUMA node zero
2017-07-05 22:16:54.532257: I tensorflow/core/common_runtime/gpu/gpu_device.cc:940] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.54GiB
2017-07-05 22:16:54.532435: I tensorflow/core/common_runtime/gpu/gpu_device.cc:961] DMA: 0 
2017-07-05 22:16:54.532461: I tensorflow/core/common_runtime/gpu/gpu_device.cc:971] 0:   Y 
2017-07-05 22:16:54.532471: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
2017-07-05 22:17:07.284016: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
2017-07-05 22:17:44.973549: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Optimization started...
Iteration    1/ 500
2017-07-05 22:17:47.485948: E tensorflow/stream_executor/cuda/cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2017-07-05 22:17:47.485977: E tensorflow/stream_executor/cuda/cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-07-05 22:17:47.485983: F tensorflow/core/kernels/conv_ops.cc:671] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 
[1]    66448 abort      python neural_style.py --content /Users/qinyuhang/Pictures/0.jpeg --styles

qinyuhang 에 2017년 07월 05일

그것을 해결했습니다 (적어도 나를 위해). 오류 메시지는 올바른 문제로 연결되지 않습니다. 2개의 다른 소스에서 이 오류가 발생했습니다.

먼저 ( @lockywolf가 말한 것처럼):
저는 jupyter 노트북을 사용하는데 TF 커널이 GPU 메모리를 해제하지 못하는 경우가 있습니다 .

두번째:
때로는 GPU 메모리에 욕심이 나서 다음과 같이 시도합니다.

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.9)
sess = tf.InteractiveSession(config=tf.ConfigProto(gpu_options=gpu_options))

이것은 내 구성에 치명적이었고 이 오류가 발생하기 시작했습니다. 해결책은 기본 방법 을
sess = tf.InteractiveSession()

체계:

우분투 14.04
지포스 GTX 780
CUDA 드라이버 버전 = 8.0
CUDNN 버전 = 5.1
텐서플로우 버전 = 1.2.1

RawthiL 에 2017년 07월 17일

나는 지금 내 자신의 스크립트를 실행하는 것과 같은 문제가 있습니다.
@lockywolf가 설명한 것과 같은 이유라고 생각합니다.

제 경우에는 다른 tensorflow 인스턴스가 GPU를 보유하고 있었기 때문에 이런 일이 발생했습니다. (다른 스크립트가 실행 중입니다.)

이 오류가 꽤 자주 발생했지만 불규칙했습니다. 그런 다음 @RawthiL 의 리드를 따라 스크립트에 세션을 추가했습니다. 그러나 스크립트를 성공적으로 실행하여 커널을 다시 시작했고 동일한 오류 메시지가 다시 나타납니다. 세션을 열고 GPU를 요청하고 계산이 완료된 후 닫는 솔루션이 있습니까?

건배!

편집하다:
@RawthiL 의 솔루션 옆에 TF 소개를 따랐습니다.

TensorFlow 세션을 만들고 Keras에 등록하는 것으로 시작해야 합니다. 이것은 Keras가 내부적으로 생성하는 모든 변수를 초기화하기 위해 등록한 세션을 사용한다는 것을 의미합니다.
텐서플로를 tf로 가져오기
세션 = tf.Session()
keras에서 백엔드를 K로 가져오기
K.set_session(세션)

GitHubKay 에 2017년 07월 21일

👍1

같은 문제. 하루 종일 이 작업을 수행하기 위해 힘들게 싸웠습니다.

$ ~/neural-style$ python neural_style.py --content ~/Documents/8UhFDcjT.jpg --styles ~/Documents/9odz6-jbngd.png --output ./Documents/Scott.png
2017-07-26 20:57:08.373361: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373397: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373413: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373417: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373421: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.431319: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:893] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2017-07-26 20:57:08.431630: I tensorflow/core/common_runtime/gpu/gpu_device.cc:940] Found device 0 with properties: 
name: GeForce GTX 870M
major: 3 minor: 0 memoryClockRate (GHz) 0.967
pciBusID 0000:01:00.0
Total memory: 2.95GiB
Free memory: 2.53GiB
2017-07-26 20:57:08.431664: I tensorflow/core/common_runtime/gpu/gpu_device.cc:961] DMA: 0 
2017-07-26 20:57:08.431674: I tensorflow/core/common_runtime/gpu/gpu_device.cc:971] 0:   Y 
2017-07-26 20:57:08.431690: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 870M, pci bus id: 0000:01:00.0)
2017-07-26 20:57:11.692616: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 870M, pci bus id: 0000:01:00.0)
2017-07-26 20:57:19.800938: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 870M, pci bus id: 0000:01:00.0)
Optimization started...
Iteration    1/1000
2017-07-26 20:57:20.535515: E tensorflow/stream_executor/cuda/cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2017-07-26 20:57:20.535573: E tensorflow/stream_executor/cuda/cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-07-26 20:57:20.535588: F tensorflow/core/kernels/conv_ops.cc:671] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

jaw-sh 에 2017년 07월 27일

경우에 따라 jupyter 커널 재설정이 작동하지 않는다는 것을 알았습니다. 실제로 jupyterhub를 사용하는 동안 나에게 일어났습니다.
커널을 다시 시작하고 virtualenv를 비활성화했는데 GPU 메모리가 여전히 일부 프로세스에 의해 유지되고 있었습니다. nvidia-smi 명령은 GPU를 사용하는 프로세스가 없다고 말하고 sudo nvidia-smi --gpu-reset -i 0 (0 gpu 코어의 경우)로 재설정하려고 했을 때 다음과 같이 말했습니다.

이 GPU는 다른 프로세스(예: CUDA 응용 프로그램, X 서버와 같은 그래픽 응용 프로그램, nvidia-smi의 다른 인스턴스와 같은 모니터링 응용 프로그램)에서 사용 중이기 때문에 재설정할 수 없습니다. 먼저 이 GPU를 사용하는 모든 프로세스와 시스템에서 실행 중인 모든 컴퓨팅 응용 프로그램을 종료한 다음(다른 GPU에서 실행 중인 경우에도) GPU를 다시 재설정해 보십시오.
이전 오류로 인해 조기 종료됩니다.

그래서 GPU를 잡고 있는 프로세스가 있었고 sudo fuser -v /dev/nvidia* 를 사용하여 찾았는데 실제로 GPU를 잡고 있는 무언가가 있다고 했습니다... python 자체... 죽이고 virtualenv와 jupyter를 다시 실행하면 장난.
이 문제를 해결하는 가장 좋은 방법은 아니지만 다른 모든 옵션이 실패할 때 컴퓨터를 재설정하는 것보다 낫습니다.

RawthiL 에 2017년 07월 27일

같은 문제가 있습니다. GPU는 GTX 1070 및 CUDA 8.0 및 CUDA 8.0용 CUDNN 5.1입니다.

문제는 사용자 코드에 의존하지 않고 하드웨어, Nvidia 또는 Google 소프트웨어 상태에 따라 다릅니다. 이 오류는 언제든지 증가하기 시작할 수 있으며 재부팅하면 동일한 사용자 코드로 수정할 수 있습니다.

dims12 에 2017년 07월 30일

Windows 10, GTX770, CUDA 8.0, CUDNN 5.1, TF-GPU 1.1.0과 동일한 문제로, 장치 드라이버 버전을 어디서 구할 수 있는지 확실하지 않지만 Windows 장치 관리자는 디스플레이 드라이버에 대해 21.21.13.7651을 보고합니다.

connect  84557d348c06492e80ff0304d516367b
2017-08-11 15:51:41.974028: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2017-08-11 15:51:41.974536: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] error retrieving driver version: Unimplemented: kernel reported driver version not implemented on Windows
2017-08-11 15:51:41.974923: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-08-11 15:51:41.975194: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

IanKirwan 에 2017년 08월 11일

connect  84557d348c06492e80ff0304d516367b
2017-08-11 15:51:41.974028: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2017-08-11 15:51:41.974536: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] error retrieving driver version: Unimplemented: kernel reported driver version not implemented on Windows
2017-08-11 15:51:41.974923: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-08-11 15:51:41.975194: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

@ggranum 의 수정 사항이 저에게

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)

IanKirwan 에 2017년 08월 11일

👍1

제 경우에는 NVIDIA GPU 드라이버를 업데이트하여 동일한 문제가 해결되었습니다.

chleibig 에 2017년 08월 15일

👍2

이 문제가 완전히 해결되었습니까? CUDA 8.0 및 cuDNN 5.1이 포함된 Ubuntu 16.04에서 TF 1.3.0을 실행하고 있습니다. Anaconda를 사용하여 패키지를 설치했습니다. 무작위로 4 일 전에 나도이 오류를 경험했습니다.

name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:05:00.0 Total memory: 10.91GiB Free memory: 10.30GiB 2017-09-05 07:47:05.397839: W tensorflow/stream_executor/cuda/cuda_driver.cc:523] A non-primary context 0x30028e0 exists before initializing the StreamExecutor. We haven't verified StreamExecutor works with that. 2017-09-05 07:47:05.401343: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 1 with properties: name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:06:00.0 Total memory: 10.91GiB Free memory: 10.75GiB 2017-09-05 07:47:05.658932: W tensorflow/stream_executor/cuda/cuda_driver.cc:523] A non-primary context 0x2ffe910 exists before initializing the StreamExecutor. We haven't verified StreamExecutor works with that. 2017-09-05 07:47:05.659690: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 2 with properties: name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:09:00.0 Total memory: 10.91GiB Free memory: 10.75GiB 2017-09-05 07:47:05.898536: W tensorflow/stream_executor/cuda/cuda_driver.cc:523] A non-primary context 0x2ffa940 exists before initializing the StreamExecutor. We haven't verified StreamExecutor works with that. 2017-09-05 07:47:05.899294: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 3 with properties: name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:0a:00.0 Total memory: 10.91GiB Free memory: 10.75GiB 2017-09-05 07:47:05.903197: I tensorflow/core/common_runtime/gpu/gpu_device.cc:976] DMA: 0 1 2 3 2017-09-05 07:47:05.903209: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 0: Y Y Y Y 2017-09-05 07:47:05.903215: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 1: Y Y Y Y 2017-09-05 07:47:05.903218: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 2: Y Y Y Y 2017-09-05 07:47:05.903223: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 3: Y Y Y Y 2017-09-05 07:47:05.903236: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:05:00.0) 2017-09-05 07:47:05.903242: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:1) -> (device: 1, name: GeForce GTX 1080 Ti, pci bus id: 0000:06:00.0) 2017-09-05 07:47:05.903248: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:2) -> (device: 2, name: GeForce GTX 1080 Ti, pci bus id: 0000:09:00.0) 2017-09-05 07:47:05.903252: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:3) -> (device: 3, name: GeForce GTX 1080 Ti, pci bus id: 0000:0a:00.0) 2017-09-05 07:47:20.297138: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:05:00.0) 2017-09-05 07:47:20.297190: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:1) -> (device: 1, name: GeForce GTX 1080 Ti, pci bus id: 0000:06:00.0) 2017-09-05 07:47:20.297206: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:2) -> (device: 2, name: GeForce GTX 1080 Ti, pci bus id: 0000:09:00.0) 2017-09-05 07:47:20.297220: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:3) -> (device: 3, name: GeForce GTX 1080 Ti, pci bus id: 0000:0a:00.0) 2017-09-05 07:47:24.845499: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:05:00.0) 2017-09-05 07:47:24.845534: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:1) -> (device: 1, name: GeForce GTX 1080 Ti, pci bus id: 0000:06:00.0) 2017-09-05 07:47:24.845542: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:2) -> (device: 2, name: GeForce GTX 1080 Ti, pci bus id: 0000:09:00.0) 2017-09-05 07:47:24.845548: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:3) -> (device: 3, name: GeForce GTX 1080 Ti, pci bus id: 0000:0a:00.0) 2017-09-05 07:47:34.884524: E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR 2017-09-05 07:47:34.884597: E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM 2017-09-05 07:47:34.884616: F tensorflow/core/kernels/conv_ops.cc:672] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms)

4개의 1080ti GPU가 있습니다. 내 모델을 실행하는 동안 nvidia-smi를 모니터링하고 다음을 얻었습니다.

-------------------------------------------------- ---------------------------+
| 프로세스: GPU 메모리 |
| GPU PID 유형 프로세스 이름 사용법 |
|=================================================== ==============================|
| 0 1422 G /usr/lib/xorg/Xorg 279MiB |
| 0 3530G 컴피즈 195MiB |
| 0 11249 C /home/simon/anaconda3/bin/python 10157MiB |
| 1 11249 C /home/simon/anaconda3/bin/python 10611MiB |
| 2 11249 C /home/simon/anaconda3/bin/python 10611MiB |
| 3 11249 C /home/simon/anaconda3/bin/python 10611MiB |
+---------------------------------------------------------------- --------------------------+

그래서 어떤 이유로 파이썬은 메모리를 낭비하고 있습니다. 물론 이것을 죽이면 내 jupyter 노트북이 죽습니다. 실행 중인 좀비 프로세스가 없습니다. 나는 시도했다.

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.1) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

GPU 사용량을 줄이지 만 여전히 동일한 cuDDN 핸들 오류가 발생합니다. TF를 다시 설치했습니다. 문제에 영향을 미치지 않는 CUDA, cuDNN, Anaconda.

이 오류가 무작위로 발생하는 이유와 해결 방법은 무엇입니까?

SimonWalsh1000 에 2017년 09월 05일

TensorFlow 1.3은 cuDNN 6을 기반으로 구축되었습니다.
cuDNN 설치를 업그레이드하십시오.

gunan 에 2017년 09월 05일

고마워, Gunan - 불행히도 차이가 없습니다. cuDNN 6을 사용하는 경우에도 여전히 cuDNN이 핸들을 생성할 수 없음 오류가 발생합니다. GPUptions를 직접 설정해도 사용되는 GPU 메모리의 양이 줄어들기는 하지만 오류를 방지할 수는 없습니다. GPU 메모리는 Python이 차지하므로 이를 종료하면 Jupyter 노트북이 닫힙니다. 나는 거의 4일 동안 이것에 매달렸고 내가 온라인에서 본 모든 제안을 소진한 것 같습니다. 이것이 TF 1.3 문제일 수 있습니까?

SimonWalsh1000 에 2017년 09월 05일

이것 때문에 미쳐가는 사람들을 위해:

가끔 CUBLAS 오류도 발생했습니다. 그래서 나는 이것을했다 :

cd /usr/local/cuda/samples/7_CUDALibraries/simpleCUBLAS
make
./simpleCUBLAS

CUBLAS를 초기화할 수 없다는 것을 발견했습니다.

그래서 다음에 나는 이것을했습니다 (조언에 따라)

sudo rm -f ~/.nv

그리고 효과가 있었습니다. 건배..... 4일을 낭비했습니다. 이것이 다른 사람을 구하기를 바랍니다.

SimonWalsh1000 에 2017년 09월 05일

👍26 ❤9 🎉9 😄7

@SimonWalsh1000 성공 했습니다!! 감사 해요

mausoomsarkar 에 2017년 09월 18일

홈 경로(Ubuntu의 경우)에서 .theanorc를 확인하고 cnmem을 더 작게 설정합니다.... 아마도 cnmem=0.8일 수 있습니다. 그러면 이제 저에게 효과적이었습니다.

FumingX 에 2017년 09월 20일

GTX 1070이 설치된 Windows 10에서 완벽하게 작동했습니다.
나는 cudnn 7.0.2를 사용하고 있었다
vs 6.0으로 다운그레이드하면 문제가 해결되었습니다.

cuda_8.0.61_win10.exe
cudnn-8.0-windows10-x64-v6.0.zip
python-3.6.2-amd64.exe

여기에 전체 설치 프로세스를 게시했습니다.
http://klaatuveratanecto.com/installing-tensorflow-gpu-windows-10-running-image_retraining/

KlaatuVerataNecto 에 2017년 09월 26일

안녕하세요, 저도 같은 질문을 받았습니다. 그러나 그 이유는 tensorflow를 동시에 두 번 사용했기 때문입니다.

예를 들어, 저는 보통 간단한 스크립트에 Jupyter 노트북을 사용하고 프로젝트에 PyCharm을 사용했습니다. jupyter notebook을 종료하지 않으면 Pycharm에서 이 오류를 만날 수 있습니다.

이것이 도움이 되었으면 합니다.

윈도우10 64,
엔비디아 타이탄X,
드라이버 385.41,
쿠다 8.0.60
쿠던 6.0
파이썬 3.5.2
텐서플로 1.3

salan668 에 2017년 09월 27일

👍1

@strickon에 동의합니다. 메모리 할당 문제인 것 같습니다.
나는 tensorflow 프로그램이 실행되는 노트북을 가지고 있었고 다른 Windows 터미널에서 python + tensorflow를 실행하려고했는데 오류가 발생했습니다. 그런 다음 노트북을 다시 시작하고(GPU 메모리 해제) Windows 터미널에서 Python을 다시 실행하려고 시도했는데 작동했습니다! tensorflow는 사용자에게 더 자세한 설명을 제공하기 위해 더 나은 오류 메시지를 제공해야 한다고 생각합니다.

zenetio 에 2017년 10월 01일

❤1

나는 다음과 함께 Windows 10, cuda 8 및 cudnn 6을 사용하고 있습니다.

이름: 쿼드로 K620
메이저: 5 마이너: 0 memoryClockRate(GHz) 1.124
pci버스ID 0000:01:00.0
총 메모리: 2.00GiB
여유 메모리: 1.66GiB

거의 동일한 단계가 저에게도 효과가 있었지만 그것이 어떻게 작동했는지 거의 이해하지 못합니다. 나는 모든 창을 닫고 pycharm에서 열린 닫힌 python 터미널을 닫습니다. 교육 진행 상황을 표시하고 다시 열고 실행하기 위해 이전에 동일한 프로그램을 실행하여 열린 창을 포함하여 오류 없이 작동합니다. 보고된 이전 오류는 직접적인 단서를 제공하지 않는 것 같습니다 ---

bmiftah 에 2017년 10월 04일

안녕하십니까,
나는 같은 문제가 있었고 sudo로 파이썬을 실행하면 내 문제가 해결되었습니다.

hesamaraghi 에 2017년 10월 23일

@SimonWalsh1000 당신은 나의 영웅입니다!! 그것은 나를 위해 작동합니다!

chunhanl 에 2017년 10월 25일

@hesamaraghi sudo 달리는 것도 도움이 되었습니다. 루트가 아닌 사용자를 nvidia-persistenced 그룹에 추가하여 루트가 아닌 사용자로 실행할 수 있었습니다. 내 원래 의견 참조: https://github.com/tensorflow/tensorflow/issues/14048#issuecomment -340898847

jstastny 에 2017년 10월 31일

Ubuntu 16.04 및 cuda-8.0(GTX1080Ti 포함)에서도 동일한 문제가 발생했습니다. @SimonWalsh1000이 제공한 솔루션이 저에게 완벽하게 효과가 sudo rm -rf ~/.nv/ 로 해결되었습니다). @SimonWalsh1000 덕분에 몇 시간이 걸렸습니다...

chi0tzp 에 2017년 10월 31일

👍4

@SimonWalsh1000 정말 효과가 있습니다. 정말 고마워!

gbc8181 에 2017년 11월 01일

@SimonWalsh1000 부적처럼 작동합니다 감사합니다!!!!

CharlesNord 에 2017년 11월 04일

GTX1070Ti가 설치된 Windows 10, CUDA 8.0, cuDNN 6.1에서도 동일한 문제가 발생했습니다.
이유를 찾았습니다. annconda spyder IDE에서 tensorflow 코드를 실행한 후 annconda 프롬프트에서 다른 tensorflow 코드를 실행했습니다.
스파이더 IDE를 닫아서 해결
@lockywolf 맞습니다

nash100 에 2017년 11월 07일

나는 같은 문제가 있었다. @strickon 의 방법을 시도 CUDA8.0용 cuDNN 6.0을 CUDA8.0 용 cuDNN 7.0으로 업데이트하여 이 문제를 해결했습니다.

시작 시 시스템:

윈도우 10
쿠다8.0
cuDNN6.0
아나콘다3.5(python3.5)
GeForce 840M 메이저: 5 마이너: 0 memoryClockRate(GHz): 1.124
2.00GiB 여유 메모리: 1.66GiB

해결 후 시스템:

윈도우 10
쿠다8.0
cuDNN7.0
아나콘다3.5(python3.5)
GeForce 840M 메이저: 5 마이너: 0 memoryClockRate(GHz): 1.124
2.00GiB 여유 메모리: 1.66GiB

이 문제는 라이브러리 버전과 하드웨어 버전이 일치하지 않아 발생하는 문제일 수 있습니다. @chleibig 도 GPU 드라이버를 업데이트하여 이 문제를 해결합니다. 도움이 될 수 있기를 바랍니다.

ZR-Huang 에 2017년 11월 07일

나를 위해 : config.gpu_options.allow_growth = True tensorflow 세션에서 문제를 해결했습니다.
쿠다 8, TF 1.4, 쿠다 6

kkelchte 에 2017년 12월 05일

👍1

이 문제를 해결하십시오.

sudo rm -rf ~/.nv

civilman628 에 2017년 12월 11일

👎10

같은 질문. 문제를 해결할 해결책이 있습니까?
내 상황은 다음과 같습니다.
이름: 지포스 GTX 1080
총 메모리: 7.92GiB 여유 메모리: 2.50GiB
텐서플로: GPU-1.4.0

나는 하나의 GPU를 테스트하고 있지만 세 개의 tensorflow 인스턴스를 실행하고 있습니다.
내 코드에서 다음과 같이
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.3)
세션 = tf.Session(구성=tf.ConfigProto(gpu_options=gpu_options))

다른 두 개의 tensorflow 인스턴스는 정상적으로 실행되지만 마지막 하나만 실행하면 다음과 같은 오류가 발생합니다.

E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:672] 확인 실패: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo(), 알고리즘(&A)

왜요? gpu 구성이 너무 작습니까? gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.3)
잘 모르겠어. 몇 가지 제안을 원합니다. 내가 해볼게.

tbchj 에 2017년 12월 19일

내 솔루션을 확인하십시오 ....

2017년 12월 19일 08:20에 tbchj [email protected]에서 다음과 같이 썼습니다.

같은 질문. 문제를 해결할 해결책이 있습니까?
내 상황은 다음과 같습니다.
이름: 지포스 GTX 1080
총 메모리: 7.92GiB 여유 메모리: 2.50GiB
텐서플로: GPU-1.4.0
나는 하나의 GPU를 테스트하고 있지만 세 개의 tensorflow 인스턴스를 실행하고 있습니다.
내 코드에서 다음과 같이
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.3)
세션 = tf.Session(구성=tf.ConfigProto(gpu_options=gpu_options))
다른 두 개의 tensorflow 인스턴스는 정상적으로 실행되지만 마지막 하나만 실행됩니다.
다음과 같은 오류:
E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] cudnn을 생성할 수 없습니다.
핸들: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:338]을 삭제할 수 없습니다.
cudnn 핸들: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:672] 확인 실패:
스트림->부모()->GetConvolveAlgorithms( conv_parameters.
ShouldIncludeWinogradNonfusedAlgo() 및 알고리즘)
왜요? gpu 구성이 너무 작습니까? gpu_options = tf.GPUOptions(per_process_gpu_
memory_fraction=0.3)
잘 모르겠어. 몇 가지 제안을 원합니다. 내가 해볼게.
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/tensorflow/tensorflow/issues/6698#issuecomment-352670885 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AJq-HpINYs1Uae6ghIW3qKCD56SUDhFeks5tB3HZgaJpZM4Lc7S1
.

--
최상의
시몬

SLF월시 MD MRCP FFRRCSI
[email protected]

SimonWalsh1000 에 2017년 12월 19일

제 경우에는 배경에서 토치를 실행하고 있었고 동일한 문제가 있습니다.
내 생각에... CUDNN_STATUS_INTERNAL_ERROR는 cudnn을 사용하는 다른 프로그램에서 발생할 수 있습니다.

davinnovation 에 2018년 01월 11일

제 경우에는 ipython 환경에서 cudnn을 실행할 수 있지만 jupyter notebook에서 코드를 실행하려고 하면 동일한 오류 메시지가 나타납니다.

cyy25121 에 2018년 01월 12일

안녕하세요, 저도 같은 문제를 겪고 있으며 지금까지 어떤 제안도 문제를 해결하는 데 도움이 되지 않았습니다.
다음 사양의 Windows 10이 설치된 Asus Zenbook Pro 노트북을 사용하고 있습니다.

imagen

내 GPU 사양은 다음과 같습니다.

imagen

저는 이 튜토리얼을 따르고 있습니다: https://www.tensorflow.org/get_started/mnist/pros, 여기서 1) softmax 회귀 및 2) MNIST 데이터 세트가 있는 다층 CNN을 구현하고 훈련해야 합니다.

내 코드는 MNIST_Tutorial.zip 입니다. zip에는 MNIST_softmax_regression.py 및 MNIST_multilayer_CNN.py의 2개 파일이 있습니다.

1) MNIST_softmax_regression.py를 실행하면 잘 작동합니다.
imagen
보시다시피 GPU가 사용 중이며 튜토리얼에 따르면 최종 정확도는 예상대로 약 92%입니다.

2) 그러나 MNIST_multilayer_CNN.py를 실행하면 파이썬이 충돌합니다.
imagen

이전 제안을 기반으로 2가지 해결 방법을 시도했습니다.

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
with tf.Session(config=config) as sess:

그리고

config = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.8
with tf.Session(config=config) as sess:

두 번째 것은 다음 출력을 생성하지만 그들 중 누구도 작동하지 않았습니다.

imagen

보시다시피, tensorflow는 분명히 성공할 때까지 메모리 할당을 여러 번 시도하지만(CUBLAS_STATUS_ALLOC_FAILED) CUDNN_STATUS_NOT_INITIALIZED 오류가 나타나고 모든 것이 다시 실패합니다.

Btw, 이 지침의 끝에 있는 대체 접근 방식에 따라 tensorflow를 설치했습니다. http://www.python36.com/install-tensorflow-gpu-windows/
imagen

이 CUDA 설치 프로그램을 사용했습니다.
imagen
imagen

그리고 이 .whl 파일을 사용하여 tensorflow를 설치했습니다.
imagen

다음은 python, pip 및 conda에 대한 추가 정보입니다.
imagen

도움을 주시면 감사하겠습니다.
미리 감사드립니다.

PabloMessina 에 2018년 01월 25일

안녕하십니까,
두 개의 다른 컴퓨터에서 동일한 문제에 직면하고 있습니다.

설정 1:
윈도우 10 프로 64비트
GPU 정보
쿠다 8.0
커드 6.0
텐서플로 1.4
파이썬 3.6.4

설정2:
윈도우 10 프로 64비트
GPU 정보
쿠다 8.0
커드 6.0
텐서플로 1.4
파이썬 3.6.2

업데이트가 있습니까?

HeinzBenjamin 에 2018년 01월 26일

위와 매우 유사한 설정을 하고 다음을 실행합니다.

윈도우 10
GPU
텐서플로 1.5
쿠다 9.0.176
커드 7
파이썬 3.6.4, 아나콘다

구성 변경을 시도했지만 여전히 "CUDNN_STATUS_NOT_INITIALIZED" 오류 집합이 표시됩니다.

.nv 폴더에 해당하는 폴더가 Windows에서 어디에 있는지 잘 모르겠어서 @SimonWalsh1000 솔루션을 실행할 수 없었습니다.

@HeinzBenjamin , 성공했습니까?

편집: 여전히 어리둥절합니다. 내가 tensorflow 1.5 및 CUDA 9를 사용하고 있기 때문일 수 있습니까?

lucasdellabella 에 2018년 02월 05일

나는 같은 문제를 만났다.
그러나 CUDA 9.0을 설치한 후 내 드라이버가 최신 버전이 아니라는 것을 알았습니다.
따라서 Nvdia 드라이버를 최신 버전으로 업데이트하고 PC를 다시 시작하십시오. 그것은 나를 위해 작동합니다!

zzhang68 에 2018년 02월 10일

👍9 ❤4

어제 내 코드가 잘 작동했고 오늘 아침에 우분투에 대한 업데이트가 있었고 이제 내 코드가 이것을 생성합니다. 다른 것은 변경되지 않았습니다.

2018-02-11 07:54:57.097712: E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] cudnn 핸들을 생성할 수 없음: CUDNN_STATUS_INTERNAL_ERROR
2018-02-11 07:54:57.097756: E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM
2018-02-11 07:54:57.097767: F tensorflow/core/kernels/conv_ops.cc:667] 검사 실패: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgoithms(), &algor

시스템을 수십 번 재부팅했습니다.
몇 번의 재부팅 후 오류가 다음으로 변경되었습니다.

2018-02-11 07:19:33.487404: I tensorflow/stream_executor/cuda/cuda_dnn.cc:393] 드라이버 버전이 충분하지 않을 수 있습니다. 384.111.0 2018-02-11 07:19:33.487423 cuda_dnn.cc:352] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM 2018-02-11 07:19:33.487439: F tensorflow/core/kernels/conv_ops.cc:667] 검사 실패: stream->parent()->GetCon conv_parameters.ShouldIncludeWinogradNonfusedAlgo() 및 알고리즘)

그러나 390.25로 업그레이드하면 이제 첫 번째 오류가 다시 발생합니다.

내 다른 tensorflow 코드는 잘 작동합니다.

나는 또한 nv 디렉토리를 제거하려고 시도했지만 효과가 없었습니다.

우분투 17.10, GTX 1060 6GB

cameron2018 에 2018년 02월 11일

CUDA 9.0 및 GT 750M이 설치된 Windows 10에서 이 오류가 발생했습니다. config.gpu_options.per_process_gpu_memory_fraction = 0.7을 사용하여 GPU 사용량을 0.7로 제한하여 해결했습니다.

다른 사람이 게시한 것처럼 0.7보다 높은 값은 Python을 충돌시킵니다.

escuccim 에 2018년 02월 15일

또한 삼위일체 오류를 수신한 후:

CUDNN_STATUS_NOT_INITIALIZED
conv_parameters.ShouldIncludeWinogradNonfusedAlgo(), &algorithms)

@zzhang68 의 솔루션을 시도했습니다 ... 9.0이 이전 드라이버를 설치한 후 드라이버를 업데이트했습니다.
_그리고 성공했습니다!_

윈도우 10 | GTX 980 Ti
CUDA 9.0 (구식 드라이버와 함께 제공됨!!!!)
경로의 \cudnn-9.0-windows10-x64-v7\cuda\bin(cudann64_7.dll)

파이썬 3.6 미니콘다
텐서플로우 GPU 1.5.0

cschar 에 2018년 02월 18일

같은 문제에 직면합니다. tf1.5 py2.7 타이탄 x cuda8.
config.gpu_options.allow_growth = True
작동하지

SIAAAAAA 에 2018년 02월 26일

CUDA 9.0 및 GTX 1060이 설치된 Windows 10에서 이 오류가 발생했습니다.
파이썬 3.5
텐서플로우 GPU 1.5.0
쉽게 해결할 수 있는 방법을 찾았습니다. NVIDIA 디스플레이 드라이버를 최신 버전으로 업데이트하고 PC를 재부팅합니다.
그런 다음 작동했습니다!

lwd1132438569 에 2018년 03월 01일

❤2

@SimonWalsh1000 , 정말 저에게 효과적입니다. 감사합니다!

SignalImageCV 에 2018년 03월 05일

@strickon 및 @ggranum 의 솔루션과 드라이버 업데이트가 이 문제를 해결했습니다. 내 생각에 일부 사람들은 필요할 때까지 일부 기능을 축소하는 맞춤형 전원 구성을 가지고 있다고 생각합니다.

npeirson 에 2018년 03월 07일

내 GPU 드라이버를 업데이트하면 이 문제가 해결되었습니다. 내 GPU 드라이버는 2017년 12월이었고 최신은 2018년 2월 26일이었습니다.

이 문제를 방지하려면 올바른 tensorflow, CUDA 버전, cuDNN 버전 및 GPU 드라이버가 필요합니다.

내 사양:
텐서플로 1.6
cuDNN v7.0.4(2017년 11월 13일), CUDA 9.0용(내 TF가 작동하려면 이 버전을 사용해야 함)

xshadowdkx 에 2018년 03월 08일

해결 방법은 다음과 같습니다. CUDA 9.1과 CUDA 9.0을 모두 설치했습니다. 다른 사람들과 마찬가지로 CUDA를 설치한 후(Geforce Experience 프로그램을 통해) GPU 드라이버를 다시 업그레이드해야 했습니다. Keras의 백엔드 TensorFlow는 오늘 날짜 기준으로 CUDA 9.0을 사용하고 있으므로 설치했는지 확인하세요. 그런 다음 https://developer.nvidia.com/rdp/cudnn-download 에서 cuDNN 7.0.5(최신 7.1 버전 아님)를 다운로드한 다음 압축을 풀고 bin, include 등 폴더를 C:\Program에 복사합니다. Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0 폴더. 이제 작동해야 합니다.

neil-119 에 2018년 03월 11일

이 모든 도움에 감사하고 cnDNN-9.1에서 cnDNN-9.0으로 cuCNN을 분해하려고 시도한 후 작동합니다.
내 환경은 Centos7 + CUDA 9.0 + Tensorflow 1.6입니다.

yokisir 에 2018년 03월 16일

Python3.5, 우분투 16.04, tf1.5에서 동일한 오류
GPU 드라이버를 390.42 버전으로 업데이트하면 이 문제가 해결되었습니다.

WongChen 에 2018년 03월 18일

👍1

안녕하세요 여러분,

방금 같은 문제가 발생했습니다.
" E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] cudnn 핸들을 생성할 수 없음: CUDNN_STATUS_INTERNAL_ERRORE tensorflow/stream_executor/cuda/cuda_dnn.cc:352] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAMF tensorflow/core/kernels/conv_ops.cc:605] 확인 실패: stream->parent()->GetConvolveAlgorithms(&algorithms) "

다음으로 해결:
1- NVIDIA Geforce920M 드라이버 업데이트
2- 다음과 같이 tf 세션을 올바르게 설정합니다.
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
세션 = tf.Session(구성=구성)
3- PC 다시 시작

그 후 더 정확한 오류 메시지가 나타납니다.
"cuDNN7.1을 찾았지만 cuDNN7.0이 필요합니다. 업그레이드"

그리고 해결 방법:
나머지(tf,cuda,..)를 cuDNN에 맞게 업그레이드하는 대신 나머지를 충족시키기 위해 cuDNN7.0을 다운그레이드했습니다.
(cuDNN을 7.1에서 7.0.4로 다운그레이드) 잘 작동했습니다.

fkenghagho 에 2018년 03월 18일

👍1

Cnn_Mnist.py를 실행할 때도 이 오류가 발생했습니다.

환경 정보:

Window10 + tensorflow_gpuV1.6 + cudav9.0, cudnnv7.0 + Python3.5(아나콘다) + GeForce 920MX

| NVIDIA-SMI 385.54                 Driver Version: 385.54                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce 920MX      WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   37C    P0    N/A /  N/A |     84MiB /  2048MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     11988      C   ...naconda3\envs\tensorflow_GPU\python.exe N/A      |
+-----------------------------------------------------------------------------+

오류 정보:

2018-03-20 13:38:27.439071: E C:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\35\tensorflow\stream_executor\cuda\cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2018-03-20 13:38:27.443473: E C:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\35\tensorflow\stream_executor\cuda\cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2018-03-20 13:38:27.449591: F C:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\35\tensorflow\core\kernels\conv_ops.cc:717] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms)

모두의 도움을 진심으로 바랍니다 :D

zhangcaocao 에 2018년 03월 20일

필자의 경우(Windows 10) 잘못된 버전의 cuDNN을 사용하여 이 문제가 발생했습니다. TensorFlow의 공식 지침을 철저히 따랐지만 실수로 CUDA 9.1용 버전 7.0.5를 다운로드했고 TF는 명시적으로 CUDA 9.0을 호출했습니다.

cuDNN 실수를 수정하자마자 내 convnet이 작동하기 시작했습니다 💯 👍 🥇 :)

MatthewChatham 에 2018년 04월 08일

👍5

동일한 문제 tf 1.2, cuda 8.0, cudnn 5.1
Nvidia 업데이트된 드라이버

tonmoyborah 에 2018년 04월 12일

글쎄, 나는 cuda에 따라 nvidia 드라이버를 마지막 버전으로 업데이트했으며 작동합니다. 따라서 이 방법을 시도해 볼 수 있습니다.

글쎄, 글쎄. 잘 작동하지 않습니다. 문제가 다시 발생합니다

moorejee 에 2018년 04월 14일

사용: cudnn-9.0-windows10-x64-v7 및 tensorflow-gpu==1.7.0

tutorials\image\imagenet>python classify_image.py
오류와 함께 실패: cudnn 핸들을 생성할 수 없음: CUDNN_STATUS_INTERNAL_ERROR

위의 ggranum에서 세 줄의 코드를 추가하면 문제가 해결됩니다.

johnmcge 에 2018년 04월 18일

👍1

나에게 문제는 잘못된 cudnn lib를 사용하는 것이었습니다.
cuda 9.0이 있을 때 cuda 9.1에 cudnn을 사용했습니다. 그래서 cuda 9.0용 cudnn을 다시 설치했는데 모든 것이 작동했습니다.

Vozf 에 2018년 04월 22일

👍1

Win10/Anaconda3/tf-1.3/keras-2.1.3에서 동일한 문제가 발생했습니다.
내 문제를 해결하는 .py 파일의 맨 처음에 다음 코드를 추가하십시오.

from __future__ import print_function, division
import tensorflow as tf
from keras.backend.tensorflow_backend import set_session  
config = tf.ConfigProto()  
config.gpu_options.allow_growth = True  
set_session(tf.Session(config=config))

Codersadis 에 2018년 04월 24일

👍3 🎉1

@serans1
이것은 나를 위해 작동합니다 :)

Bgrswxs 에 2018년 04월 25일

@zzhang68 감사합니다. 귀하의 솔루션이 저에게 효과적이었습니다.

Nuhoisen 에 2018년 04월 27일

파일 시작 부분에 이것을 추가하면 저에게 효과적이었습니다.

구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
세션 = tf.Session(구성=구성)

sayfee 에 2018년 05월 15일

👍7

GTX 1070. 이 문제가 발생했습니다. 내 드라이버는 2017년에 마지막으로 업데이트되었습니다. 최신 드라이버로 업데이트하고(2018년 5월) 컴퓨터를 재설정하고 문제가 더 이상 발생하지 않습니다. 도움이 되었기를 바랍니다

yacineMTB 에 2018년 05월 28일

@zzhang68 솔루션에서도 저에게
Ubuntu16.04, tensorflow1.7, nvidia1080, cuda9.0, cudnn7.05.
드라이버를 390.59로 업데이트한 후 문제가 사라졌습니다.

Qiaoxl 에 2018년 05월 30일

tensorflow cpu를 사용하는 win10의 또 다른 옵션... 시도

def run_inference_for_single_image(이미지, 그래프):
graph.as_default() 사용:
구성 = tf.ConfigProto(
device_count = {'GPU': 0}
)
tf.Session(config=config)을 세션으로 사용:

amit-dp 에 2018년 06월 12일

@lwd1132438569 어떤 "최신 버전"을
시도하고 싶지만 tensorflow가 지금 '최신' 버전을 지원하지 않을 것 같습니다....
감사1

uathena1991 에 2018년 06월 20일

@vburca 정말 감사합니다. 다른 jupyter 노트북을 사용하면 GPU 메모리를 사용하게 될 줄은 몰랐습니다. 정말 감사합니다!!!

RolandOne 에 2018년 06월 28일

나는 같은 문제에 직면했다. 내 경우에는 tensorflow의 버전을 다운 그레이드했으며 내 응용 프로그램에서 작동했습니다.

hugolimachaves 에 2018년 08월 07일

나는 같은 문제를 발견했다. 제 경우 그 이유는 시스템 메모리 부족이었습니다. 다른 앱 실행을 완료했을 때 그 문제는 사라졌습니다.

drproy2k 에 2018년 08월 29일

2018-09-03 22:50:26.576765: E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2018-09-03 22:50:26.576831: E tensorflow/stream_executor/cuda/cuda_dnn.cc:360] Possibly insufficient driver version: 390.77.0
[1]    8515 segmentation fault (core dumped)  python3 training.py

GTX1070
쿠다9.0
CUDA9.0용 CUDNN7.1
텐서플로우 1.10.1
hello world와 같은 간단한 tensorflow를 문제 없이 실행합니다.
왜 이런 일이 발생하는지 알 수 있는 곳이 없습니다.............

jinfagang 에 2018년 09월 03일

👍5

확실히 cuda 관련 메모리 문제, 다른 모든 cuda 관련 프로세스를 종료하고 문제를 해결해야 하는 모델을 학습/테스트하십시오.

belesemu 에 2018년 09월 07일

@drproy2k 솔루션은 저에게도 효과적인 것 같습니다. 문제는 제가 keras로 다른 jupyter 노트북 인스턴스를 실행 중이었고 Pycharm에서 keras 교육을 실행하려고 했다는 것입니다. 따라서 단순히 jupyter 노트북을 닫고 이 프로세스를 종료하면 이 문제가 해결됩니다.

Dimitrioum 에 2018년 09월 17일

[해결] 제 경우에는 CUDA v9.2 및 해당 cuDNN을 설치했지만 tensorflow에 필요한 CUDA v9.0 전용 cuDNN을 올바르게 설치하지 않았습니다.

https://developer.nvidia.com/rdp/cudnn-archive 에서 올바른 버전의 cuDNN을 다운로드했는지 확인하십시오.

여기에서 나온 것이 아닙니다 : https://developer.nvidia.com/cudnn

dipendave 에 2018년 09월 20일

황금 트릭, 모든 것을 다시 시작하는 것이 저에게 효과적이었습니다.

spencerpomme 에 2018년 09월 24일

Restart 가 나에게도 속임수를 썼습니다 👍
(하지만 왜 이런 일이 일어나는지에 대한 설명은 정말 좋을 것입니다)

gaborvecsei 에 2018년 09월 27일

cuDNN

나는 같은 문제에 직면했다. 컨볼루션 레이어가 있는 모델은 작동하지 않습니다.
CUDA 9.0용 cuDNN 버전 7.0을 다운로드했습니다. cudnn64_7.dll 파일을 교체한 후 번거로움 없이 convnet을 사용할 수 있습니다.

문제를 일으키는 DLL 버전=> 6.14.11.9020
문제를 해결한 DLL 버전=> 6.14.11.9000
Tensorflow GPU 버전=>
쿠다 버전=> 9.0
파이썬 버전=> 3.5
OS=> 윈도우 10
기타 단계=> PATH 변수에 추가할 BAT 파일을 만든 다음 /k 옵션을 사용하여 CMD.EXE를 시작합니다.
모두 감사합니다.

sdg002 에 2018년 10월 11일

GPU 사용량을 제한하여 프로그램을 작동시킬 수 있었습니다. 우분투 16.04에서 3GB gtx 1060을 사용하는 제 경우에는 gpu 옵션 per_process_gpu_memory_fraction을 .7로 설정하면 작동합니다. 더 높으면 이러한 오류가 발생합니다.
E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] cudnn 핸들을 파괴할 수 없습니다: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] 확인 실패: stream->parent()->GetConvolveAlgorithms(&algorithms)
tensorflow에 의한 잘못된 오류 보고의 경우일 수 있습니다. 전혀 관련이 없어 보입니다. 이 문제를 더 나은 방식으로 해결하기 위한 단서가 되지 않을까요?

좋습니다. gpu_memory_fraction을 0.8에서 0.7로 낮추면 작동하기 시작합니다!

QrPhoenix 에 2018년 10월 20일

🚀1 👍1

실수로 tensorflow-gpu 를 버전 1.6.0에서 1.18.0으로

이것이 내 문제에 대한 해결책이었습니다.

https://stackoverflow.com/questions/50622525/ which-tensorflow-and-cuda-version-combinations-are-compatible

이러한 종류의 문제에 직면하기 시작할 때마다 NVIDIA 종속성을 업그레이드하기 전에 항상 tensorflow 버전을 제거하고 먼저 CUDA 종속성과 호환되는 버전을 설치하여 문제를 해결하십시오.

1단계: tensorflow 패키지 버전을 확인합니다. GPU가 있는 경우 충돌을 피하기 위해 tensorflow의 CPU 버전을 제거하는 것이 좋습니다.

pip list | grep tensorflow

2단계: tensorflow-gpu 제거.

pip uninstall tensorflow

3단계: CUDA 및 cuDNN 버전을 확인합니다. 이러한 경로를 조정해야 할 수도 있습니다.

-- 쿠다
cat /usr/local/cuda/version.txt
이것이 실패하면 다음을 사용하여 cuda 버전 텍스트 파일을 찾으십시오.
sudo find / -name version.txt

-- cuDNN
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
실패할 경우 다음을 사용하여 cuda 버전 텍스트 파일을 찾으십시오.
sudo find / -name cudnn.h

4단계: tensorflow-gpu, cuda 및 cudnn 버전이 이 표와 일치하는지 확인합니다.

제 경우에는 다른 요구 사항을 충족하기 위해 tensorflow-gpu 1.6.0 이 필요했습니다.

그래서 다음을 사용하여 이 버전을 설치했습니다.
pip install tensorflow-gpu==1.6.0
이것이 작동한 사양입니다!

운영 체제: 우분투 16.04
쿠다 버전: 9.0, V9.0.176
cuDNN 버전: 7.0
Tensorflow-gpu 버전: 1.6.0
파이썬 버전: 3.5.0

행운을 빕니다!

ruifgmonteiro 에 2018년 10월 21일

👍8 ❤5 🎉3 👎1

제 경우에는 VS 코드에서 다른 코드를 실행하기 시작할 때 jupyter 노트북을 닫는 것을 잊었습니다. Close jupyter notebook이 문제를 해결했습니다.

mingyuw 에 2018년 11월 01일

👍1

나는이 같은 문제에 직면했다.
제 경우에는 네트워크를 훈련하는 동안 Jupyter 노트북을 실행하고 있었습니다.
Jupyter 노트북을 닫으면 문제가 해결되었습니다.

(내 GPU 요구 사항이 너무 높은 작업을 수행해야 할 수도 있습니다.)

도움이 되었기를 바랍니다!

RoytenBerge 에 2018년 11월 05일

👍1

안녕하세요, 여러분, 저는 같은 문제에 직면했습니다. win10 tensorflow-gpu1.8.0 cuda 9.0 NVIDA gtx1050Ti를 사용하여 cudann 버전을 7.0에서 7.1로 변경하면 문제가 해결되었습니다.

yearfreeze 에 2018년 11월 14일

오늘 같은 문제에 직면했습니다(gtx1080, cuda 9.2, tfversion = 1.12.0). 그래서 제 경우에는 Jupyter notebook 을 실행하고 있었고 다른 스크립트를 실행하려고 시도했는데 그 때 오류가 발생했습니다. 해결된 것은 @RoytenBerge가 말했듯이 jupyter 커널을 종료하는 것입니다.

bhowmiks 에 2018년 11월 21일

스크립트 @Codersadis의 시작 부분에 이러한 코드 줄을 추가할 때 저에게 효과적이었습니다.

내 문제를 해결하는 .py 파일의 맨 처음에 다음 코드를 추가하십시오.

__future__에서 import print_function, 나눗셈
텐서플로를 tf로 가져오기
keras.backend.tensorflow_backend에서 set_session 가져오기
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
set_session(tf.Session(구성=구성))

Simonhong111 에 2018년 11월 25일

👍8

그리고 감사합니다@Codersadis

Simonhong111 에 2018년 11월 25일

@drproy2k 감사합니다. 저에게도

suho0515 에 2018년 11월 26일

이 오류는 RAM 메모리 문제로 인한 것입니다. DDR3 또는 DDR4 RAM을 32GB 또는 64GB로 늘릴 것을 제안합니다.
또한 추론되는 데이터의 양/크기를 줄이십시오.

GPU가 아닙니다. SLI에 2개의 X 1080Ti 카드가 있습니다.

jameswan 에 2018년 11월 26일

이 문제를 해결하기 위해 버전 설치 가이드를 따랐습니다.
https://www.tensorflow.org/install/source#tested_source_configurations. 호환 가능한 구성:-
TF 1.12
TF GPU 1.9
쿠다 8

Swapneel7 에 2018년 12월 01일

GeForce GTX 970, CUDNN 7.4.1, CUDA 9.0.176, TF-gpu 1.12.0과 동일한 문제

yuwen-yan 에 2018년 12월 04일

conda 환경 내에서 커뮤니티 지원 버전의 tensorflow를 사용할 때도 동일한 문제에 직면했습니다(예: > conda install tensorflow-gpu 사용)

이 버전이 모든 상황에서 실제로 좋지 않다는 것이 밝혀졌습니다(다른 컴퓨터에서 사용하고 있음에도 불구하고). 사용하기에 가장 좋은 버전은 conda 환경 내에서 pip 설치 가능 버전 https://www.tensorflow.org/install/pip 입니다. 내가 이것을했을 때 모든 것이 작동했습니다.

kheffah 에 2018년 12월 17일

👍1

현재 설치한 CUDA 9.0과 함께 CUDNN 라이브러리의 Cuda 10.0 버전이 설치되어 있다는 사실을 몰랐습니다. V10 CUDNN을 다운로드하여 V9.0 CUDNN으로 교체하면 모든 것이 제대로 작동했습니다!
이것은 올바르게 설치하지 못한 것의 간과였으며, 되돌아보면 이유를 알 수 있습니다... 여기까지 했고 실험에 지쳤으면 https://aaronjencks.blogspot에 블로그 게시물을 작성했습니다

iggy12345 에 2018년 12월 21일

@kheffah 는
GPU GT 840M, 컴퓨팅 호환 5.0, CUDA 9, cuDNN 7.4.2, TF 1.12.0. 윈도우 8 x64

테스트 코드는 잘 실행됩니다.

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
c = tf.matmul(a, b)

이것은 스파이더의 오류입니다. 이미 메모리 0.7과 성장 트릭을 시도합니다. 불운

classifier.fit_generator(training_set,
                    steps_per_epoch=32,
                    epochs=25,
                    verbose=1,
                    validation_data=test_set,
                    validation_steps=6.25)
Epoch 1/25
Traceback (most recent call last):

  File "<ipython-input-4-6d704090deaf>", line 11, in <module>
    validation_steps=6.25)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\legacy\interfaces.py", line 91, in wrapper
    return func(*args, **kwargs)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", line 1418, in fit_generator
    initial_epoch=initial_epoch)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training_generator.py", line 217, in fit_generator
    class_weight=class_weight)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", line 1217, in train_on_batch
    outputs = self.train_function(ins)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", line 2715, in __call__
    return self._call(inputs)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", line 2675, in _call
    fetched = self._callable_fn(*array_vals)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\client\session.py", line 1439, in __call__
    run_metadata_ptr)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\framework\errors_impl.py", line 528, in __exit__
    c_api.TF_GetCode(self.status.status))

UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above.
     [[{{node conv2d_1/convolution}} = Conv2D[T=DT_FLOAT, _class=["loc:@training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter"], data_format="NCHW", dilations=[1, 1, 1, 1], padding="VALID", strides=[1, 1, 1, 1], use_cudnn_on_gpu=true, _device="/job:localhost/replica:0/task:0/device:GPU:0"](training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter-0-TransposeNHWCToNCHW-LayoutOptimizer, conv2d_1/kernel/read)]]
     [[{{node loss/mul/_91}} = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/device:CPU:0", send_device="/job:localhost/replica:0/task:0/device:GPU:0", send_device_incarnation=1, tensor_name="edge_609_loss/mul", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:CPU:0"]()]]

maxiwu 에 2019년 01월 03일

텐서플로 1.7로 전환

2019년 1월 3일 목요일 19:29 maxi.wu < 알림 @github.com 작성:

@kheffah https://github.com/kheffah conda 내에서 동일한 문제가 있습니다.
TF와 Keras를 설치하기 위해 이미 pip를 사용하고 있습니다.
GPU GT 840M, 컴퓨팅 호환 5.0, CUDA 9, cuDNN 7.4.2, TF 1.12.0.
윈도우 8 x64
테스트 코드는 잘 실행됩니다.
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], 모양=[2, 3], 이름='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], 모양=[3, 2], 이름='b')
c = tf.matmul(a, b)
이것은 스파이더의 오류입니다. 이미 메모리 0.7과 성장 트릭을 시도합니다.
불운
classifier.fit_generator(training_set,
steps_per_epoch=32,
신기원 = 25,
장황하다=1,
validation_data=test_set,
validation_steps=6.25)
신기원 1/25
역추적(가장 최근 호출 마지막):
파일 "", 11행,
validation_steps=6.25)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\legacy\interfaces.py", 줄 91, 래퍼
return func( args, * kwargs)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", 1418행, fit_generator
initial_epoch=initial_epoch)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training_generator.py", 217행, fit_generator
class_weight=class_weight)
"c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py" 파일, 1217행, train_on_batch
출력 = self.train_function(ins)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", 라인 2715, __call__
반환 self._call(입력)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", 라인 2675, _call
가져온 = self._callable_fn(*array_vals)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\client\session.py", 라인 1439, __call__
run_metadata_ptr)
파일 "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\framework\errors_impl.py", 라인 528, __exit__
c_api.TF_GetCode(self.status.status))
UnknownError: 컨볼루션 알고리즘을 가져오지 못했습니다. 이는 cuDNN이 초기화되지 않았기 때문일 수 있으므로 위에 경고 로그 메시지가 인쇄되었는지 확인하십시오.
[[{{노드 conv2d_1/convolution}} = Conv2D[T=DT_FLOAT, _class=[" loc:@training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter "], data_format="NCHW", 팽창=[1, 1 , 1, 1], 패딩="유효한", strides=[1, 1, 1, 1], use_cudnn_on_gpu=true, _device="/ 작업:localhost/복제 :0/ 작업:0/장치 : GPU:0 " ](교육/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter-0-TransposeNHWCToNCHW-LayoutOptimizer, conv2d_1/kernel/read)]]
[[{{노드 손실/mul/_91}} = _Recv[client_terminated=false, recv_device="/ 작업:localhost/복제본 :0/ 작업:0/장치 : CPU:0 ", send_device="/ 작업:localhost/ 복제 :0/ 작업:0/장치 : GPU:0 ", send_device_incarnation=1, tensor_name="edge_609_loss/mul", tensor_type=DT_FLOAT, _device="/ 작업:localhost/복제 :0/ 작업:0/장치 : CPU :0 "]()]]
—
당신이 댓글을 달았기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/tensorflow/tensorflow/issues/6698#issuecomment-451079405 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/ABE215xY0OhbFjA_GhVtEIDl_IB4qQGmks5u_b9NgaJpZM4Lc7S1
.

jameswan 에 2019년 01월 03일

win10 시스템에서 동일한 문제가 발생했습니다. 그러나 그것은 메모리 문제로 밝혀졌습니다. 거대한 메모리 리소스를 소비하는 다른 실행 중인 앱을 종료하고 시도하십시오.

xhm1014 에 2019년 01월 14일

나는 Windows 10 NVIDIA GEFORCE GTX 1050에서 비슷한 문제가 있었고 다른 모든 실행 중인 작업을 닫고 위의 하자마자 내 코드가 그렇게 실행되기 시작했습니다. 나는 이것이 메모리와 관련된 문제 일 것이라고 생각합니다.

ndesamuelmbah 에 2019년 01월 18일

확실히 메모리와 관련이 있습니다. RAM을 최대 64GB로 업그레이드해야 합니다.

2019년 1월 18일 금요일 오후 5시 30분에 Samuel Nde [email protected]에서 다음과 같이 썼습니다.

Windows 10 NVIDIA GEFORCE GTX 1050에서 비슷한 문제가 있었고 곧
다른 모든 실행 중인 작업을 닫고 @xhm1014에서 제안한 대로 다시 시도했습니다.
위의 https://github.com/xhm1014 에서 내 코드는 다음과 같이 실행되기 시작했습니다.
저것. 나는 이것이 메모리와 관련된 문제 일 것이라고 생각합니다.
—
당신이 댓글을 달았기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/tensorflow/tensorflow/issues/6698#issuecomment-455441208 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/ABE217cdDKUuRtdD9jJ_eh2tJWrm2fjeks5vEWnwgaJpZM4Lc7S1
.

jameswan 에 2019년 01월 19일

나는 오류가 있었고 Jupyter의 여러 인스턴스를 닫고 다른 응용 프로그램을 닫아 '고정'했습니다. 나는 일반적으로 tensorflow로 작업하는 것이 처음이므로 이것이 내 문제만 해결했을 가능성이 큽니다.

ThomasWarnasch 에 2019년 02월 15일

E tensorflow/stream_executor/cuda/cuda_dnn.cc:353] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_INTERNAL_ERROR

cuda를 사용하여 소스에서 컴파일된 10.1 Cuda+cuDNN7.5 및 TF 1.11에서 이 문제가 발생했습니다. 사용하려는 스크립트는 다음 행을 어딘가에 삽입해야 했습니다.
config = tf.ConfigProto() config.gpu_options.allow_growth = True

그리고 나중에:
sess = tf.Session(graph=detection_graph,config=config)

이렇게 하면 많은 "GPU 메모리 부족 오류"가 발생하지만 GPU를 사용할 때 예상대로 매우 빠르게 감지가 진행됩니다. 공유해 주셔서 감사합니다!

kl3eo 에 2019년 03월 05일

👍2

나는 같은 문제에 직면했습니다. 그리고 아래 줄을 사용하여 해결했습니다. 여기 에서 세부 정보를 확인
내보내기 LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/extras/CUPTI/lib64

HenryChanhy 에 2019년 03월 10일

@EncodeTS 방금 첫 번째 게시물에 최소한의 재현 가능한 예를 추가했습니다. 컴퓨터에서 문제가 재현되는지 확인할 수 있습니까? 내 컴퓨터에서는 하나의 컨볼루션 레이어가 작동하지만 두 개의 컨볼루션 레이어가 작동하지 않아 일부 리소스 제한으로 인해 문제가 발생할 수 있다고 생각했습니다.

사실 저는 macOS가 아닌 Ubuntu 18.04에서 작업하고 있지만 일부 리소스 제한으로 인해 발생했을 수 있습니다. GTX 1050 ti(4GB)에서 동일한 문제에 직면했지만 GTX 1080 ti(11GB)에서 동일한 아키텍처를 실행하면 문제가 사라졌습니다. 두 시스템의 모든 환경이 같지는 않지만 도커 컨테이너를 활용하여 최선을 다했습니다.

sungwonida 에 2019년 04월 05일

이 문제는 일반적으로 cuda 및 GPU 메모리 버전과 관련이 있습니다. 이전의 경우 가장 쉬운 방법은 Anaconda에서 cuda 버전을 변경하는 것입니다! 나중에 다른 답변에서 해결할 수있는 몇 가지 방법을 찾을 수 있습니다.
이 문제는 일반적으로 비디오 메모리 및 cuda 버전과 관련이 있습니다. 위의 GPU 메모리 변경 방법이 유효하지 않은 경우 cuda 버전 변경을 고려하십시오. 가장 쉬운 방법은 시스템에 설치되어 있는 cuda 버전에 대해 걱정하지 않고 바로 아래 Anaconda의 프로젝트 환경 cuda 버전을 수정하기만 하면 pro-test가 유효합니다.

woshidandan 에 2019년 04월 16일

👍2 😄1

이 문제가 계속 발생하면 다음을 시도하십시오. 그것은 나를 위해 일했다
tf.config.gpu.set_per_process_memory_growth(True); tf.config.gpu.set_per_process_memory_fraction(0.4);

텐서플로 2 알파
쿠다 10.0
GTX 1650

pathnirvana 에 2019년 06월 06일

비슷한 문제가 있습니다: CUDNN_STATUS_ALLOC_FAILED.
3~4시간 동안 머리가 깨졌다. 마지막으로 수정했습니다.
이것은 많은 사람들이 위에서 언급했듯이 실제로 작동합니다.
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
세션 = tf.Session(구성=구성)

그러나 핵심은 내가 하지 않은

nayash 에 2019년 06월 15일

👍6

tensorflow-gpu 버전에 문제가 있을 수 있습니다. 자신의 버전을 몇 번이고 다시 시도하고 제거하고 설치해야 합니다. tensorflow-gpu 해당 버전 번호를 찾은 다음 제거하고 다시 설치합니다.

liuzc188 에 2019년 07월 06일

스크립트 @Codersadis의 시작 부분에 이러한 코드 줄을 추가할 때 저에게 효과적이었습니다.
내 문제를 해결하는 .py 파일의 맨 처음에 다음 코드를 추가하십시오.
앞으로 가져오기에서 print_function, 나눗셈
텐서플로를 tf로 가져오기
keras.backend.tensorflow_backend에서 set_session 가져오기
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
set_session(tf.Session(구성=구성))

tensorflow-gpu == 1.8.0 , cudnn version = 7.0.5 및 cuda 9.1.85 에서 동일한 오류가 발생합니다.
, ubuntu 16.04 위의 제안된 솔루션을 추가한 후에도.
다음은 스택 추적입니다.

INFO - Waveunet Training - Running command 'run'
INFO - Waveunet Training - Started
SCRIPT START
EPOCH: 0
Dataset ready!
Training...
Sep_Vars: 10265550
Num of variables65
2019-07-25 05:10:09.872823: I tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
2019-07-25 05:10:10.286584: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:898] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2019-07-25 05:10:10.286914: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1356] Found device 0 with properties: 
name: Quadro P4000 major: 6 minor: 1 memoryClockRate(GHz): 1.48
pciBusID: 0000:00:05.0
totalMemory: 7.92GiB freeMemory: 7.83GiB
2019-07-25 05:10:10.286964: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1435] Adding visible gpu devices: 0
2019-07-25 05:10:10.640890: I tensorflow/core/common_runtime/gpu/gpu_device.cc:923] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-07-25 05:10:10.640952: I tensorflow/core/common_runtime/gpu/gpu_device.cc:929]      0 
2019-07-25 05:10:10.640968: I tensorflow/core/common_runtime/gpu/gpu_device.cc:942] 0:   N 
2019-07-25 05:10:10.641194: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1053] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 7566 MB memory) -> physical GPU (device: 0, name: Quadro P4000, pci bus id: 0000:00:05.0, compute capability: 6.1)
2019-07-25 05:10:27.643833: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:94] Filling up shuffle buffer (this may take a while): 2054 of 4000
2019-07-25 05:10:35.917445: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:129] Shuffle buffer filled.
2019-07-25 05:10:36.175698: E tensorflow/stream_executor/cuda/cuda_dnn.cc:455] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2019-07-25 05:10:36.175820: E tensorflow/stream_executor/cuda/cuda_dnn.cc:463] possibly insufficient driver version: 384.183.0
2019-07-25 05:10:36.175842: E tensorflow/stream_executor/cuda/cuda_dnn.cc:427] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2019-07-25 05:10:36.175859: F tensorflow/core/kernels/conv_ops.cc:713] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms) 
Aborted (core dumped)

도와주세요

imflash217 에 2019년 07월 25일

비슷한 문제가 있습니다: CUDNN_STATUS_ALLOC_FAILED.
3~4시간 동안 머리가 깨졌다. 마지막으로 수정했습니다.
이것은 많은 사람들이 위에서 언급했듯이 실제로 작동합니다.
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
세션 = tf.Session(구성=구성)
그러나 핵심은 내가 하지 않은

훌륭한 답변, 나를 위해 일했습니다 !!

Eugen2525 에 2019년 07월 30일

스크립트 @Codersadis의 시작 부분에 이러한 코드 줄을 추가할 때 저에게 효과적이었습니다.
내 문제를 해결하는 .py 파일의 맨 처음에 다음 코드를 추가하십시오.
앞으로 가져오기에서 print_function, 나눗셈
텐서플로를 tf로 가져오기
keras.backend.tensorflow_backend에서 set_session 가져오기
구성 = tf.ConfigProto()
config.gpu_options.allow_growth = 참
set_session(tf.Session(구성=구성))

INFO - Waveunet Training - Running command 'run'
INFO - Waveunet Training - Started
SCRIPT START
EPOCH: 0
Dataset ready!
Training...
Sep_Vars: 10265550
Num of variables65
2019-07-25 05:10:09.872823: I tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
2019-07-25 05:10:10.286584: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:898] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2019-07-25 05:10:10.286914: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1356] Found device 0 with properties: 
name: Quadro P4000 major: 6 minor: 1 memoryClockRate(GHz): 1.48
pciBusID: 0000:00:05.0
totalMemory: 7.92GiB freeMemory: 7.83GiB
2019-07-25 05:10:10.286964: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1435] Adding visible gpu devices: 0
2019-07-25 05:10:10.640890: I tensorflow/core/common_runtime/gpu/gpu_device.cc:923] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-07-25 05:10:10.640952: I tensorflow/core/common_runtime/gpu/gpu_device.cc:929]      0 
2019-07-25 05:10:10.640968: I tensorflow/core/common_runtime/gpu/gpu_device.cc:942] 0:   N 
2019-07-25 05:10:10.641194: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1053] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 7566 MB memory) -> physical GPU (device: 0, name: Quadro P4000, pci bus id: 0000:00:05.0, compute capability: 6.1)
2019-07-25 05:10:27.643833: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:94] Filling up shuffle buffer (this may take a while): 2054 of 4000
2019-07-25 05:10:35.917445: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:129] Shuffle buffer filled.
2019-07-25 05:10:36.175698: E tensorflow/stream_executor/cuda/cuda_dnn.cc:455] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2019-07-25 05:10:36.175820: E tensorflow/stream_executor/cuda/cuda_dnn.cc:463] possibly insufficient driver version: 384.183.0
2019-07-25 05:10:36.175842: E tensorflow/stream_executor/cuda/cuda_dnn.cc:427] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2019-07-25 05:10:36.175859: F tensorflow/core/kernels/conv_ops.cc:713] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms) 
Aborted (core dumped)

도와주세요

Nvidia 드라이버를 396+로 변경하면 문제가 해결되었습니다.

imflash217 에 2019년 07월 30일

per_process_gpu_memory_fraction 라고도 하는 cudnn 핸들을 생성하기 위해 GPU 리소스를 로드하는 데 사용할 수 있는 메모리 부분과 관련이 있습니다.
이 메모리 비율을 스스로 줄이면 오류가 해결됩니다.

> sess_config = tf.ConfigProto(gpu_options =
> tf.GPUOptions(per_process_gpu_memory_fraction=0.7),
> allow_soft_placement = True)
> 
> with tf.Session(config=sess_config) as sess:
>      sess.run([whatever])

당신의 기억에 들어갈 수 있는 작은 부분을 사용하십시오. (코드에서는 0.7을 사용합니다. 0.3 이하로 시작한 다음 동일한 오류가 발생할 때까지 늘릴 수 있습니다. 이것이 한계입니다.)
tf.Session() 또는 tf.train.MonitoredTrainingSession() 또는 감독자의 sv.managed_session() 에 구성으로 전달합니다.

이렇게 하면 GPU가 TensorFlow 코드에 대한 cudnn 핸들을 생성할 수 있습니다.

nwoyecid 에 2019년 08월 30일

내 conda 환경에서 tensorflow 2.0에서 다음 오류가 발생했습니다.

```2019-12-03 23:48:29.888625: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 성공적으로 동적 라이브러리 cudart64_100.dll을 열었습니다.
2019-12-03 23:49:06.381259: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 nvcuda.dll을 성공적으로 열었습니다.
2019-12-03 23:49:07.220066: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] 속성이 있는 장치 0을 찾았습니다.
이름: GeForce GTX 1660 Ti 메이저: 7 마이너: 5 memoryClockRate(GHz): 1.59
pci버스ID: 0000:01:00.0
2019-12-03 23:49:07.236411: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] GPU 라이브러리가 정적으로 연결되어 있으므로 dlopen 검사를 건너뜁니다.
2019-12-03 23:49:07.247476: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] 보이는 GPU 장치 추가: 0
2019-12-03 23:49:07.256881: I tensorflow/core/platform/cpu_feature_guard.cc:142] 귀하의 CPU는 이 TensorFlow 바이너리가 사용하도록 컴파일되지 않은 명령을 지원합니다: AVX2
2019-12-03 23:49:07.269536: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] 속성이 있는 장치 0을 찾았습니다.
이름: GeForce GTX 1660 Ti 메이저: 7 마이너: 5 memoryClockRate(GHz): 1.59
pci버스ID: 0000:01:00.0
2019-12-03 23:49:07.281954: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] GPU 라이브러리가 정적으로 연결되어 있으므로 dlopen 검사를 건너뜁니다.
2019-12-03 23:49:07.295302: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] 보이는 GPU 장치 추가: 0
2019-12-03 23:49:08.589865: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1159] 강도 1 에지 매트릭스가 있는 장치 상호 연결 StreamExecutor:
2019-12-03 23:49:08.599121: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1165] 0
2019-12-03 23:49:08.610543: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1178] 0: N
2019-12-03 23:49:08.616005: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1304] TensorFlow 장치 생성(/job:localhost/replica:0/task:0/device:GPU:0 with 4627 MB 메모리) -> 물리적 GPU(장치: 0, 이름: GeForce GTX 1660 Ti, pci 버스 ID: 0000:01:00.0, 컴퓨팅 성능: 7.5)
2019-12-03 23:49:58.521484: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 cublas64_100.dll을 성공적으로 열었습니다.
2019-12-03 23:49:59.604517: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 cudnn64_7.dll을 성공적으로 열었습니다.
2019-12-03 23:50:04.209110: E tensorflow/stream_executor/cuda/cuda_dnn.cc:329] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_NOT_INITIALIZED
2019-12-03 23:50:04.216670: E tensorflow/stream_executor/cuda/cuda_dnn.cc:333] 드라이버 버전 검색 오류: 구현되지 않음: 커널 보고 드라이버 버전이 Windows에서 구현되지 않음
2019-12-03 23:50:04.226172: E tensorflow/stream_executor/cuda/cuda_dnn.cc:329] cudnn 핸들을 생성할 수 없습니다: CUDNN_STATUS_NOT_INITIALIZED
2019-12-03 23:50:04.234741: E tensorflow/stream_executor/cuda/cuda_dnn.cc:333] 드라이버 버전 검색 오류: 구현되지 않음: 커널 보고 드라이버 버전이 Windows에서 구현되지 않음
2019-12-03 23:50:04.244958: W tensorflow/core/common_runtime/base_collective_executor.cc:216] BaseCollectiveExecutor::StartAbort 알 수 없음: 컨볼루션 알고리즘을 가져오지 못했습니다. 이는 cuDNN이 초기화되지 않았기 때문일 수 있으므로 위에 경고 로그 메시지가 인쇄되었는지 확인하십시오.
[[{{노드 순차/conv2d/Conv2D}}]]

so i added the following code to my CNN

GPU = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

My output is now

2019-12-04 00:10:07.708573: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 cudart64_100.dll을 성공적으로 열었습니다.
2019-12-04 00:10:11.643304: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 nvcuda.dll을 성공적으로 열었습니다.
2019-12-04 00:10:12.753615: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] 속성이 있는 장치 0을 찾았습니다.
이름: GeForce GTX 1660 Ti 메이저: 7 마이너: 5 memoryClockRate(GHz): 1.59
pci버스ID: 0000:01:00.0
2019-12-04 00:10:12.769498: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] GPU 라이브러리가 정적으로 연결되어 있으므로 dlopen 검사를 건너뜁니다.
2019-12-04 00:10:12.783900: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] 보이는 GPU 장치 추가: 0
2019-12-04 00:10:54.941468: I tensorflow/core/platform/cpu_feature_guard.cc:142] 귀하의 CPU는 이 TensorFlow 바이너리가 사용하도록 컴파일되지 않은 명령을 지원합니다: AVX2
2019-12-04 00:10:55.372516: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] 속성이 있는 장치 0을 찾았습니다.
이름: GeForce GTX 1660 Ti 메이저: 7 마이너: 5 memoryClockRate(GHz): 1.59
pci버스ID: 0000:01:00.0
2019-12-04 00:10:55.383385: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] GPU 라이브러리가 정적으로 연결되어 있으므로 dlopen 검사를 건너뜁니다.
2019-12-04 00:10:55.406053: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] 보이는 GPU 장치 추가: 0
2019-12-04 00:10:56.741665: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1159] 강도 1 에지 매트릭스가 있는 장치 상호 연결 StreamExecutor:
2019-12-04 00:10:56.747255: 나는 tensorflow/core/common_runtime/gpu/gpu_device.cc:1165] 0
2019-12-04 00:10:56.752302: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1178] 0: N
2019-12-04 00:10:56.756861: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1304] TensorFlow 장치 생성(/job:localhost/replica:0/task:0/device:GPU:0 with 4627 MB 메모리) -> 물리적 GPU(장치: 0, 이름: GeForce GTX 1660 Ti, pci 버스 ID: 0000:01:00.0, 컴퓨팅 성능: 7.5)
2019-12-04 00:11:08.281356: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 cublas64_100.dll을 성공적으로 열었습니다.
2019-12-04 00:11:08.934804: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] 동적 라이브러리 cudnn64_7.dll을 성공적으로 열었습니다.
2019-12-04 00:11:11.870237: W tensorflow/stream_executor/cuda/redzone_allocator.cc:312] 내부: Windows에서 ptxas 호출이 지원되지 않음
드라이버에 의존하여 ptx 컴파일을 수행합니다. 이 메시지는 한 번만 기록됩니다.
```

모두가 제안했듯이 모든 GPU/GPU를 사용하는 텐서플로 때문입니다. 내 CNN은 이제 오류 없이 훈련됩니다.

Kevin-Oudai 에 2019년 12월 04일

👍5

conda 환경 내에서 커뮤니티 지원 버전의 tensorflow를 사용할 때도 동일한 문제에 직면했습니다(예: > conda install tensorflow-gpu 사용)
이 버전이 모든 상황에서 실제로 좋지 않다는 것이 밝혀졌습니다(다른 컴퓨터에서 사용하고 있음에도 불구하고). 사용하기에 가장 좋은 버전은 conda 환경 내에서 pip 설치 가능 버전 https://www.tensorflow.org/install/pip 입니다. 내가 이것을했을 때 모든 것이 작동했습니다.

그것은 나를 위해 해결되었습니다. 감사합니다!

rpvelloso 에 2019년 12월 17일

이것은 또한 나를 위해 문제를 해결했습니다.

지포스 GTX 1050, 쿠다 10.0

참고: 이것은 현재로서는 TF 2.0에서 작동하는 유일한 것입니다. 감사 해요!

GPU = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

RokoMijic 에 2019년 12월 19일

👍1

이것은 또한 나를 위해 문제를 해결했습니다.
지포스 GTX 1050, 쿠다 10.0
참고: 이것은 현재로서는 TF 2.0에서 작동하는 유일한 것입니다. 감사 해요!
GPU = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

이것은 나에게 아무런 차이가 없었습니다 ... TF 2.0, RTX 2060, CUDA 10.1, CuDNN 7.6

이것은 16GB RAM, 6GB 비디오 메모리 및 하나의 변환 레이어가 있는 기본 MNIST 장난감 모델입니다. 메모리 문제가 없으며 스택 추적만 가능합니다.

평소와 같이 Pytorch에서는 GPU 문제가 전혀 없습니다.

jtiscione 에 2020년 01월 05일

제 경우에는 RTX 2080Ti, TF 2.1, CUDA 10.1, CuDNN 7.6이 있는 두 대의 컴퓨터가 있습니다. 하나는 작동하고 다른 하나는 앞서 언급한 오류를 발생시킵니다. 두 컴퓨터의 RAM 용량은 16GB로 동일합니다. 그러나 CPU와 같은 하드웨어 차이가 있습니다. 그러나 문제는 GPU를 사용할 때만 발생합니다.

magomar 에 2020년 01월 10일

제 경우에는 RTX 2080Ti, TF 2.1, CUDA 10.1, CuDNN 7.6이 있는 두 대의 컴퓨터가 있습니다. 하나는 작동하고 다른 하나는 앞서 언급한 오류를 발생시킵니다. 두 컴퓨터의 RAM 용량은 16GB로 동일합니다. 그러나 CPU와 같은 하드웨어 차이가 있습니다. 그러나 문제는 GPU를 사용할 때만 발생합니다.

같은 플랫폼, 같은 문제

vufg 에 2020년 03월 07일

최신 tensorflow 및 keras를 사용하는 경우. 여기 에서 이것을 시도

gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
  try:
    # Currently, memory growth needs to be the same across GPUs
    for gpu in gpus:
      tf.config.experimental.set_memory_growth(gpu, True)
    logical_gpus = tf.config.experimental.list_logical_devices('GPU')
    print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
  except RuntimeError as e:
    # Memory growth must be set before GPUs have been initialized
    print(e)

Samaritan1011001 에 2020년 04월 13일

❤3

이것은 나를 위해 작동합니다.
physical_devices = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(물리적 장치[0], 참)

angrysword 에 2020년 05월 19일

👍4

이것은 나를 위해 작동합니다.
physical_devices = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(물리적 장치[0], 참)

이것은 나를 위해 일했습니다. 감사 해요

nitin-barthwal 에 2020년 07월 20일

@Samaritan1011001 귀하의 솔루션이 저에게 효과적이었습니다. 감사합니다.

ypaez 에 2020년 08월 22일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Tensorflow: 충돌: convnet을 사용할 때 cuDNN 핸들을 생성할 수 없습니다.

웹에서 문제를 검색하여 어떤 관련 GitHub 문제 또는 StackOverflow 스레드를 찾았습니까?

환경 정보

가능하면 최소한의 재현 가능한 예를 제공하십시오.

소스에서 컴파일된 CUDA 7.5 및 Tensorflow를 사용하여 전체 로그

pip에서 설치된 CUDA 8.0 및 Tensorflow를 사용하여 전체 로그

가장 유용한 댓글

모든 145 댓글

환경

예시

환경 정보:

오류 정보:

모두의 도움을 진심으로 바랍니다 :D

관련 문제