Tensorflow: Kerusakan: Tidak dapat membuat pegangan cuDNN saat konvnet digunakan

Dibuat pada 6 Jan 2017  ·  145Komentar  ·  Sumber: tensorflow/tensorflow

Tensorflow (GPU) berhasil diimpor, tetapi saat menjalankan sesi yang melibatkan jaringan saraf convolutional (CNN), Python mogok dengan pesan berikut:

E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

Masalah tetap ada pada kombinasi CUDA toolkit 7.5/8.0 dan Tensorflow yang diinstal dari pip/source. Sesi pengujian yang tidak menggunakan CNN berhasil dijalankan.

Masalah GitHub atau utas StackOverflow apa yang Anda temukan dengan menelusuri web untuk masalah Anda?

Masalahnya mirip dengan https://github.com/tensorflow/tensorflow/issues/6586 , tempat saya pertama kali berkomentar. Tetapi karena saya mengalami masalah di Mac, saya disarankan untuk membuka masalah terpisah.

Informasi lingkungan

Sistem Operasi: macOS Sierra 10.12.2
Xcode versi 8.2 (8C38) (Ketika saya kemudian mencoba CUDA 7.5, saya menginstal Command Line Tools versi 7.3.1 karena CUDA 7.5 tidak mendukung kompiler yang lebih baru.)
Python 3.5.2 (anaconda)

Versi CUDA yang diinstal: mencoba 8.0 (awalnya) dan 7.5 (dilaporkan di sini, hanya toolkit -- driver masih 8.0)
Versi cuDNN yang diinstal: 5.1 (instalasi berbeda sesuai dengan versi CUDA)
(harap lampirkan output dari ls -l /path/to/cuda/lib/libcud* ):

lrwxr-xr-x  1 root   wheel        33  5 Jan 20:33 /usr/local/cuda/lib/libcuda.1.dylib -> /usr/local/cuda/lib/libcuda.dylib
-rwxr-xr-x@ 1 root   wheel      8280 13 Apr  2016 /usr/local/cuda/lib/libcuda.dylib
lrwxr-xr-x@ 1 root   wheel        45 13 Apr  2016 /usr/local/cuda/lib/libcudadevrt.a -> /Developer/NVIDIA/CUDA-7.5/lib/libcudadevrt.a
lrwxr-xr-x@ 1 root   wheel        50 13 Apr  2016 /usr/local/cuda/lib/libcudart.7.5.dylib -> /Developer/NVIDIA/CUDA-7.5/lib/libcudart.7.5.dylib
lrwxr-xr-x@ 1 root   wheel        46 13 Apr  2016 /usr/local/cuda/lib/libcudart.dylib -> /Developer/NVIDIA/CUDA-7.5/lib/libcudart.dylib
lrwxr-xr-x@ 1 root   wheel        49 13 Apr  2016 /usr/local/cuda/lib/libcudart_static.a -> /Developer/NVIDIA/CUDA-7.5/lib/libcudart_static.a
lrwxr-xr-x  1 root   wheel        16  5 Jan 17:14 /usr/local/cuda/lib/libcudnn.5 -> libcudnn.5.dylib
-rwxr-xr-x@ 1 ymfa   staff  58975112 10 Jun  2016 /usr/local/cuda/lib/libcudnn.5.dylib
lrwxr-xr-x@ 1 ymfa   staff        16 10 Jun  2016 /usr/local/cuda/lib/libcudnn.dylib -> libcudnn.5.dylib
lrwxr-xr-x  1 root   wheel        16  5 Jan 17:14 /usr/local/cuda/lib/libcudnn5.dylib -> libcudnn.5.dylib
-rw-r--r--@ 1 ymfa   staff  56392320 10 Jun  2016 /usr/local/cuda/lib/libcudnn_static.a

Saya mencoba menginstal dari pip dan source. Saya pertama kali menginstal dari paket pip biner:

  1. Tautan ke paket pip yang Anda instal:
    tensorflow-gpu
  2. Keluaran dari python -c "import tensorflow; print(tensorflow.__version__)" .
    0.12.head

Kemudian saya menginstal dari sumber (paket pip dihapus):

  1. Komit hash ( git rev-parse HEAD )
    d67c09d98a576e1fbf2f3609ddb842e53890f31c
  2. Keluaran dari bazel version

    Label pembuatan: 0,4.3-homebrew
    Membangun target: bazel-out/local-opt/bin/src/main/Java/com/google/devtools/build/lib/bazel/BazelServer_deploy.jar
    Waktu pembuatan: Kam 22 Des 15:20:15 2016 (148242015)
    Stempel waktu pembuatan: 1482420015
    Buat stempel waktu sebagai int: 1482420015

Jika memungkinkan, berikan contoh minimal yang dapat direproduksi

Saya membuat contoh minimal dengan menyederhanakan jaringan dan mengurangi data pelatihan menjadi hanya dua puluh gambar dan dua kelas untuk klasifikasi. issue.zip berisi kode Python dan datanya. Saya menulis dua lapisan konvolusi karena saya menemukan jaringan dengan hanya satu lapisan konvolusi berjalan tanpa masalah.

Log lengkap menggunakan CUDA 7.5 dan Tensorflow dikompilasi dari sumber

I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.7.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcudnn.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcufft.7.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcurand.7.5.dylib locally
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:874] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 650M
major: 3 minor: 0 memoryClockRate (GHz) 0.9
pciBusID 0000:01:00.0
Total memory: 1023.69MiB
Free memory: 740.18MiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 650M, pci bus id: 0000:01:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

Log lengkap menggunakan CUDA 8.0 dan Tensorflow diinstal dari pip

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 650M
major: 3 minor: 0 memoryClockRate (GHz) 0.9
pciBusID 0000:01:00.0
Total memory: 1023.69MiB
Free memory: 590.00MiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0: Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 650M, pci bus id: 0000:01:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
E tensorflow/stream_executor/cuda/cuda_dnn.cc:392] error retrieving driver version: Invalid argument: expected %d.%d or %d.%d.%d form for driver version; got ""
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:532] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)
awaiting tensorflower builinstall

Komentar yang paling membantu

Berikut ini sedikit lebih banyak info tentang bagaimana saya menyelesaikannya untuk sementara. Saya percaya semua masalah ini terkait dengan alokasi memori GPU dan tidak ada hubungannya dengan kesalahan yang dilaporkan. Ada kesalahan lain sebelum ini menunjukkan semacam masalah alokasi memori tetapi program terus berkembang, akhirnya memberikan kesalahan cudnn yang didapat semua orang. Alasan saya percaya itu kadang-kadang berfungsi adalah jika Anda menggunakan GPU untuk hal-hal lain selain tensorflow seperti tampilan utama Anda, memori yang tersedia berfluktuasi. Terkadang Anda dapat mengalokasikan apa yang Anda butuhkan dan terkadang tidak.

Dari API
https://www.tensorflow.org/versions/r0.12/how_tos/using_gpu/
"Secara default, TensorFlow memetakan hampir semua memori GPU dari semua GPU (berdasarkan CUDA_VISIBLE_DEVICES) yang terlihat oleh proses. Ini dilakukan untuk lebih efisien menggunakan sumber daya memori GPU yang relatif berharga pada perangkat dengan mengurangi fragmentasi memori."

Saya pikir alokasi default ini rusak dalam beberapa cara yang menyebabkan perilaku tidak menentu ini dan situasi tertentu berfungsi dan yang lainnya gagal.

Saya telah mengatasi masalah ini dengan mengubah perilaku default TF untuk mengalokasikan jumlah minimum memori dan tumbuh sesuai kebutuhan seperti yang dirinci di halaman web.
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
sesi = tf.Session(config=config, ...)

Saya juga telah mencoba cara alternatif dan berhasil membuatnya bekerja dan gagal dengan eksperimental memilih persentase yang berhasil. Dalam kasus saya akhirnya menjadi sekitar 0,7.

konfigurasi = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4
sesi = tf.Session(config=config, ...)

Masih belum ada kabar dari siapa pun di tim TF yang mengonfirmasi hal ini, tetapi patut dicoba untuk melihat apakah orang lain dapat mengonfirmasi perilaku serupa.

Semua 145 komentar

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.so locally
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties:
name: GeForce GTX 1080
major: 6 minor: 1 memoryClockRate (GHz) 1.835
pciBusID 0000:02:00.0
Total memory: 7.92GiB
Free memory: 3.76GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080, pci bus id: 0000:02:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:532] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

Saya menemui masalah yang sama persis seperti yang Anda lakukan dengan CUDA8 dan TF r0.12.1.

@EncodeTS Saya baru saja menambahkan contoh minimal yang dapat direproduksi ke posting pertama saya. Bisakah Anda memeriksa apakah itu mereproduksi masalah pada mesin Anda? Di mesin saya, satu lapisan konvolusi berfungsi tetapi tidak dua lapisan konvolusi, yang membuat saya berpikir bahwa masalahnya mungkin disebabkan oleh beberapa keterbatasan sumber daya.

Saya dapat mengonfirmasi bahwa contoh minimal @ymfa gagal di MacOS NVidia 750, tetapi juga contoh yang sama berfungsi di Linux/Titan X

Contoh minimal berfungsi di Ubuntu saya. Sepertinya masalah yang saya temui memiliki kemungkinan kejadian yang sangat rendah di komputer saya.

Saya menghadapi masalah yang sama. Grafik akan berjalan dengan baik ketika dipaksa ke cpu, tetapi macet di gpu.

Lingkungan

OS: macOS 10.12.2
GPU: GeForce GT 750M
TF: 0.12.1 (instal pip)
Python: 3.6.0
CUDA: 8.0
cuDNN: 5.1

(keluaran dari ls -l /path/to/cuda/lib/libcud* ):

lrwxr-xr-x  1 root  wheel     33 Dec 14 14:25 /usr/local/cuda/lib/libcuda.1.dylib -> /usr/local/cuda/lib/libcuda.dylib
-rwxr-xr-x  1 root  wheel  13504 Dec  2 16:48 /usr/local/cuda/lib/libcuda.dylib
lrwxr-xr-x  1 root  wheel     45 Nov  3 11:40 /usr/local/cuda/lib/libcudadevrt.a -> /Developer/NVIDIA/CUDA-8.0/lib/libcudadevrt.a
lrwxr-xr-x  1 root  wheel     50 Nov  3 11:40 /usr/local/cuda/lib/libcudart.8.0.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudart.8.0.dylib
lrwxr-xr-x  1 root  wheel     46 Nov  3 11:40 /usr/local/cuda/lib/libcudart.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudart.dylib
lrwxr-xr-x  1 root  wheel     49 Nov  3 11:40 /usr/local/cuda/lib/libcudart_static.a -> /Developer/NVIDIA/CUDA-8.0/lib/libcudart_static.a
lrwxr-xr-x  1 root  wheel     47 Dec 14 10:21 /usr/local/cuda/lib/libcudnn.5.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudnn.5.dylib
lrwxr-xr-x  1 root  wheel     45 Dec 14 10:21 /usr/local/cuda/lib/libcudnn.dylib -> /Developer/NVIDIA/CUDA-8.0/lib/libcudnn.dylib
lrwxr-xr-x  1 root  wheel     48 Dec 14 10:21 /usr/local/cuda/lib/libcudnn_static.a -> /Developer/NVIDIA/CUDA-8.0/lib/libcudnn_static.a

Contoh

Contoh minimal yang disediakan oleh @ymfa gagal dan berhasil pada pengaturan saya. Berikut ini adalah tiga output yang telah dihasilkan.
gagal(1)

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.76GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Training...
E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:532] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 
Abort trap: 6

gagal (2)

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.53GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Training...
E tensorflow/stream_executor/cuda/cuda_blas.cc:372] failed to create cublas handle: CUBLAS_STATUS_NOT_INITIALIZED
W tensorflow/stream_executor/stream.cc:1390] attempting to perform BLAS operation using StreamExecutor without BLAS support
Traceback (most recent call last):
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1021, in _do_call
    return fn(*args)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1003, in _run_fn
    status, run_metadata)
  File "/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/lib/python3.6/contextlib.py", line 89, in __exit__
    next(self.gen)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/errors_impl.py", line 469, in raise_exception_on_not_ok_status
    pywrap_tensorflow.TF_GetCode(status))
tensorflow.python.framework.errors_impl.InternalError: Blas SGEMM launch failed : a.shape=(20, 400), b.shape=(400, 2), m=20, n=2, k=400
     [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Flatten/Reshape, Variable_4/read)]]

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "issue.py", line 52, in <module>
    sess.run(training_operation, feed_dict={x: X, y: Y})
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 766, in run
    run_metadata_ptr)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 964, in _run
    feed_dict_string, options, run_metadata)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1014, in _do_run
    target_list, options, run_metadata)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/client/session.py", line 1034, in _do_call
    raise type(e)(node_def, op, message)
tensorflow.python.framework.errors_impl.InternalError: Blas SGEMM launch failed : a.shape=(20, 400), b.shape=(400, 2), m=20, n=2, k=400
     [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Flatten/Reshape, Variable_4/read)]]

Caused by op 'MatMul', defined at:
  File "issue.py", line 43, in <module>
    logits = SimpleNet(x)
  File "issue.py", line 34, in SimpleNet
    logits = tf.matmul(fc1, fc1_W) + fc1_b
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/ops/math_ops.py", line 1729, in matmul
    a, b, transpose_a=transpose_a, transpose_b=transpose_b, name=name)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/ops/gen_math_ops.py", line 1442, in _mat_mul
    transpose_b=transpose_b, name=name)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/op_def_library.py", line 759, in apply_op
    op_def=op_def)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/ops.py", line 2240, in create_op
    original_op=self._default_original_op, op_def=op_def)
  File "/usr/local/lib/python3.6/site-packages/tensorflow/python/framework/ops.py", line 1128, in __init__
    self._traceback = _extract_stack()

InternalError (see above for traceback): Blas SGEMM launch failed : a.shape=(20, 400), b.shape=(400, 2), m=20, n=2, k=400
     [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Flatten/Reshape, Variable_4/read)]]

lulus

I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcublas.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcudnn.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcufft.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:128] successfully opened CUDA library libcurand.dylib locally
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:901] OS X does not support NUMA - returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.71GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Training...
Training complete!

Secara otomatis menutup karena kurangnya aktivitas terbaru. Harap perbarui masalah saat informasi baru tersedia, dan kami akan membuka kembali masalah tersebut. Terima kasih!

Tidak begitu cepat, saya melihat crash ini juga. Macbook pro, geforce 650. TF v1. Berjalan melalui kernel jupyter, yang harus sering saya restart. Mungkin kartu grafis ini terlalu lemah? Melihat bagaimana op menggunakan kartu yang sama: kemungkinan besar.

I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.8.0.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcudnn.5.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcufft.8.0.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcuda.1.dylib locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcurand.8.0.dylib locally
...
I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GT 650M
major: 3 minor: 0 memoryClockRate (GHz) 0.9
pciBusID 0000:01:00.0
Total memory: 1023.69MiB
Free memory: 870.46MiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 650M, pci bus id: 0000:01:00.0)
E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 

Saya memiliki masalah yang sama dengan GTX 960m, cudnn5.1.5 dan cuda-8.0.44.

Punya masalah yang sama dengan centOS, titan X

Punya masalah yang sama dengan ubuntu (14.04) dan GRID K520 (aws g2.2)

Memiliki masalah yang sama windows 10 cudnn 5.1 cuda 8 gtx 1060. Program bekerja pada versi cpu dari aliran tensor tetapi mendapatkan kesalahan yang sama dengan versi gpu.

Saya memiliki masalah yang sama dengan gtx1060, win8.1, cuda8.0.60, cudnn5.0. Ditingkatkan ke build nightly tensorflow-gpu stabil terbaru (saat ini http://ci.tensorflow.org/job/nightly-win/133/) dan cudnn5.1. Masalah terpecahkan.

Masalah yang sama di sini.

Saya mengalami masalah ini dengan versi perangkat lunak yang tercantum di bawah ini, kecuali TF adalah versi 1.0.0. Saya kemudian memutakhirkan ke TF 1.0.1. Saya menjalankan program yang sama sekali dan berhasil . Saya kemudian menjalankannya lagi dan tidak berhasil -- itu menghasilkan kesalahan yang sama seperti sebelumnya.

Tensorflow-gpu 1.0.1
Mac OS X 10.12.3
Cuda 8.0.61
CuDNN 5.1
GeForce GT 750M

memiliki masalah yang sama dengan gtx650, ubuntu 16.04, CUDA Versi 8.0.61, TF versi 1.0.0
itu berfungsi sekarang, tetapi memberikan beberapa peringatan memori rendah. Namun, itu berjalan
Sekarang tidak berjalan sama sekali, memberi saya kesalahan yang sama. Periksa gagal: stream->parent()->GetConvolveAlgorithms(&algorithms)

Memiliki masalah yang sama dengan gtx 1080 ti, windows 10, CUDA Versi 8.0.61, TF versi 1.0.1, 5.1 Cudann, cuda 8.0.61

Saya bisa mendapatkan program untuk bekerja dengan membatasi penggunaan GPU. Dalam kasus saya dengan 3gb gtx 1060 di ubuntu 16.04, jika saya mengatur opsi gpu per_process_gpu_memory_fraction ke .7 itu berfungsi. Apa pun yang lebih tinggi, saya mendapatkan kesalahan ini

E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms(&algorithms)

Ini bisa menjadi kasus pelaporan kesalahan yang buruk oleh tensorflow. Tampaknya sama sekali tidak berhubungan. Mungkin ini adalah petunjuk untuk menyelesaikan ini dengan cara yang lebih baik?

@zheng-xq apakah ada masalah pengaturan yang jelas?

Masalah yang sama juga. Saya menggunakan Windows 10, GTX1070, CUDA 8.0, cuDNN 5.1.

E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_NOT_INITIALIZED
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] kesalahan saat mengambil versi driver: Tidak diimplementasikan: kernel melaporkan versi driver tidak diimplementasikan pada Windows
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms(&algorithms)

Jika itu membantu siapa pun, sepertinya ada proses zombie yang tersisa yang mencegah dari tf untuk memulai lagi dengan benar dan memberi saya kesalahan ini. membunuh mereka bekerja di sekitar masalah ini.

Berikut ini sedikit lebih banyak info tentang bagaimana saya menyelesaikannya untuk sementara. Saya percaya semua masalah ini terkait dengan alokasi memori GPU dan tidak ada hubungannya dengan kesalahan yang dilaporkan. Ada kesalahan lain sebelum ini menunjukkan semacam masalah alokasi memori tetapi program terus berkembang, akhirnya memberikan kesalahan cudnn yang didapat semua orang. Alasan saya percaya itu kadang-kadang berfungsi adalah jika Anda menggunakan GPU untuk hal-hal lain selain tensorflow seperti tampilan utama Anda, memori yang tersedia berfluktuasi. Terkadang Anda dapat mengalokasikan apa yang Anda butuhkan dan terkadang tidak.

Dari API
https://www.tensorflow.org/versions/r0.12/how_tos/using_gpu/
"Secara default, TensorFlow memetakan hampir semua memori GPU dari semua GPU (berdasarkan CUDA_VISIBLE_DEVICES) yang terlihat oleh proses. Ini dilakukan untuk lebih efisien menggunakan sumber daya memori GPU yang relatif berharga pada perangkat dengan mengurangi fragmentasi memori."

Saya pikir alokasi default ini rusak dalam beberapa cara yang menyebabkan perilaku tidak menentu ini dan situasi tertentu berfungsi dan yang lainnya gagal.

Saya telah mengatasi masalah ini dengan mengubah perilaku default TF untuk mengalokasikan jumlah minimum memori dan tumbuh sesuai kebutuhan seperti yang dirinci di halaman web.
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
sesi = tf.Session(config=config, ...)

Saya juga telah mencoba cara alternatif dan berhasil membuatnya bekerja dan gagal dengan eksperimental memilih persentase yang berhasil. Dalam kasus saya akhirnya menjadi sekitar 0,7.

konfigurasi = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4
sesi = tf.Session(config=config, ...)

Masih belum ada kabar dari siapa pun di tim TF yang mengonfirmasi hal ini, tetapi patut dicoba untuk melihat apakah orang lain dapat mengonfirmasi perilaku serupa.

Saya juga mendapatkan kesalahan CUDNN_STATUS_NOT_INITIALIZED . Berikut adalah log kesalahan lengkap:

2017-04-26 00:08:57.526234: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:977] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080, pci bus id: 0000:01:00.0)
2017-04-26 00:09:01.111706: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2017-04-26 00:09:01.111805: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] error retrieving driver version: Unimplemented: kernel reported driver version not implemented on Windows
2017-04-26 00:09:01.114040: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-04-26 00:09:01.114232: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

Saya menggunakan Windows 10, CUDA 8.0, cuDNN 5.1 . Adakah yang bisa dilakukan untuk menghindari ini? Saya dapat menjalankan beberapa tes tensorflow sebelumnya dan itu berfungsi dengan baik (termasuk operasi konv), tetapi sekarang tidak berfungsi pada tes baru ini ...

@serans1 Proses zombie apa yang Anda maksud?

Tolong beri tahu saya jika ada solusi untuk ini. Terima kasih!

EDIT Ini mungkin kesalahan pemula, tetapi saya hanya akan menyebutkannya di sini, jika ada orang lain yang mengalami masalah yang sama:
Masalah saya adalah saya sudah menjalankan instance Jupyter Python Notebook (yang semua selnya sudah berjalan, karenanya dimuat dalam memori), dan juga beberapa proses lain yang menggunakan memori GPU (permainan video yang diperkecil). Oleh karena itu, ketika saya memeriksa penggunaan memori pada GPU saya, sudah sekitar 4+GB (50+%). Saya menutup Notebook Jupyter dan aplikasi lainnya, dan menjalankan kembali tes tensorflow saya. Sekarang semuanya berjalan lancar :) Juga, saat menjalankan saya perhatikan bahwa pada puncaknya menggunakan hingga 90% dari memori GPU saya, dan dengan demikian masuk akal mengapa tidak dapat menginisialisasi CUDNN ketika kurang dari 50% tersedia dalam situasi awal saya .

Maaf sekali lagi atas kesalahan saya! Saya baru di awal bermain-main dengan ini :)

Masalah yang sama, apakah ada solusi untuk itu?

Saya c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:885] Menemukan perangkat 0 dengan properti:
Nama: GeForce GTX 960M
mayor: 5 minor: 0 memoriClockRate (GHz) 1.176
pciBusID 0000:01:00.0
Total memori: 4.00GiB
Memori bebas: 3.35GiB
Saya c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:906] DMA: 0
Saya c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:916] 0: Y
Saya c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:975] Membuat perangkat TensorFlow (/gpu:0) -> (perangkat: 0, nama: GeForce GTX 960M, id bus pci: 0000:01:00.0)
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:586] Tidak dapat mengidentifikasi NUMA node dari /job:localhost/replica:0 /task:0/gpu:0, default ke 0. Kernel Anda mungkin tidak dibangun dengan dukungan NUMA.
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:385] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_NOT_INITIALIZED
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:392] kesalahan saat mengambil versi driver: Izin ditolak: tidak dapat membuka jalur versi driver untuk membaca : /proc/driver/nvidia/versi
E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:352] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:532] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms(&algorithms)

Saya memiliki masalah yang sama persis.
Tetapi saya dapat menjalankan kode saya dengan akses root (dengan Sudo).
Saat ini saya sedang mengerjakan Ubuntu 16.04 dengan GTX 960.
Versi CUDA saya adalah 8.0 dan saya menggunakan tensorflow 1.01

Windows 10 / Tensorflow 1.01
Saya menggunakannya dengan sempurna tetapi sekarang secara tidak sengaja kesalahan yang sama terjadi pada saya

Nama: GeForce GTX 1070
mayor: 6 minor: 1 memoriClockRate (GHz) 1,7715
pciBusID 0000:03:00.0
Total memori: 8.00GiB
Memori bebas: 6.68GiB
08-05-2017 21:12:16.103654: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:908] DMA: 0
08-05-2017 21:12:16.105184: Saya c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:918] 0: Y
08-05-2017 21:12:16.106710: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:977] Membuat perangkat TensorFlow (/ gpu:0) -> (perangkat: 0, nama: GeForce GTX 1070, id bus pci: 0000:03:00.0)
08-05-2017 21:12:24.395060: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] tidak dapat membuat pegangan cudnn : CUDNN_STATUS_NOT_INITIALIZED
08-05-2017 21:12:24.395177: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] kesalahan saat mengambil versi driver: Tidak diimplementasikan: versi driver yang dilaporkan kernel tidak diimplementasikan pada Windows
08-05-2017 21:12:24.396636: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] tidak dapat menghancurkan pegangan cudnn : CUDNN_STATUS_BAD_PARAM
08-05-2017 21:12:24.396846: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Pemeriksaan gagal: stream- > parent()->GetConvolveAlgorithms(&algorithms)

Metode @strickon berhasil untuk saya. Sepertinya tensorflow mencoba memonopoli terlalu banyak sumber daya sekaligus dan tidak bisa yang membuat operasi mogok. Saya secara khusus menggunakan:

config.gpu_options.allow_growth = Benar

Mengonfirmasi saran @strickon berfungsi untuk saya.

Saya menjalankan https://github.com/awjuliani/DeepRL-Agents/blob/master/Double-Dueling-DQN.ipynb dan mendapatkan kegagalan yang disebutkan di utas ini pada panggilan pertama ke sess.run dalam blok pembaruan ( baris: Q1 = sess.run(mainQN.predict,feed_dict={mainQN.scalarInput:np.vstack(trainBatch[:,3])}) .

Menambahkan flag allow_growth (sesuai di bawah) membuat saya melewati benjolan ini - kode saat ini berjalan di latar belakang, kita akan melihat seberapa jauh perkembangannya.

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)

Tumpukan:

  • MacBook Pro, menjalankan Sierra 10.12.4, dengan NVIDIA GeForce GT 750M 2048 MB. Biasanya hanya memiliki 1.7GB gratis.
  • TensorFlow 1.1 Menggunakan petunjuk pemasangan Anaconda.
  • Python 3.6, bukan virtual (Anaconda)
  • CUDA 8 / cuDNN 5

Saya akan baik-baik saja dengan membuang lebih banyak statistik berdasarkan permintaan.

Saya bekerja dengan dua terminal secara bersamaan dan memiliki masalah yang sama. Itu diselesaikan dengan menutup satu terminal.

Secara otomatis menutup karena kurangnya aktivitas terbaru. Harap perbarui masalah saat informasi baru tersedia, dan kami akan membuka kembali masalah tersebut. Terima kasih!

Setelah menerapkan perubahan yang disarankan oleh @strickon , saya mulai melihat serangkaian log info baru muncul:

2017-06-23 04:45:57.156787: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\core\common_runtime\gpu\pool_allocator.cc:247] PoolAllocator: After 3205 get requests, put_count=2333 evicted_count=1000 eviction_rate=0.428633 and unsatisfied allocation rate=0.615289
2017-06-23 04:45:57.156880: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\core\common_runtime\gpu\pool_allocator.cc:259] Raising pool_size_limit_ from 100 to 110
step 0 - loss = 5.632, (19.351 sec/step)

Tidak yakin jika terkait.

Kesalahan yang sama di sini.

Windows 10 x86_64, GeForce GTX 970, driver 376.53, Cuda 8.0, cuDNN 5.1., tensorflow-gpu 1.2.0 dari pip, python 3.6

Saya mencoba menjalankan contoh default dari bagian tutorial situs web:

https://www.tensorflow.org/tutorials/image_recognition

python classify_image.py

Saya mempunyai kesalahan yang sama:

`
```
(C:\ProgramData\Anaconda3) C:\Users\Locky\Google \MachineLearning\Tensorflow-Tutorials\Repo\models\tutorials\image\imagenet>python class_image.py
25-06-2017 18:36:32.318287: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi SSE, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.318514: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi SSE2, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.323556: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi SSE3, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.323719: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi SSE4.1, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.323834: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi SSE4.2, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.323930: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi AVX, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.324205: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi AVX2, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.324351: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\platform\cpu_feature_guard.cc:45] Pustaka TensorFlow tidak dikompilasi untuk menggunakan instruksi FMA, tetapi ini tersedia di mesin Anda dan dapat mempercepat komputasi CPU.
25-06-2017 18:36:32.707933: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:940] Ditemukan perangkat 0 dengan properti:
Nama: GeForce GTX 970
mayor: 5 minor: 2 memoriClockRate (GHz) 1,253
pciBusID 0000:01:00.0
Total memori: 4.00GiB
Memori bebas: 3.31GiB
25-06-2017 18:36:32.708332: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:961] DMA : 0
25-06-2017 18:36:32.713764: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:971] 0 : Y
25-06-2017 18:36:32.713991: I c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\common_runtime\gpu\gpu_device.cc:1030] Membuat Perangkat TensorFlow (/gpu:0) -> (perangkat: 0, nama: GeForce GTX 970, id bus pci: 0000:01:00.0)
25-06-2017 18:36:34.854555: W c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\framework\op_def_util.cc:332] Op BatchNormWithGlobalNormalization adalah usang. Ini akan berhenti bekerja di GraphDef versi 9. Gunakan tf.nn.batch_normalization().
25-06-2017 18:36:35.836895: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_NOT_INITIALIZED
25-06 2017 18:36:35.837068: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] kesalahan saat mengambil driver versi: Tidak diimplementasikan: versi driver yang dilaporkan kernel tidak diimplementasikan pada Windows
25-06-2017 18:36:35.841593: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
25-06 2017 18:36:35.841690: F c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\36\tensorflow\core\kernels\conv_ops.cc:671] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms(&algorithms)

(C:\ProgramData\Anaconda3) C:\Users\Locky\Google Диск\MachineLearning\Tensorflow-Tutorials\Repo\models\tutorials\image\imagenet>

````

Dalam kasus saya, ini terjadi karena instance tensorflow lain memegang GPU. (Skrip lain sedang berjalan.)

Bisakah saya mengusulkan pesan kesalahan yang lebih baik? Katakan, "Kesalahan: instans tensorflow lain berjalan, sementara hanya satu yang didukung."

Saya memiliki masalah yang sama. Menjalankan macOS 10.12.5 GT 750M 2GB

python neural_style.py --content /Users/qinyuhang/Pictures/0.jpeg  --styles IMG_1105.JPG --output 1.out.jpg --iterations 500
2017-07-05 22:16:54.531699: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:857] OS X does not support NUMA - returning NUMA node zero
2017-07-05 22:16:54.532257: I tensorflow/core/common_runtime/gpu/gpu_device.cc:940] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.9255
pciBusID 0000:01:00.0
Total memory: 2.00GiB
Free memory: 1.54GiB
2017-07-05 22:16:54.532435: I tensorflow/core/common_runtime/gpu/gpu_device.cc:961] DMA: 0 
2017-07-05 22:16:54.532461: I tensorflow/core/common_runtime/gpu/gpu_device.cc:971] 0:   Y 
2017-07-05 22:16:54.532471: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
2017-07-05 22:17:07.284016: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
2017-07-05 22:17:44.973549: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:01:00.0)
Optimization started...
Iteration    1/ 500
2017-07-05 22:17:47.485948: E tensorflow/stream_executor/cuda/cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2017-07-05 22:17:47.485977: E tensorflow/stream_executor/cuda/cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-07-05 22:17:47.485983: F tensorflow/core/kernels/conv_ops.cc:671] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 
[1]    66448 abort      python neural_style.py --content /Users/qinyuhang/Pictures/0.jpeg --styles   

Memecahkannya (setidaknya untuk saya). Pesan kesalahan tidak membawa Anda ke masalah yang benar. Saya mengalami kesalahan ini dari 2 sumber berbeda:

Pertama (seperti yang dikatakan @lockywolf ):
Saya menggunakan notebook jupyter dan terkadang kernel TF tidak akan membebaskan memori GPU dan Anda harus me-restart jupyter untuk membuatnya berfungsi kembali . Ini biasanya terjadi setelah kesalahan run-time atau restart kernel yang tidak tepat...

Kedua:
Terkadang Anda serakah dengan memori GPU dan mencoba hal-hal seperti ini:

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.9)
sess = tf.InteractiveSession(config=tf.ConfigProto(gpu_options=gpu_options))

Ini fatal bagi konfigurasi saya dan mulai mendapatkan kesalahan ini. Solusinya adalah menggunakan cara default untuk memulai sesi interaktif :
sess = tf.InteractiveSession()

Sistem:

Ubuntu 14.04
GeForce GTX 780
Versi Driver CUDA = 8.0
Versi CUDNN = 5.1
Versi TensorFlow = 1.2.1

Saya memiliki masalah yang sama saat menjalankan skrip saya sendiri sekarang.
Saya pikir itu adalah alasan yang sama seperti yang dijelaskan @lockywolf :

Dalam kasus saya, ini terjadi karena instance tensorflow lain memegang GPU. (Skrip lain sedang berjalan.)

Saya cukup sering mengalami kesalahan ini tetapi tidak teratur, kemudian saya mengikuti petunjuk @RawthiL dan menambahkan sesi ke skrip saya. Namun, saya menjalankan skrip dengan sukses me-restart kernel dan mendapatkan pesan kesalahan yang sama lagi. Apakah ada solusi untuk membuka sesi, mengklaim GPU dan menutupnya setelah perhitungan selesai?

Bersulang!

Sunting:
Di samping solusi @RawthiL saya mengikuti pengenalan Keras TF di mana mereka mengatakan:

Kita harus mulai dengan membuat sesi TensorFlow dan mendaftarkannya ke Keras. Ini berarti Keras akan menggunakan sesi yang kita daftarkan untuk menginisialisasi semua variabel yang dibuatnya secara internal.

impor tensorflow sebagai tf
sess = tf.Session()

dari hard import backend sebagai K
K.set_session(sess)

Permasalahan yang sama. Telah berjuang keras untuk membuat ini bekerja sepanjang hari.

$ ~/neural-style$ python neural_style.py --content ~/Documents/8UhFDcjT.jpg --styles ~/Documents/9odz6-jbngd.png --output ./Documents/Scott.png
2017-07-26 20:57:08.373361: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373397: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373413: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373417: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.373421: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and could speed up CPU computations.
2017-07-26 20:57:08.431319: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:893] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2017-07-26 20:57:08.431630: I tensorflow/core/common_runtime/gpu/gpu_device.cc:940] Found device 0 with properties: 
name: GeForce GTX 870M
major: 3 minor: 0 memoryClockRate (GHz) 0.967
pciBusID 0000:01:00.0
Total memory: 2.95GiB
Free memory: 2.53GiB
2017-07-26 20:57:08.431664: I tensorflow/core/common_runtime/gpu/gpu_device.cc:961] DMA: 0 
2017-07-26 20:57:08.431674: I tensorflow/core/common_runtime/gpu/gpu_device.cc:971] 0:   Y 
2017-07-26 20:57:08.431690: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 870M, pci bus id: 0000:01:00.0)
2017-07-26 20:57:11.692616: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 870M, pci bus id: 0000:01:00.0)
2017-07-26 20:57:19.800938: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 870M, pci bus id: 0000:01:00.0)
Optimization started...
Iteration    1/1000
2017-07-26 20:57:20.535515: E tensorflow/stream_executor/cuda/cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2017-07-26 20:57:20.535573: E tensorflow/stream_executor/cuda/cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-07-26 20:57:20.535588: F tensorflow/core/kernels/conv_ops.cc:671] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 

Saya menemukan bahwa dalam beberapa kasus mengatur ulang kernel jupyter tidak akan berfungsi. Sebenarnya itu terjadi pada saya saat menggunakan jupyterhub.
Saya me-restart kernel, menonaktifkan virtualenv saya dan memori GPU masih ditahan oleh beberapa proses. Perintah nvidia-smi mengatakan bahwa tidak ada proses menggunakan GPU dan ketika saya mencoba mengatur ulang dengan sudo nvidia-smi --gpu-reset -i 0 (untuk 0 gpu core) dikatakan sebagai berikut:

Tidak dapat mereset GPU ini karena sedang digunakan oleh beberapa proses lain (misalnya aplikasi CUDA, aplikasi grafis seperti server X, aplikasi pemantauan seperti instance nvidia-smi lainnya). Harap matikan terlebih dahulu semua proses yang menggunakan GPU ini dan semua aplikasi komputasi yang berjalan di sistem (bahkan saat berjalan di GPU lain), lalu coba setel ulang GPU lagi.
Mengakhiri lebih awal karena kesalahan sebelumnya.

Jadi ada beberapa proses yang menahan GPU, dan saya mencarinya menggunakan sudo fuser -v /dev/nvidia* yang mengatakan bahwa sebenarnya ada sesuatu yang menahan GPU... python itu sendiri... membunuhnya dan meluncurkan kembali virtualenv dan jupyter melakukan menipu.
Saya mungkin bukan cara terbaik untuk menyelesaikan ini, tetapi lebih baik daripada mengatur ulang komputer ketika semua opsi lain gagal.

Punya masalah yang sama. GPU adalah GTX 1070 dan CUDA 8.0 dan CUDNN 5.1 untuk CUDA 8.0.

Masalah tidak tergantung pada kode pengguna, itu tergantung pada perangkat keras atau Nvidia atau status perangkat lunak Google. Kesalahan ini dapat mulai meningkat kapan saja dan reboot dapat memperbaikinya dengan kode pengguna yang sama.

Masalah yang sama dengan Windows 10, GTX770, CUDA 8.0, CUDNN 5.1, TF-GPU 1.1.0, tidak yakin di mana mendapatkan versi driver perangkat tetapi Windows Device Manager melaporkan 21.21.13.7651 untuk driver tampilan.

connect  84557d348c06492e80ff0304d516367b
2017-08-11 15:51:41.974028: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2017-08-11 15:51:41.974536: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] error retrieving driver version: Unimplemented: kernel reported driver version not implemented on Windows
2017-08-11 15:51:41.974923: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-08-11 15:51:41.975194: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

Masalah yang sama dengan Windows 10, GTX770, CUDA 8.0, CUDNN 5.1, TF-GPU 1.1.0, tidak yakin di mana mendapatkan versi driver perangkat tetapi Windows Device Manager melaporkan 21.21.13.7651 untuk driver tampilan.

connect  84557d348c06492e80ff0304d516367b
2017-08-11 15:51:41.974028: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2017-08-11 15:51:41.974536: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:366] error retrieving driver version: Unimplemented: kernel reported driver version not implemented on Windows
2017-08-11 15:51:41.974923: E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:326] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2017-08-11 15:51:41.975194: F c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\kernels\conv_ops.cc:659] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

Perbaikan @ggranum berhasil untuk saya:

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)

Dalam kasus saya, masalah yang sama diselesaikan dengan memperbarui driver GPU NVIDIA.

Apakah masalah ini telah diselesaikan sepenuhnya. Saya menjalankan TF 1.3.0 di Ubuntu 16.04 dengan CUDA 8.0 dan cuDNN 5.1. Saya menggunakan Anaconda untuk menginstal paket saya. Secara acak 4 hari yang lalu, saya juga mengalami kesalahan ini

name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:05:00.0 Total memory: 10.91GiB Free memory: 10.30GiB 2017-09-05 07:47:05.397839: W tensorflow/stream_executor/cuda/cuda_driver.cc:523] A non-primary context 0x30028e0 exists before initializing the StreamExecutor. We haven't verified StreamExecutor works with that. 2017-09-05 07:47:05.401343: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 1 with properties: name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:06:00.0 Total memory: 10.91GiB Free memory: 10.75GiB 2017-09-05 07:47:05.658932: W tensorflow/stream_executor/cuda/cuda_driver.cc:523] A non-primary context 0x2ffe910 exists before initializing the StreamExecutor. We haven't verified StreamExecutor works with that. 2017-09-05 07:47:05.659690: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 2 with properties: name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:09:00.0 Total memory: 10.91GiB Free memory: 10.75GiB 2017-09-05 07:47:05.898536: W tensorflow/stream_executor/cuda/cuda_driver.cc:523] A non-primary context 0x2ffa940 exists before initializing the StreamExecutor. We haven't verified StreamExecutor works with that. 2017-09-05 07:47:05.899294: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 3 with properties: name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRate (GHz) 1.582 pciBusID 0000:0a:00.0 Total memory: 10.91GiB Free memory: 10.75GiB 2017-09-05 07:47:05.903197: I tensorflow/core/common_runtime/gpu/gpu_device.cc:976] DMA: 0 1 2 3 2017-09-05 07:47:05.903209: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 0: Y Y Y Y 2017-09-05 07:47:05.903215: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 1: Y Y Y Y 2017-09-05 07:47:05.903218: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 2: Y Y Y Y 2017-09-05 07:47:05.903223: I tensorflow/core/common_runtime/gpu/gpu_device.cc:986] 3: Y Y Y Y 2017-09-05 07:47:05.903236: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:05:00.0) 2017-09-05 07:47:05.903242: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:1) -> (device: 1, name: GeForce GTX 1080 Ti, pci bus id: 0000:06:00.0) 2017-09-05 07:47:05.903248: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:2) -> (device: 2, name: GeForce GTX 1080 Ti, pci bus id: 0000:09:00.0) 2017-09-05 07:47:05.903252: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:3) -> (device: 3, name: GeForce GTX 1080 Ti, pci bus id: 0000:0a:00.0) 2017-09-05 07:47:20.297138: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:05:00.0) 2017-09-05 07:47:20.297190: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:1) -> (device: 1, name: GeForce GTX 1080 Ti, pci bus id: 0000:06:00.0) 2017-09-05 07:47:20.297206: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:2) -> (device: 2, name: GeForce GTX 1080 Ti, pci bus id: 0000:09:00.0) 2017-09-05 07:47:20.297220: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:3) -> (device: 3, name: GeForce GTX 1080 Ti, pci bus id: 0000:0a:00.0) 2017-09-05 07:47:24.845499: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080 Ti, pci bus id: 0000:05:00.0) 2017-09-05 07:47:24.845534: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:1) -> (device: 1, name: GeForce GTX 1080 Ti, pci bus id: 0000:06:00.0) 2017-09-05 07:47:24.845542: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:2) -> (device: 2, name: GeForce GTX 1080 Ti, pci bus id: 0000:09:00.0) 2017-09-05 07:47:24.845548: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1045] Creating TensorFlow device (/gpu:3) -> (device: 3, name: GeForce GTX 1080 Ti, pci bus id: 0000:0a:00.0) 2017-09-05 07:47:34.884524: E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR 2017-09-05 07:47:34.884597: E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM 2017-09-05 07:47:34.884616: F tensorflow/core/kernels/conv_ops.cc:672] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms)

Saya memiliki 4 GPU 1080ti. Selama menjalankan model saya, saya memantau nvidia-smi dan mendapatkan

-------------------------------------------------- ----------------------------+
| Proses: Memori GPU |
| Jenis PID GPU Nama proses Penggunaan |
|================================================== ==============================|
| 0 1422 G /usr/lib/xorg/Xorg 279MiB |
| 0 3530 G compiz 195MiB |
| 0 11249 C /home/simon/anaconda3/bin/python 10157MiB |
| 1 11249 C /home/simon/anaconda3/bin/python 10611MiB |
| 2 11249 C /home/simon/anaconda3/bin/python 10611MiB |
| 3 11249 C /home/simon/anaconda3/bin/python 10611MiB |
+------------------------------------------------- ----------------------------+

Jadi untuk beberapa alasan Python memonopoli memori. Tentu saja jika saya membunuh ini, itu akan membunuh notebook jupyter saya. Saya tidak memiliki proses zombie yang berjalan. Saya telah mencoba.

gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.1) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

yang memang mengurangi penggunaan GPU tetapi saya masih mendapatkan kesalahan penanganan cuDDN yang sama. Saya telah menginstal ulang TF. CUDA, cuDNN, Anaconda tanpa dampak pada masalah.

Mengapa kesalahan ini terjadi secara acak dan bagaimana ini bisa diselesaikan.

TensorFlow 1.3 dibuat dengan cuDNN 6.
Harap tingkatkan instalasi cuDNN Anda.

Terima kasih, Gunan - sayangnya tidak ada bedanya. Bahkan dengan cuDNN 6, saya masih mendapatkan cuDNN tidak dapat membuat kesalahan pegangan. Bahkan mengatur GPUptions secara langsung tidak mencegah kesalahan, meskipun hal itu mengurangi jumlah memori GPU yang digunakan. Memori GPU diambil oleh Python, jadi jika saya mematikan ini, itu menutup notebook Jupyter saya. Saya telah terjebak dalam hal ini selama hampir 4 hari sekarang dan tampaknya telah kehabisan semua saran yang saya lihat online. Mungkinkah ini masalah TF 1.3?

Hanya untuk mereka yang tergila-gila dengan ini:

Saya kadang-kadang mendapat kesalahan CUBLAS juga. Jadi saya melakukan ini:

cd /usr/local/cuda/samples/7_CUDALibraries/simpleCUBLAS
make
./simpleCUBLAS

dan menemukan bahwa saya tidak dapat menginisialisasi CUBLAS

Jadi selanjutnya saya melakukan ini (berdasarkan saran)

sudo rm -f ~/.nv

Dan itu berhasil. Cheers..... itu 4 hari terbuang sia-sia. Semoga ini menyelamatkan orang lain

@SimonWalsh1000 Itu berhasil!! Terima kasih

periksa .theanorc Anda di jalur rumah Anda (jika Ubuntu), dan atur cnmem lebih kecil .... mungkin cnmem=0.8, dan itu berfungsi untuk saya sekarang

Saya membuatnya bekerja dengan sempurna di bawah Windows 10 dengan GTX 1070.
Saya menggunakan cudnn 7.0.2
Menurunkan ke vs 6.0 memecahkan masalah saya:

cuda_8.0.61_win10.exe
cudnn-8.0-windows10-x64-v6.0.zip
python-3.6.2-amd64.exe

Diposting seluruh proses instalasi di sini:
http://klaatuveratanecto.com/installing-tensorflow-gpu-windows-10-running-image_retraining/

Hai, saya mendapat pertanyaan yang sama. Namun, saya menemukan alasannya adalah saya menggunakan tensorflow dua kali secara bersamaan.

Misalnya, saya biasanya menggunakan notebook Jupyter untuk skrip sederhana dan menggunakan PyCharm untuk proyek. Jika saya tidak mematikan jupyter notebook , saya dapat menemukan kesalahan ini di file Pycharm.

Berharap ini bisa membantu.


WIndows10 64,
NVIDIA TitanX,
Sopir 385,41,
Cuda 8.0.60
Cudnn 6.0
Python 3.5.2
Tensorflow 1.3

Saya setuju dengan @strickon : sepertinya ini masalah alokasi memori.
Saya memiliki notebook dengan program tensorflow yang berjalan dan saya mencoba menjalankan python + tensorflow di terminal Windows lain dan mendapatkan kesalahan. Kemudian saya me-restart notebook saya (melepaskan memori GPU) dan mencoba menjalankan python di terminal Windows lagi dan berhasil! Saya pikir tensorflow harus memberikan pesan kesalahan yang lebih baik untuk memberi tahu pengguna dengan penjelasan yang lebih rinci.

Saya menggunakan windows 10 , cuda 8 dan cudnn 6 dengan :

nama: Quadro K620
mayor: 5 minor: 0 memoriClockRate (GHz) 1,124
pciBusID 0000:01:00.0
Total memori: 2.00GiB
Memori bebas: 1.66GiB

Langkah-langkah yang hampir sama berhasil untuk saya juga, saya memiliki sedikit pemahaman tentang cara kerjanya. Saya baru saja menutup semua jendela, terminal python tertutup dibuka di pycharm --termasuk jendela yang dibuka oleh eksekusi sebelumnya dari program yang sama untuk merencanakan kemajuan dalam pelatihan dan membuka kembali dan menjalankannya - ini berfungsi tanpa kesalahan. Kesalahan sebelumnya yang dilaporkan tampaknya tidak memberikan petunjuk langsung ---

Halo,
Saya memiliki masalah yang sama, menjalankan python dengan Sudo memecahkan masalah saya.

@SimonWalsh1000 Anda adalah pahlawan saya !! Ini bekerja untuk saya juga!

@hesamaraghi Menjalankan dengan sudo juga membantu kami. Kami dapat menjalankan sebagai non-root dengan menambahkan pengguna non-root kami ke grup nvidia-persistenced . Lihat komentar asli saya: https://github.com/tensorflow/tensorflow/issues/14048#issuecomment -340898847

Saya memiliki masalah yang sama di Ubuntu 16.04 dan cuda-8.0 (dengan GTX1080Ti). Saya hanya ingin memberi tahu Anda semua dengan masalah yang sama bahwa solusi yang diberikan oleh @SimonWalsh1000 bekerja untuk saya dengan sempurna (yaitu, masalah inisialisasi CUBLAS diselesaikan oleh sudo rm -rf ~/.nv/ ). Jadi, terima kasih banyak @SimonWalsh1000 , saya menghabiskan beberapa jam...

@SimonWalsh1000 Ini benar-benar berfungsi. Terima kasih banyak!

@SimonWalsh1000 berfungsi seperti pesona, terima kasih !!!!

Saya memiliki masalah yang sama di Windows 10, CUDA 8.0, cuDNN 6.1 dengan GTX1070Ti.
Saya menemukan alasannya: saya telah menjalankan kode tensorflow di annconda spyder IDE, setelah itu saya menjalankan kode tensorflow lain di annconda Prompt.
selesaikan dengan menutup spyder IDE
@lockywolf benar

Saya memiliki masalah yang sama. Saya mencoba metode @strickon , dan saya tidak tahu tentang "nvidia-smi" mungkin itu adalah perintah di Linux. Saya memecahkan masalah ini melalui pembaruan cuDNN 6.0 untuk CUDA8.0 ke cuDNN 7.0 untuk CUDA8.0

sistem di mulai:

  • Windows 10
  • CUDA8.0
  • cuDNN6.0
  • Anaconda3.5(python3.5)
  • GeForce 840M mayor: 5 minor: 0 memoriClockRate(GHz): 1,124
  • 2.00GiB gratisMemori: 1.66GiB

sistem setelah diselesaikan:

  • Windows 10
  • CUDA8.0
  • cuDNN7.0
  • Anaconda3.5(python3.5)
  • GeForce 840M mayor: 5 minor: 0 memoriClockRate(GHz): 1,124
  • 2.00GiB gratisMemori: 1.66GiB

Saya pikir masalah ini mungkin disebabkan oleh ketidakcocokan versi perpustakaan dan perangkat keras. @chleibig juga menyelesaikan ini dengan memperbarui driver GPU. Semoga ini bisa membantu.

Bagi saya menempatkan: config.gpu_options.allow_growth = True di sesi tensorflow memperbaiki masalah.
Cuda 8, tf 1.4, cudnn 6

jalankan ini perbaiki masalah.

sudo rm -rf ~/.nv

pertanyaan yang sama. Apakah ada solusi untuk mengatasi masalah tersebut?
Situasi saya adalah:
Nama: GeForce GTX 1080
totalMemori: 7.92GiB gratisMemori: 2.50GiB
tensorflow: gpu-1.4.0

Saya sedang menguji satu GPU tetapi menjalankan tiga instance tensorflow.
dalam kode saya seperti ini:
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0,3)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

dua instance tensorflow lainnya berjalan dengan baik, tetapi hanya yang terakhir yang menjalankan kesalahan seperti ini:

E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:672] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo(), &algoritma)

mengapa? Apakah konfigurasi gpu terlalu kecil: gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.3)
Saya tidak yakin. ingin beberapa saran. Saya akan mencoba.

Lihat solusi saya....

Pada 19 Desember 2017 pukul 08:20, tbchj [email protected] menulis:

pertanyaan yang sama. Apakah ada solusi untuk mengatasi masalah tersebut?
Situasi saya adalah:
Nama: GeForce GTX 1080
totalMemori: 7.92GiB gratisMemori: 2.50GiB
tensorflow: gpu-1.4.0

Saya sedang menguji satu GPU tetapi menjalankan tiga instance tensorflow.
dalam kode saya seperti ini:
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0,3)
sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

dua instance tensorflow lainnya berjalan dengan baik, tetapi hanya yang terakhir yang berjalan
kesalahan seperti ini:

E tensorflow/stream_executor/cuda/cuda_dnn.cc:371] tidak dapat membuat cudnn
menangani: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:338] tidak dapat menghancurkan
pegangan cudnn: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:672] Pemeriksaan gagal:
stream->parent()->GetConvolveAlgorithms(conv_parameters.
ShouldIncludeWinogradNonfusedAlgo(), &algoritma)

mengapa? Apakah konfigurasi gpu terlalu kecil: gpu_options = tf.GPUOptions(per_process_gpu_
memori_fraksi=0,3)
Saya tidak yakin. ingin beberapa saran. Saya akan mencoba.


Anda menerima ini karena Anda disebutkan.
Balas email ini secara langsung, lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/6698#issuecomment-352670885 ,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/AJq-HpINYs1Uae6ghIW3qKCD56SUDhFeks5tB3HZgaJpZM4Lc7S1
.

--
Terbaik
Simon

SLFWalsh MD MRCP FFRRCSI
[email protected]

Dalam kasus saya, saya menjalankan obor di latar belakang dan memiliki masalah yang sama.
Saya pikir... CUDNN_STATUS_INTERNAL_ERROR dapat terjadi ketika program lain menggunakan cudnn

Dalam kasus saya, saya dapat menjalankan cudnn di lingkungan ipython, namun, saya mendapat pesan kesalahan yang sama ketika saya mencoba menjalankan kode di notebook jupyter

Hai, Saya mengalami masalah yang sama dan sejauh ini tidak ada saran yang membantu saya menyelesaikannya.
Saya menggunakan laptop Asus Zenbook Pro dengan Windows 10 dengan spesifikasi sebagai berikut:

imagen

Spesifikasi GPU saya adalah sebagai berikut:

imagen

Saya mengikuti tutorial ini: https://www.tensorflow.org/get_started/mnist/pros, di mana Anda harus menerapkan dan melatih 1) regresi softmax dan 2) CNN multilayer dengan dataset MNIST.

Ini adalah kode saya: MNIST_Tutorial.zip . Zip memiliki 2 file: MNIST_softmax_regression.py dan MNIST_multilayer_CNN.py.

1) Ketika saya menjalankan MNIST_softmax_regression.py, itu berfungsi dengan baik:
imagen
Seperti yang Anda lihat, GPU mulai digunakan dan akurasi akhir sekitar 92% seperti yang diharapkan menurut tutorial.

2) Namun, ketika saya menjalankan MNIST_multilayer_CNN.py, python lumpuh:
imagen

Saya mencoba 2 solusi berdasarkan saran sebelumnya:

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
with tf.Session(config=config) as sess:

dan

config = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.8
with tf.Session(config=config) as sess:

Tak satu pun dari mereka bekerja, meskipun yang kedua menghasilkan output berikut:

imagen

seperti yang Anda lihat, tensorflow pertama-tama mencoba mengalokasikan memori beberapa kali (CUBLAS_STATUS_ALLOC_FAILED) hingga tampaknya berhasil tetapi kemudian kesalahan CUDNN_STATUS_NOT_INITIALIZED muncul dan semuanya gagal lagi.

Btw, saya menginstal tensorflow sesuai dengan pendekatan alternatif di akhir instruksi ini: http://www.python36.com/install-tensorflow-gpu-windows/
imagen

Saya menggunakan penginstal CUDA ini:
imagen
imagen

Dan gunakan file .whl ini untuk menginstal tensorflow:
imagen

Berikut beberapa info lebih lanjut tentang python, pip dan conda:
imagen

Bantuan apa pun akan sangat dihargai.
Terima kasih sebelumnya.

Halo,
Saya menghadapi masalah yang sama pada dua mesin yang berbeda:

Penyiapan 1:
Windows 10 Pro 64bit
Info GPU
Kuda 8.0
ukuran 6.0
Tensorflow 1.4
Python 3.6.4

Pengaturan2:
Windows 10 Pro 64bit
Info GPU
CUDA 8.0
ukuran 6.0
Tensorflow 1.4
Python 3.6.2

Ada pembaruan?

Memiliki pengaturan yang sangat mirip dengan di atas, berjalan di:

Windows 10
GPU
Tensorflow 1.5
CUDA 9.0.176
cudn 7
python 3.6.4, anaconda

Saya mencoba perubahan konfigurasi dan saya masih mendapatkan kumpulan kesalahan "CUDNN_STATUS_NOT_INITIALIZED".

Saya tidak yakin di mana yang setara dengan folder .nv berada di windows, jadi saya tidak dapat menjalankan solusi @SimonWalsh1000 .

@HeinzBenjamin , ada yang sukses?

EDIT: Masih bingung, mungkinkah karena saya menggunakan tensorflow 1.5 & CUDA 9?

Saya telah bertemu masalah yang sama.
Namun, saya menemukan bahwa setelah saya menginstal CUDA 9.0, driver saya tidak akan menjadi versi terbaru.
JADI, coba perbarui driver Nvdia Anda ke versi terbaru dan restart PC Anda. Ini bekerja untuk saya!

kemarin kode saya berfungsi dengan baik, ada pembaruan ke ubuntu pagi ini dan sekarang kode saya menghasilkan ini. tidak ada lagi yang berubah.

11-02-2018 07:54:57.097712: E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERROR
11-02-2018 07:54:57.097756: E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
11-02-2018 07:54:57.097767: F tensorflow/core/kernels/conv_ops.cc:667] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo(), &algorithms)

Saya telah me-reboot sistem belasan kali.
setelah beberapa reboot, kesalahan berubah menjadi

11-02-2018 07:19:33.487404: I tensorflow/stream_executor/cuda/cuda_dnn.cc:393] versi driver yang mungkin tidak mencukupi: 384.111.0 11-02-2018 07:19:33.487423: E tensorflow/stream_executor/cuda/ cuda_dnn.cc:352] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM-11-02-2018 07:19:33.487439: F tensorflow/core/kernels/conv_ops.cc:667] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo(), &algoritma)

tapi setelah upgrade ke 390.25 sekarang menghasilkan error pertama lagi.

kode tensorflow saya yang lain berfungsi dengan baik.

saya juga mencoba menghapus direktori nv tetapi itu tidak berpengaruh

ubuntu 17.10, gtx 1060 6gb

Saya mendapatkan kesalahan ini pada Windows 10 dengan CUDA 9.0 dan GT 750M saya menyelesaikannya dengan membatasi penggunaan GPU menjadi 0,7 dengan: config.gpu_options.per_process_gpu_memory_fraction = 0.7

Seperti yang diposting orang lain, apa pun yang lebih tinggi dari 0,7 membuat Python mogok.

Setelah juga menerima trinitas kesalahan:

CUDNN_STATUS_NOT_INITIALIZED
conv_parameters.ShouldIncludeWinogradNonfusedAlgo(), &algorithms)

Mencoba @ zzhang68 's solusi ... Updated driver setelah 9,0 driver yang lebih tua diinstal.
_Dan itu berhasil!_

Windows 10 | GTX 980 Ti
CUDA 9.0 (yang datang dengan driver usang!!!!)
\cudnn-9.0-windows10-x64-v7\cuda\bin (cudann64_7.dll) di PATH

python 3.6 miniconda
tensorflow-gpu 1.5.0

menghadapi masalah yang sama. tf1.5 py2.7 titan x cuda8.
config.gpu_options.allow_growth = True
tidak bekerja

Saya mendapatkan kesalahan ini di windows 10 dengan CUDA 9.0 dan GTX 1060.
python 3.5
tensorflow-gpu 1.5.0
Saya menemukan cara mudah untuk menyelesaikannya: perbarui NVIDIA Display Driver saya ke versi terbaru, reboot PC
kemudian berhasil!

@SimonWalsh1000 , ini benar-benar bekerja untuk saya, terima kasih banyak!

Solusi dari @strickon dan @ggranum plus pembaruan driver menyelesaikan ini untuk saya. Dugaan saya adalah bahwa beberapa orang telah menyesuaikan konfigurasi daya yang mengempiskan beberapa fungsi hingga diperlukan.

memperbarui driver gpu saya memecahkan masalah ini untuk saya. driver gpu saya adalah desember 2017 dan yang terbaru adalah 26 feb 2018.

anda harus memiliki tensorflow, versi CUDA, versi cuDNN, dan driver gpu yang benar untuk menghindari masalah ini

spesifikasi saya:
aliran tensor 1.6
cuDNN v7.0.4 (13 November 2017), untuk CUDA 9.0 (saya harus menggunakan versi ini agar TF saya berfungsi)

Inilah cara saya memperbaikinya. Saya telah menginstal CUDA 9.1 dan CUDA 9.0. Seperti yang lain, saya harus memutakhirkan driver GPU saya lagi setelah menginstal CUDA (melalui program Geforce Experience). TensorFlow backend Keras menggunakan CUDA 9.0 pada tanggal hari ini, jadi pastikan Anda telah menginstalnya. Kemudian, unduh cuDNN 7.0.5 (bukan versi 7.1 terbaru) dari https://developer.nvidia.com/rdp/cudnn-download lalu ekstrak dan salin folder bin, include, dll ke C:\Program File\NVIDIA GPU Computing Toolkit\CUDA\v9.0 folder. Sekarang harus bekerja.

Terima kasih atas semua bantuan ini dan setelah saya mencoba menurunkan cuCNN saya dari cnDNN-9.1 menjadi cnDNN-9.0 dan berhasil.
Lingkungan saya adalah Centos7 + CUDA 9.0 + Tensorflow 1.6

Kesalahan yang sama pada Python3.5, ubuntu 16.04, tf1.5
Memperbarui driver gpu ke versi 390.42 memecahkan masalah ini untuk saya.

Halo kawan-kawan,

Saya baru saja mendapat masalah yang sama
" E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERRORE tensorflow/stream_executor/cuda/cuda_dnn.cc:352] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAMF tensorflow/core/kernels/conv_ops.cc:605] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms(&algorithms) "

dan diselesaikan dengan:
1- Memperbarui driver NVIDIA Geforce920M
2- Mengatur sesi tf dengan benar sebagai berikut:
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
sess = tf.Session(config=config)
3- Memulai ulang PC

Setelah itu saya mendapat pesan kesalahan yang lebih tepat:
"cuDNN7.1 ditemukan, tetapi cuDNN7.0 diharapkan. Tingkatkan"

Dan diselesaikan dengan:
alih-alih memutakhirkan sisanya (tf,cuda,..) untuk memenuhi cuDNN, saya lebih suka menurunkan cuDNN7.0 untuk memenuhi sisanya.
(menurunkan cuDNN dari 7.1 ke 7.0.4 ) dan itu berfungsi dengan baik.

Saya juga mengalami kesalahan ini ketika saya menjalankan The Cnn_Mnist.py

INFORMASI lingkungan

  • Window10 + tensorflow_gpuV1.6 + cudav9.0, cudnnv7.0 + Python3.5(Anaconda)+ GeForce 920MX
| NVIDIA-SMI 385.54                 Driver Version: 385.54                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce 920MX      WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   37C    P0    N/A /  N/A |     84MiB /  2048MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     11988      C   ...naconda3\envs\tensorflow_GPU\python.exe N/A      |
+-----------------------------------------------------------------------------+

INFORMASI Galat:

2018-03-20 13:38:27.439071: E C:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\35\tensorflow\stream_executor\cuda\cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2018-03-20 13:38:27.443473: E C:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\35\tensorflow\stream_executor\cuda\cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2018-03-20 13:38:27.449591: F C:\tf_jenkins\workspace\rel-win\M\windows-gpu\PY\35\tensorflow\core\kernels\conv_ops.cc:717] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms)

Sangat berharap untuk mendapatkan bantuan semua orang :D

Dalam kasus saya (Windows 10), masalah ini disebabkan oleh penggunaan versi cuDNN yang salah. Meskipun saya mengikuti instruksi resmi TensorFlow dengan cermat, saya tidak sengaja mengunduh versi 7.0.5 untuk CUDA 9.1, sementara TF memanggil secara eksplisit untuk CUDA 9.0.

Segera setelah saya memperbaiki kesalahan cuDNN, konvnet saya mulai berfungsi 👍 :)

Masalah yang sama tf 1.2, cuda 8.0, cudnn 5.1
Nvidia memperbarui driver

Nah, saya berhasil memperbarui driver nvidia ke versi terakhir menurut cuda, dan berhasil. Nah, cara ini bisa kamu coba.

Yah, Yah. Itu tidak bisa bekerja dengan baik. Masalah terjadi lagi

Menggunakan: cudnn-9.0-windows10-x64-v7 dan tensorflow-gpu==1.7.0

tutorials\image\imagenet>python class_image.py
gagal dengan kesalahan: tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERROR

Menambahkan tiga baris kode dari ggranum di atas memecahkan masalah

Bagi saya masalahnya adalah menggunakan cudnn lib yang salah
Saya menggunakan cudnn untuk cuda 9.1 ketika saya memiliki cuda 9.0. Jadi saya menginstal ulang cudnn untuk cuda 9.0 dan semuanya berfungsi.

Punya masalah yang sama dengan Win10/Anaconda3/tf-1.3/keras-2.1.3
tambahkan kode berikut ke awal file .py, yang memecahkan masalah saya.

from __future__ import print_function, division
import tensorflow as tf
from keras.backend.tensorflow_backend import set_session  
config = tf.ConfigProto()  
config.gpu_options.allow_growth = True  
set_session(tf.Session(config=config)) 

@serans1
Ini bekerja untuk saya :)

Terima kasih @zzhang68 . Solusi Anda berhasil untuk saya.

Menambahkan ini di awal file berfungsi untuk saya:

konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
sess = tf.Session(config=config)

GTX 1070. Sedang mengalami masalah ini. Driver saya terakhir diperbarui pada 2017. Diperbarui ke driver terbaru (Mei 2018), reset komputer saya dan berhenti mendapatkan masalah. Semoga ini membantu

bekerja untuk saya juga dengan solusi @zzhang68 .
Ubuntu16.04, tensorflow1.7, nvidia1080, cuda9.0, cudnn7.05.
Setelah memperbarui driver ke 390.59, masalahnya hilang.

Opsi lain untuk win10 menggunakan cpu tensorflow...coba

def run_inference_for_single_image(gambar, grafik):
dengan graph.as_default():
konfigurasi = tf.ConfigProto(
device_count = {'GPU': 0}
)
dengan tf.Session(config=config) sebagai sess:

@lwd1132438569 Bolehkah saya bertanya "versi terbaru" yang Anda maksud? Saya juga mengalami masalah ini dengan Ubuntu saya, dan saya memiliki python 3.5.2, CUDA 9.0, tensorflow-gpu 1.9.0, Driver adalah 390.48 sekarang.
Saya ingin mencoba, tetapi saya khawatir tensorflow tidak akan mendukung versi 'terbaru' sekarang....
Terima kasih1

@vburca terima kasih banyak. Saya tidak menyadari bahwa memiliki notebook jupyter lain akan menghabiskan memori GPU. Terima kasih banyak!!!

Saya menghadapi masalah yang sama. Dalam kasus saya, saya menurunkan versi tensorflow dan itu berhasil untuk aplikasi saya.

Saya menemukan masalah yang sama. Dalam kasus saya, alasannya adalah kekurangan memori sistem. Ketika saya menyelesaikan aplikasi lain yang berjalan, masalah itu telah hilang.

2018-09-03 22:50:26.576765: E tensorflow/stream_executor/cuda/cuda_dnn.cc:352] Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2018-09-03 22:50:26.576831: E tensorflow/stream_executor/cuda/cuda_dnn.cc:360] Possibly insufficient driver version: 390.77.0
[1]    8515 segmentation fault (core dumped)  python3 training.py

GTX1070
CUDA9.0
CUDNN7.1 untuk CUDA9.0
TensorFlow 1.10.1
Menjalankan tensorflow sederhana seperti hello world tanpa masalah.
Tidak ada yang tahu mengapa ini terjadi ..................

pasti masalah memori terkait cuda, bunuh semua proses terkait cuda lainnya dan latih/uji model Anda, yang seharusnya menyelesaikan masalah

@ drproy2k solusi tampaknya efektif untuk saya juga. Masalahnya adalah saya menjalankan instance notebook jupyter lain dengan keras, dan saya mencoba menjalankan pelatihan keras di Pycharm. Jadi cukup tutup notebook jupyter dan matikan proses ini menyelesaikan masalah ini.

[Terpecahkan] Dalam kasus saya, saya telah menginstal CUDA v9.2 dan cuDNN yang sesuai, tetapi tidak menginstal cuDNN khusus untuk CUDA v9.0 yang dibutuhkan tensorflow dengan benar.

Pastikan Anda mengunduh versi cuDNN yang benar dari sini: https://developer.nvidia.com/rdp/cudnn-archive

dan BUKAN yang dari sini: https://developer.nvidia.com/cudnn

Trik emas, mulai ulang semuanya, berhasil untuk saya.

Restart melakukan trik untuk saya juga 👍
(Tapi penjelasan mengapa ini terjadi akan sangat bagus)

cuDNN

Saya menghadapi masalah yang sama. Model dengan lapisan konvolusi tidak akan berfungsi.
Saya mengunduh cuDNN versi 7.0 untuk CUDA 9.0 . Setelah mengganti file cudnn64_7.dll , saya dapat menggunakan convnets tanpa repot.

Versi DLL yang menyebabkan masalah => 6.14.11.9020
Versi DLL yang memecahkan masalah => 6.14.11.9000
Versi GPU Tensorflow => 1.11.00
Versi CUDA => 9.0
Versi Python => 3.5
OS => Windows 10
Langkah-langkah lain => Buat file BAT untuk ditambahkan ke variabel PATH dan kemudian luncurkan CMD.EXE dengan opsi /k
Terima kasih semuanya.

Saya bisa mendapatkan program untuk bekerja dengan membatasi penggunaan GPU. Dalam kasus saya dengan 3gb gtx 1060 di ubuntu 16.04, jika saya mengatur opsi gpu per_process_gpu_memory_fraction ke .7 itu berfungsi. Apa pun yang lebih tinggi, saya mendapatkan kesalahan ini

E tensorflow/stream_executor/cuda/cuda_dnn.cc:397] tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERROR
E tensorflow/stream_executor/cuda/cuda_dnn.cc:364] tidak dapat menghancurkan pegangan cudnn: CUDNN_STATUS_BAD_PARAM
F tensorflow/core/kernels/conv_ops.cc:605] Pemeriksaan gagal: stream->parent()->GetConvolveAlgorithms(&algorithms)

Ini bisa menjadi kasus pelaporan kesalahan yang buruk oleh tensorflow. Tampaknya sama sekali tidak berhubungan. Mungkin ini adalah petunjuk untuk menyelesaikan ini dengan cara yang lebih baik?

Hebat, ketika saya mengurangi gpu_memory_fraction dari 0,8 menjadi 0,7, itu mulai berfungsi!

Saya menghadapi masalah ini setelah secara tidak sengaja memutakhirkan tensorflow-gpu dari versi 1.6.0 ke 1.18.0. Hal ini menyebabkan ketidakstabilan karena versi CUDA dan cuDNN. Solusinya bergulir kembali ke tensorflow-gpu 1.6.0.

Ini adalah solusi untuk masalah saya:

https://stackoverflow.com/questions/50622525/which-tensorflow-and-cuda-version-combinations-are-compatible

Setiap kali Anda mulai menghadapi masalah seperti ini, sebelum Anda meningkatkan dependensi NVIDIA Anda, SELALU coba selesaikan masalah dengan menghapus instalan versi tensorflow dan menginstal versi yang kompatibel dengan dependensi CUDA Anda terlebih dahulu.

Langkah 1: Periksa versi paket tensorflow Anda. Jika Anda memiliki GPU, saya sarankan untuk mencopot pemasangan tensorflow versi cpu untuk menghindari konflik.

pip list | grep tensorflow

Langkah 2: Menghapus instalasi tensorflow-gpu.

pip uninstall tensorflow

Langkah 3: Periksa versi CUDA dan cuDNN Anda. Anda mungkin perlu menyesuaikan jalur ini.

-- CUDA
cat /usr/local/cuda/version.txt
Jika ini gagal, temukan file teks versi cuda Anda menggunakan:
sudo find / -name version.txt

-- cuDNN
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
Jika ini gagal, temukan file teks versi cuda Anda menggunakan:
sudo find / -name cudnn.h

Langkah 4: Periksa apakah versi tensorflow-gpu, cuda, dan cudnn Anda cocok dengan tabel ini.
image

Dalam kasus saya, saya membutuhkan tensorflow-gpu 1.6.0 agar sesuai dengan persyaratan lainnya.

Jadi saya menginstal versi ini menggunakan:
pip install tensorflow-gpu==1.6.0
ini adalah spesifikasi yang berhasil!

OS: Ubuntu 16.04
Versi CUDA: 9.0, V9.0.176
Versi cuDNN: 7.0
Versi Tensorflow-gpu: 1.6.0
Versi Python: 3.5.0

Semoga beruntung!

Dalam kasus saya, saya lupa menutup notebook jupyter ketika saya mulai menjalankan kode lain dalam kode VS, Tutup notebook jupyter memperbaiki masalahnya.

Saya menghadapi masalah yang sama ini.
Dalam kasus saya, saya menjalankan notebook Jupyter saat melatih jaringan saya.
Menutup notebook Jupyter memperbaiki masalah saya.

(Saya pikir itu mungkin harus melakukan sesuatu dengan tuntutan GPU saya yang terlalu tinggi)

Semoga ini membantu!

hai teman-teman, saya menghadapi masalah yang sama. saya menggunakan win10 tensorflow-gpu1.8.0 cuda 9.0 NVIDA gtx1050Ti, ketika saya mengubah versi cudann dari 7.0 menjadi 7.1, masalah terpecahkan

Saya menghadapi masalah yang sama hari ini (gtx1080, cuda 9.2, tfversion = 1.12.0). Jadi dalam kasus saya, saya menjalankan Jupyter notebook , dan kemudian saya mencoba menjalankan skrip saya yang lain, saat itulah kesalahan terjadi. Apa yang Dipecahkan adalah, seperti yang dikatakan @RoytenBerge , mematikan kernal jupyter.

itu berhasil bagi saya ketika menambahkan baris kode ini ke awal skrip @Codersadis

tambahkan kode berikut ke awal file .py, yang memecahkan masalah saya.

dari __future__ impor print_function, divisi
impor tensorflow sebagai tf
dari keras.backend.tensorflow_backend impor set_session
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
set_session(tf.Session(config=config))

@ drproy2k terima kasih, itu juga berhasil untuk saya. saya menjalankan anaconda Prompt saat spyder sedang berjalan. setelah saya mematikan spyder, itu bekerja dengan sempurna!

Kesalahan ini disebabkan oleh masalah memori RAM. Sarankan Anda meningkatkan ke 32GB atau 64GB DDR3 atau DDR4 RAM.
Juga kurangi kuantitas/ukuran data yang sedang diinferensi.

Bukan GPUnya. Saya memiliki 2 kartu X 1080Ti di SLI.

Saya mengikuti panduan instalasi versi untuk menyelesaikan ini-
https://www.tensorflow.org/install/source#tested_source_configurations. Konfigurasi yang kompatibel
TF 1.12
TF-gpu 1.9
CUDA 8

masalah yang sama dengan GeForce GTX 970, CUDNN 7.4.1, CUDA 9.0.176, TF-gpu 1.12.0

Saya menghadapi masalah yang sama ketika menggunakan versi tensorflow yang didukung komunitas di dalam lingkungan conda (yaitu menggunakan > conda install tensorflow-gpu )

Ternyata versi ini sebenarnya tidak bagus di semua situasi (walaupun saya sudah menggunakannya di komputer lain). Versi terbaik untuk digunakan adalah versi pip yang dapat diinstal https://www.tensorflow.org/install/pip di dalam lingkungan conda. Ketika saya melakukan ini semuanya bekerja.

Saya tidak menyadari bahwa saya telah menginstal versi Cuda 10.0 dari lib CUDNN bersama dengan CUDA 9.0 yang telah saya instal saat ini. Setelah saya mengunduh dan mengganti V10 CUDNN dengan V9.0 CUDNN semuanya bekerja dengan baik!
Ini adalah pengabaian karena gagal menginstal sesuatu dengan benar, dan melihat ke belakang saya dapat melihat mengapa ... Jika Anda telah sampai sejauh ini dan lelah bereksperimen, saya telah menulis posting blog di https://aaronjencks.blogspot .com/2019/03/the-ultimate-guide-to-installing.html yang akan memandu Anda melalui seluruh proses untuk mendapatkan tensorflow dan semua dependensinya agar berfungsi dari awal hingga selesai

@kheffah memiliki masalah yang sama dalam conda. Sudah menggunakan pip untuk menginstal TF dan Keras.
GPU GT 840M, kompatibel dengan komputasi 5.0, CUDA 9, cuDNN 7.4.2, TF 1.12.0. Jendela 8x64

kode pengujian berjalan dengan baik

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
c = tf.matmul(a, b)

ini adalah kesalahan dalam spyder. sudah mencoba memori 0,7 dan trik pertumbuhan. tidak beruntung

classifier.fit_generator(training_set,
                    steps_per_epoch=32,
                    epochs=25,
                    verbose=1,
                    validation_data=test_set,
                    validation_steps=6.25)
Epoch 1/25
Traceback (most recent call last):

  File "<ipython-input-4-6d704090deaf>", line 11, in <module>
    validation_steps=6.25)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\legacy\interfaces.py", line 91, in wrapper
    return func(*args, **kwargs)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", line 1418, in fit_generator
    initial_epoch=initial_epoch)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training_generator.py", line 217, in fit_generator
    class_weight=class_weight)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", line 1217, in train_on_batch
    outputs = self.train_function(ins)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", line 2715, in __call__
    return self._call(inputs)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", line 2675, in _call
    fetched = self._callable_fn(*array_vals)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\client\session.py", line 1439, in __call__
    run_metadata_ptr)

  File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\framework\errors_impl.py", line 528, in __exit__
    c_api.TF_GetCode(self.status.status))

UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above.
     [[{{node conv2d_1/convolution}} = Conv2D[T=DT_FLOAT, _class=["loc:@training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter"], data_format="NCHW", dilations=[1, 1, 1, 1], padding="VALID", strides=[1, 1, 1, 1], use_cudnn_on_gpu=true, _device="/job:localhost/replica:0/task:0/device:GPU:0"](training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter-0-TransposeNHWCToNCHW-LayoutOptimizer, conv2d_1/kernel/read)]]
     [[{{node loss/mul/_91}} = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/device:CPU:0", send_device="/job:localhost/replica:0/task:0/device:GPU:0", send_device_incarnation=1, tensor_name="edge_609_loss/mul", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:CPU:0"]()]]

Beralih ke tensorflow 1.7

Pada Kamis, 3 Januari 2019, 19:29 maxi.wu < [email protected] menulis:

@kheffah https://github.com/kheffah memiliki masalah yang sama dalam conda.
Sudah menggunakan pip untuk menginstal TF dan Keras.
GPU GT 840M, kompatibel dengan komputasi 5.0, CUDA 9, cuDNN 7.4.2, TF 1.12.0.
Jendela 8x64

kode pengujian berjalan dengan baik

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], bentuk=[2, 3], nama='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], bentuk=[3, 2], nama='b')
c = tf.matmul(a, b)

ini adalah kesalahan dalam spyder. sudah mencoba memori 0,7 dan trik pertumbuhan.
tidak beruntung

classifier.fit_generator(training_set,
langkah_per_Epoch=32,
zaman=25,
verbose=1,
validasi_data=test_set,
validasi_langkah=6.25)
Zaman 1/25
Traceback (panggilan terakhir terakhir):

berkas "", baris 11, di
validasi_langkah=6.25)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\legacy\interfaces.py", baris 91, dalam pembungkus
fungsi pengembalian ( args, * kwargs)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", baris 1418, di fit_generator
initial_epoch=initial_epoch)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training_generator.py", baris 217, di fit_generator
kelas_berat=kelas_berat)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\engine\training.py", baris 1217, di train_on_batch
output = self.train_function(in)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", baris 2715, di __call__
kembalikan self._call(input)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\keras\backend\tensorflow_backend.py", baris 2675, di _call
diambil = self._callable_fn(*array_vals)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\client\session.py", baris 1439, di __call__
jalankan_metadata_ptr)

File "c:\Users\maxi.wu\AppData\Local\conda\conda\envs\tfgpu\lib\site-packages\tensorflow\python\framework\errors_impl.py", baris 528, di __exit__
c_api.TF_GetCode(self.status.status))

UnknownError: Gagal mendapatkan algoritma konvolusi. Ini mungkin karena cuDNN gagal untuk menginisialisasi, jadi coba cari untuk melihat apakah pesan log peringatan dicetak di atas.
[[{{node conv2d_1/convolution}} = Conv2D[T=DT_FLOAT, _class=[" loc:@training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter "], data_format="NCHW", dilations=[1, 1 , 1, 1], padding="VALID", strides=[1, 1, 1, 1], use_cudnn_on_gpu=true, _device="/ job:localhost/replica :0/ task:0/device : GPU:0 " ](training/Adam/gradients/conv2d_1/convolution_grad/Conv2DBackpropFilter-0-TransposeNHWCToNCHW-LayoutOptimizer, conv2d_1/kernel/read)]]
[[{{node loss/mul/_91}} = _Recv[client_terminated=false, recv_device="/ job:localhost/replica :0/ task:0/device : CPU:0 ", send_device="/ job:localhost/ replica :0/ task:0/device : GPU:0 ", send_device_incarnation=1, tensor_name="edge_609_loss/mul", tensor_type=DT_FLOAT, _device="/ job:localhost/replica :0/ task:0/device : CPU :0 "]()]]


Anda menerima ini karena Anda berkomentar.
Balas email ini secara langsung, lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/6698#issuecomment-451079405 ,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/ABE215xY0OhbFjA_GhVtEIDl_IB4qQGmks5u_b9NgaJpZM4Lc7S1
.

saya memiliki masalah yang sama pada sistem win10. tetapi ditemukan masalah memori. matikan aplikasi lain yang sedang berjalan yang menghabiskan sumber daya memori yang besar dan cobalah.

Saya memiliki masalah yang sama pada windows 10 NVIDIA GEFORCE GTX 1050 dan segera setelah saya menutup semua tugas yang sedang berjalan, dan mencoba lagi seperti yang disarankan oleh @ xhm1014 di atas, kode saya baru saja mulai berjalan seperti itu. Saya pikir ini pasti masalah terkait memori.

Pasti terkait memori. Anda harus mengupgrade RAM Anda hingga 64GB.

Pada Jumat, 18 Januari 2019 pukul 17:30 Samuel Nde [email protected] menulis:

Saya memiliki masalah serupa di windows 10 NVIDIA GEFORCE GTX 1050 dan segera
saat saya menutup semua tugas yang sedang berjalan, dan mencoba lagi seperti yang disarankan oleh @ xhm1014
https://github.com/xhm1014 di atas, kode saya baru saja mulai berjalan seperti
itu. Saya pikir ini pasti masalah terkait memori.


Anda menerima ini karena Anda berkomentar.
Balas email ini secara langsung, lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/6698#issuecomment-455441208 ,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/ABE217cdDKUuRtdD9jJ_eh2tJWrm2fjeks5vEWnwgaJpZM4Lc7S1
.

Saya mengalami kesalahan dan saya 'memperbaikinya' dengan menutup beberapa contoh Jupyter saya dan menutup aplikasi lain. Saya baru bekerja dengan tensorflow secara umum sehingga kemungkinan ini hanya memperbaiki masalah saya.

E tensorflow/stream_executor/cuda/cuda_dnn.cc:353] Tidak dapat membuat pegangan cudnn: CUDNN_STATUS_INTERNAL_ERROR

Saya mengalami masalah ini dengan 10.1 Cuda+cuDNN7.5 dan TF 1.11 dikompilasi dari sumber dengan cuda. Skrip yang saya coba gunakan membutuhkan baris-baris ini disisipkan di suatu tempat:
config = tf.ConfigProto() config.gpu_options.allow_growth = True

dan kemudian:
sess = tf.Session(graph=detection_graph,config=config)

Ini selesai, banyak "GPU kehabisan memori" - tetapi deteksi berjalan sangat cepat seperti yang saya kira seharusnya ketika kita menggunakan GPU. Terima kasih telah berbagi!

Saya menghadapi masalah yang sama. Dan penggunaan di bawah ini memperbaikinya. cek di sini mendapatkan detail.
ekspor LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/extras/CUPTI/lib64

@EncodeTS Saya baru saja menambahkan contoh minimal yang dapat direproduksi ke posting pertama saya. Bisakah Anda memeriksa apakah itu mereproduksi masalah pada mesin Anda? Di mesin saya, satu lapisan konvolusi berfungsi tetapi tidak dua lapisan konvolusi, yang membuat saya berpikir bahwa masalahnya mungkin disebabkan oleh beberapa keterbatasan sumber daya.

Sebenarnya, saya sedang mengerjakan Ubuntu 18.04, bukan macOS, tetapi ini terlihat masuk akal karena mungkin disebabkan oleh beberapa keterbatasan sumber daya. Saya juga menghadapi masalah yang sama pada GTX 1050 ti (4 GB) tetapi masalah tersebut telah hilang ketika saya menjalankan arsitektur yang sama pada GTX 1080 ti (11 GB). Meskipun semua lingkungan tidak sama antara kedua sistem, saya mencoba yang terbaik dengan memanfaatkan wadah buruh pelabuhan.

Masalah ini umumnya terkait dengan versi cuda dan memori GPU, jika sebelumnya, cara termudah adalah mengubah versi cuda Anda dengan Anaconda! jika nanti, Anda dapat menemukan beberapa cara untuk menyelesaikannya di jawaban lain.
Masalah ini umumnya terkait dengan memori video dan versi cuda. ​​Jika metode mengubah memori GPU di atas tidak valid, pertimbangkan untuk mengubah versi cuda. ​​Cara termudah adalah tidak khawatir tentang versi cuda apa yang diinstal di sistem, langsung di bawah lingkungan proyek di Anaconda Cukup ubah versi cuda, dan uji pro valid.

jika Anda masih mendapatkan masalah ini, coba yang berikut ini. itu berhasil untuk saya
tf.config.gpu.set_per_process_memory_growth(True); tf.config.gpu.set_per_process_memory_fraction(0.4);

tensorflow 2 alfa
cuda 10.0
GTX 1650

Saya memiliki masalah serupa: CUDNN_STATUS_ALLOC_FAILED.
Saya mematahkan kepala saya selama 3-4 jam. Akhirnya diperbaiki.
ini memang berhasil, seperti yang disebutkan di atas oleh banyak orang:
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
sesi = tf.Session(config=config)

Tetapi kuncinya adalah menulisnya tepat di bawah "import tensorflow as tf" yang tidak saya lakukan. Saya telah menulisnya setelah semua impor.

Mungkin versi tensorflow-gpu bermasalah, Anda harus memeriksa versi Anda sendiri coba lagi dan lagi, hapus instalan dan instal... tensorflow-gpu temukan nomor versi yang sesuai, lalu hapus instalan dan instal ulang

itu berhasil bagi saya ketika menambahkan baris kode ini ke awal skrip @Codersadis

tambahkan kode berikut ke awal file .py, yang memecahkan masalah saya.

dari impor masa depan print_function, divisi
impor tensorflow sebagai tf
dari keras.backend.tensorflow_backend impor set_session
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
set_session(tf.Session(config=config))

Saya mendapatkan kesalahan yang sama dengan tensorflow-gpu == 1.8.0 , cudnn version = 7.0.5 dan cuda 9.1.85
, ubuntu 16.04 bahkan setelah saya menambahkan solusi yang disarankan di atas.
Berikut ini adalah stack-trace:

INFO - Waveunet Training - Running command 'run'
INFO - Waveunet Training - Started
SCRIPT START
EPOCH: 0
Dataset ready!
Training...
Sep_Vars: 10265550
Num of variables65
2019-07-25 05:10:09.872823: I tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
2019-07-25 05:10:10.286584: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:898] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2019-07-25 05:10:10.286914: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1356] Found device 0 with properties: 
name: Quadro P4000 major: 6 minor: 1 memoryClockRate(GHz): 1.48
pciBusID: 0000:00:05.0
totalMemory: 7.92GiB freeMemory: 7.83GiB
2019-07-25 05:10:10.286964: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1435] Adding visible gpu devices: 0
2019-07-25 05:10:10.640890: I tensorflow/core/common_runtime/gpu/gpu_device.cc:923] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-07-25 05:10:10.640952: I tensorflow/core/common_runtime/gpu/gpu_device.cc:929]      0 
2019-07-25 05:10:10.640968: I tensorflow/core/common_runtime/gpu/gpu_device.cc:942] 0:   N 
2019-07-25 05:10:10.641194: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1053] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 7566 MB memory) -> physical GPU (device: 0, name: Quadro P4000, pci bus id: 0000:00:05.0, compute capability: 6.1)
2019-07-25 05:10:27.643833: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:94] Filling up shuffle buffer (this may take a while): 2054 of 4000
2019-07-25 05:10:35.917445: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:129] Shuffle buffer filled.
2019-07-25 05:10:36.175698: E tensorflow/stream_executor/cuda/cuda_dnn.cc:455] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2019-07-25 05:10:36.175820: E tensorflow/stream_executor/cuda/cuda_dnn.cc:463] possibly insufficient driver version: 384.183.0
2019-07-25 05:10:36.175842: E tensorflow/stream_executor/cuda/cuda_dnn.cc:427] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2019-07-25 05:10:36.175859: F tensorflow/core/kernels/conv_ops.cc:713] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms) 
Aborted (core dumped)

Tolong bantu

Saya memiliki masalah serupa: CUDNN_STATUS_ALLOC_FAILED.
Saya mematahkan kepala saya selama 3-4 jam. Akhirnya diperbaiki.
ini memang berhasil, seperti yang disebutkan di atas oleh banyak orang:
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
sesi = tf.Session(config=config)

Tetapi kuncinya adalah menulisnya tepat di bawah "import tensorflow as tf" yang tidak saya lakukan. Saya telah menulisnya setelah semua impor.

jawaban yang bagus, berhasil untuk saya !!

itu berhasil bagi saya ketika menambahkan baris kode ini ke awal skrip @Codersadis
tambahkan kode berikut ke awal file .py, yang memecahkan masalah saya.
dari impor masa depan print_function, divisi
impor tensorflow sebagai tf
dari keras.backend.tensorflow_backend impor set_session
konfigurasi = tf.ConfigProto()
config.gpu_options.allow_growth = Benar
set_session(tf.Session(config=config))

Saya mendapatkan kesalahan yang sama dengan tensorflow-gpu == 1.8.0 , cudnn version = 7.0.5 dan cuda 9.1.85
, ubuntu 16.04 bahkan setelah saya menambahkan solusi yang disarankan di atas.
Berikut ini adalah stack-trace:

INFO - Waveunet Training - Running command 'run'
INFO - Waveunet Training - Started
SCRIPT START
EPOCH: 0
Dataset ready!
Training...
Sep_Vars: 10265550
Num of variables65
2019-07-25 05:10:09.872823: I tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
2019-07-25 05:10:10.286584: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:898] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2019-07-25 05:10:10.286914: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1356] Found device 0 with properties: 
name: Quadro P4000 major: 6 minor: 1 memoryClockRate(GHz): 1.48
pciBusID: 0000:00:05.0
totalMemory: 7.92GiB freeMemory: 7.83GiB
2019-07-25 05:10:10.286964: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1435] Adding visible gpu devices: 0
2019-07-25 05:10:10.640890: I tensorflow/core/common_runtime/gpu/gpu_device.cc:923] Device interconnect StreamExecutor with strength 1 edge matrix:
2019-07-25 05:10:10.640952: I tensorflow/core/common_runtime/gpu/gpu_device.cc:929]      0 
2019-07-25 05:10:10.640968: I tensorflow/core/common_runtime/gpu/gpu_device.cc:942] 0:   N 
2019-07-25 05:10:10.641194: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1053] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 7566 MB memory) -> physical GPU (device: 0, name: Quadro P4000, pci bus id: 0000:00:05.0, compute capability: 6.1)
2019-07-25 05:10:27.643833: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:94] Filling up shuffle buffer (this may take a while): 2054 of 4000
2019-07-25 05:10:35.917445: I tensorflow/core/kernels/data/shuffle_dataset_op.cc:129] Shuffle buffer filled.
2019-07-25 05:10:36.175698: E tensorflow/stream_executor/cuda/cuda_dnn.cc:455] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
2019-07-25 05:10:36.175820: E tensorflow/stream_executor/cuda/cuda_dnn.cc:463] possibly insufficient driver version: 384.183.0
2019-07-25 05:10:36.175842: E tensorflow/stream_executor/cuda/cuda_dnn.cc:427] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
2019-07-25 05:10:36.175859: F tensorflow/core/kernels/conv_ops.cc:713] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms) 
Aborted (core dumped)

Tolong bantu

Mengubah driver Nvidia ke 396+ memecahkan masalah bagi saya.

Ini ada hubungannya dengan fraksi memori yang tersedia untuk memuat sumber daya GPU untuk membuat pegangan cudnn, juga dikenal sebagai per_process_gpu_memory_fraction .
Mengurangi fraksi memori ini sendiri akan menyelesaikan kesalahan.

> sess_config = tf.ConfigProto(gpu_options =
> tf.GPUOptions(per_process_gpu_memory_fraction=0.7),
> allow_soft_placement = True)
> 
> with tf.Session(config=sess_config) as sess:
>      sess.run([whatever])

Gunakan pecahan sekecil mungkin dalam memori Anda. (Dalam kode, saya menggunakan 0,7, Anda bisa mulai dengan 0,3 atau bahkan lebih kecil, lalu meningkat hingga Anda mendapatkan kesalahan yang sama, itulah batas Anda.)
Berikan ke tf.Session() atau tf.train.MonitoredTrainingSession() atau sv.managed_session() Supervisor Anda sebagai konfigurasi.

Ini akan memungkinkan GPU Anda membuat pegangan cudnn untuk kode TensorFlow Anda.

Saya mendapatkan kesalahan berikut dengan tensorflow 2.0 di lingkungan conda saya.

```2019-12-03 23:48:29.888625: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka pustaka dinamis cudart64_100.dll
03-12-2019 23:49:06.381259: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka perpustakaan dinamis nvcuda.dll
03-12-2019 23:49:07.220066: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] Menemukan perangkat 0 dengan properti:
nama: GeForce GTX 1660 Ti mayor: 7 minor: 5 memoriClockRate(GHz): 1,59
pciBusID: 0000:01:00.0
03-12-2019 23:49:07.236411: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] Pustaka GPU ditautkan secara statis, lewati pemeriksaan dlopen.
03-12-2019 23:49:07.247476: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] Menambahkan perangkat gpu yang terlihat: 0
03-12-2019 23:49:07.256881: I tensorflow/core/platform/cpu_feature_guard.cc:142] CPU Anda mendukung instruksi bahwa biner TensorFlow ini tidak dikompilasi untuk digunakan: AVX2
03-12-2019 23:49:07.269536: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] Menemukan perangkat 0 dengan properti:
nama: GeForce GTX 1660 Ti mayor: 7 minor: 5 memoriClockRate(GHz): 1,59
pciBusID: 0000:01:00.0
03-12-2019 23:49:07.281954: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] Pustaka GPU ditautkan secara statis, lewati pemeriksaan dlopen.
03-12-2019 23:49:07.295302: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] Menambahkan perangkat gpu yang terlihat: 0
03-12-2019 23:49:08.589865: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1159] Perangkat interkoneksi StreamExecutor dengan matriks kekuatan 1 tepi:
03-12-2019 23:49:08.599121: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1165] 0
03-12-2019 23:49:08,610543: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1178] 0: N
03-12-2019 23:49:08.616005: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1304] Membuat perangkat TensorFlow (/job:localhost/replica:0/task:0/device:GPU:0 dengan 4627 Memori MB) -> GPU fisik (perangkat: 0, nama: GeForce GTX 1660 Ti, id bus pci: 0000:01:00.0, kemampuan komputasi: 7,5)
03-12-2019 23:49:58.521484: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka perpustakaan dinamis cublas64_100.dll
03-12-2019 23:49:59.604517: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka pustaka dinamis cudnn64_7.dll
03-12-2019 23:50:04.209110: E tensorflow/stream_executor/cuda/cuda_dnn.cc:329] Tidak dapat membuat pegangan cudnn: CUDNN_STATUS_NOT_INITIALIZED
03-12-2019 23:50:04.216670: E tensorflow/stream_executor/cuda/cuda_dnn.cc:333] Kesalahan saat mengambil versi driver: Tidak diimplementasikan: versi driver yang dilaporkan kernel tidak diimplementasikan pada Windows
03-12-2019 23:50:04.226172: E tensorflow/stream_executor/cuda/cuda_dnn.cc:329] Tidak dapat membuat pegangan cudnn: CUDNN_STATUS_NOT_INITIALIZED
03-12-2019 23:50:04.234741: E tensorflow/stream_executor/cuda/cuda_dnn.cc:333] Kesalahan saat mengambil versi driver: Tidak diimplementasikan: versi driver yang dilaporkan kernel tidak diimplementasikan pada Windows
03-12-2019 23:50:04.244958: W tensorflow/core/common_runtime/base_collective_executor.cc:216] BaseCollectiveExecutor::StartAbort Unknown: Gagal mendapatkan algoritme konvolusi. Ini mungkin karena cuDNN gagal untuk menginisialisasi, jadi coba cari untuk melihat apakah pesan log peringatan dicetak di atas.
[[{{simpul berurutan/conv2d/Conv2D}}]]

so i added the following code to my CNN

GPU = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], Benar)

My output is now

04-12-2019 00:10:07.708573: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka pustaka dinamis cudart64_100.dll
04-12-2019 00:10:11.643304: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka perpustakaan dinamis nvcuda.dll
04-12-2019 00:10:12.753615: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] Menemukan perangkat 0 dengan properti:
nama: GeForce GTX 1660 Ti mayor: 7 minor: 5 memoriClockRate(GHz): 1,59
pciBusID: 0000:01:00.0
04-12-04 00:10:12.769498: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] Pustaka GPU ditautkan secara statis, lewati pemeriksaan dlopen.
04-12-2019 00:10:12.783900: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] Menambahkan perangkat gpu yang terlihat: 0
04-12-2019 00:10:54.941468: I tensorflow/core/platform/cpu_feature_guard.cc:142] CPU Anda mendukung instruksi bahwa biner TensorFlow ini tidak dikompilasi untuk digunakan: AVX2
04-12-2019 00:10:55.372516: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] Menemukan perangkat 0 dengan properti:
nama: GeForce GTX 1660 Ti mayor: 7 minor: 5 memoriClockRate(GHz): 1,59
pciBusID: 0000:01:00.0
04-12-04 00:10:55.383385: I tensorflow/stream_executor/platform/default/dlopen_checker_stub.cc:25] Pustaka GPU ditautkan secara statis, lewati pemeriksaan dlopen.
04-12-2019 00:10:55.406053: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1746] Menambahkan perangkat gpu yang terlihat: 0
04-12-2019 00:10:56.741665: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1159] Perangkat interkoneksi StreamExecutor dengan matriks kekuatan 1 tepi:
04-12-2019 00:10:56.747255: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1165] 0
04-12-2019 00:10:56.752302: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1178] 0: N
04-12-2019 00:10:56.756861: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1304] Membuat perangkat TensorFlow (/job:localhost/replica:0/task:0/device:GPU:0 dengan 4627 Memori MB) -> GPU fisik (perangkat: 0, nama: GeForce GTX 1660 Ti, id bus pci: 0000:01:00.0, kemampuan komputasi: 7,5)
04-12-2019 00:11:08.281356: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka perpustakaan dinamis cublas64_100.dll
04-12-2019 00:11:08.934804: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Berhasil membuka pustaka dinamis cudnn64_7.dll
04-12-04 00:11:11.870237: W tensorflow/stream_executor/cuda/redzone_allocator.cc:312] Internal: Menjalankan ptxas tidak didukung di Windows
Mengandalkan driver untuk melakukan kompilasi ptx. Pesan ini hanya akan dicatat sekali.
```

Seperti yang disarankan semua orang, ini karena tensorflow menggunakan semua GPU/GPU. CNN saya berlatih tanpa kesalahan sekarang.

Saya menghadapi masalah yang sama ketika menggunakan versi tensorflow yang didukung komunitas di dalam lingkungan conda (yaitu menggunakan > conda install tensorflow-gpu )

Ternyata versi ini sebenarnya tidak bagus di semua situasi (walaupun saya sudah menggunakannya di komputer lain). Versi terbaik untuk digunakan adalah versi pip yang dapat diinstal https://www.tensorflow.org/install/pip di dalam lingkungan conda. Ketika saya melakukan ini semuanya bekerja.

Itu diselesaikan untuk saya, terima kasih!

Ini juga menyelesaikan masalah bagi saya.

GeForce GTX 1050, CUDA 10.0

Catatan: ini adalah satu-satunya hal yang dapat saya temukan yang berfungsi di TF 2.0 untuk saat ini. Terima kasih!

GPU = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], Benar)

Ini juga menyelesaikan masalah bagi saya.

GeForce GTX 1050, CUDA 10.0

Catatan: ini adalah satu-satunya hal yang dapat saya temukan yang berfungsi di TF 2.0 untuk saat ini. Terima kasih!

GPU = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], Benar)

Ini tidak membuat perbedaan bagi saya... TF 2.0, RTX 2060, CUDA 10.1, CuDNN 7.6

Ini dengan RAM 16 GB, memori video 6 GB, dan model mainan MNIST dasar dengan satu lapisan konv. Tidak ada masalah memori, hanya jejak tumpukan.

Tidak ada masalah GPU sama sekali dengan Pytorch, seperti biasa

Dalam kasus saya, saya memiliki dua mesin, keduanya dengan RTX 2080Ti, TF 2.1, CUDA 10.1, CuDNN 7.6. Satu berfungsi, yang lain menimbulkan kesalahan yang disebutkan di atas. Kedua mesin memiliki jumlah RAM yang sama, 16GB. Namun, ada perbedaan perangkat keras, seperti CPU. Namun masalah hanya terjadi saat menggunakan GPU.

Dalam kasus saya, saya memiliki dua mesin, keduanya dengan RTX 2080Ti, TF 2.1, CUDA 10.1, CuDNN 7.6. Satu berfungsi, yang lain menimbulkan kesalahan yang disebutkan di atas. Kedua mesin memiliki jumlah RAM yang sama, 16GB. Namun, ada perbedaan perangkat keras, seperti CPU. Namun masalah hanya terjadi saat menggunakan GPU.

Platform yang sama, masalah yang sama

Jika Anda menggunakan tensorflow terbaru dan keras. Coba ini dari sini , ini berhasil untuk saya:

gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
  try:
    # Currently, memory growth needs to be the same across GPUs
    for gpu in gpus:
      tf.config.experimental.set_memory_growth(gpu, True)
    logical_gpus = tf.config.experimental.list_logical_devices('GPU')
    print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
  except RuntimeError as e:
    # Memory growth must be set before GPUs have been initialized
    print(e)

Yang ini bekerja untuk saya.
physical_devices = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(physical_devices[0], Benar)

Yang ini bekerja untuk saya.
physical_devices = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(physical_devices[0], Benar)

Ini berhasil untuk saya. Terima kasih

@ Samaritan1011001 solusi Anda bekerja untuk saya terima kasih banyak.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat