Tensorflow: Keajaiban 3.0?

Dibuat pada 9 Nov 2015  ·  101Komentar  ·  Sumber: tensorflow/tensorflow

Apakah ada rencana untuk mendukung kemampuan komputasi Cuda 3.0?

Komentar yang paling membantu

Untuk membangun perangkat Cuda 3.0, jika Anda menyinkronkan kode TensorFlow terbaru, Anda dapat melakukan hal berikut. Dokumentasi resmi akan segera diperbarui. Tapi ini penampakannya:

$ TF_UNOFFICIAL_SETTING=1 ./configure

... Sama seperti pengaturan resmi di atas

PERINGATAN: Anda sedang mengonfigurasi pengaturan tidak resmi di TensorFlow. Karena beberapa
perpustakaan eksternal tidak kompatibel, pengaturan ini sebagian besar
belum teruji dan tidak didukung.

Harap tentukan daftar kemampuan komputasi Cuda yang dipisahkan koma yang Anda inginkan
membangun dengan. Anda dapat menemukan kemampuan komputasi perangkat Anda di:
https://developer.nvidia.com/cuda-gpus.
Harap dicatat bahwa setiap kemampuan komputasi tambahan meningkat secara signifikan
waktu pembuatan dan ukuran biner Anda. [Awalnya adalah: "3.5,5.2"]: 3.0

Menyiapkan Cuda termasuk
Menyiapkan Cuda lib64
Menyiapkan Cuda bin
Menyiapkan Cuda nvvm
Konfigurasi selesai

Semua 101 komentar

Secara resmi, kemampuan komputasi Cuda 3.5 dan 5.2 didukung. Anda dapat mencoba mengaktifkan kemampuan komputasi lainnya dengan memodifikasi skrip build:

https://github.com/tensorflow/tensorflow/blob/master/third_party/gpus/crosstool/clang/bin/crosstool_wrapper_driver_is_not_gcc#L236

Terima kasih! Akan mencobanya dan laporkan di sini.

Ini belum didukung secara resmi. Tetapi jika Anda ingin mengaktifkan Cuda 3.0 secara lokal, berikut adalah tempat tambahan untuk diubah:

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/common_runtime/gpu/gpu_device.cc#L610
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/common_runtime/gpu/gpu_device.cc#L629
Di mana perangkat GPU yang lebih kecil diabaikan.

Dukungan resmi pada akhirnya akan datang dalam bentuk yang berbeda, di mana kami memastikan perbaikan bekerja pada semua lingkungan komputasi yang berbeda.

Saya membuat perubahan pada baris di atas, dan dapat mengkompilasi dan menjalankan contoh dasar pada halaman Memulai: http://tensorflow.org/get_started/os_setup.md#try_your_first_tensorflow_program - itu tidak mengeluh tentang gpu, tetapi itu tidak melaporkan menggunakan GPU juga.

Bagaimana saya bisa membantu dengan langkah selanjutnya?

infojunkie@, bisakah Anda memposting langkah Anda dan mengunggah log?

Jika Anda mengikuti contoh ini:

bazel build -c opt --config=cuda //tensorflow/cc:tutorials_example_trainer
bazel-bin/tensorflow/cc/tutorials_example_trainer --use_gpu

Jika Anda melihat baris berikut, perangkat logika GPU sedang dibuat:

Membuat perangkat TensorFlow (/gpu:0) -> (perangkat: ..., nama: ..., pci bus id: ...)

Jika Anda ingin benar-benar yakin bahwa GPU digunakan, setel CUDA_PROFILE=1 dan aktifkan profiler Cuda. Jika log profiler Cuda dibuat, itu adalah tanda pasti bahwa GPU digunakan.

http://docs.nvidia.com/cuda/profiler-users-guide/#command -line-profiler-control

Saya mendapat log berikut:

I tensorflow/core/common_runtime/local_device.cc:25] Local device intra op parallelism threads: 8
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:888] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_init.cc:88] Found device 0 with properties: 
name: GeForce GT 750M
major: 3 minor: 0 memoryClockRate (GHz) 0.967
pciBusID 0000:02:00.0
Total memory: 2.00GiB
Free memory: 896.49MiB
I tensorflow/core/common_runtime/gpu/gpu_init.cc:112] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_init.cc:122] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_region_allocator.cc:47] Setting region size to 730324992
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GT 750M, pci bus id: 0000:02:00.0)
I tensorflow/core/common_runtime/local_session.cc:45] Local session inter op parallelism threads: 8

Saya kira itu berarti GPU ditemukan dan digunakan. Saya dapat mencoba profiler CUDA jika menurut Anda itu berguna.

Tolong prioritaskan masalah ini. Ini memblokir penggunaan GPU pada OSX dan K520 AWS dan bagi banyak orang ini adalah satu-satunya lingkungan yang tersedia.
Terima kasih!

Bukan perbaikan terbaik, tetapi cukup komentari pemeriksaan versi komputasi cuda di _gpu_device.c_ baris 610 hingga 616 , kompilasi ulang, dan akselerasi GPU amazon g2 tampaknya berfungsi dengan baik:

example

Untuk referensi, inilah tambalan saya yang sangat primitif untuk bekerja dengan Cuda 3.0: https://Gist.github.com/infojunkie/cb6d1a4e8bf674c6e38e

@infojunkie Saya menerapkan perbaikan Anda, tetapi saya mendapat banyak nan dalam hasil komputasi:

$ bazel-bin/tensorflow/cc/tutorials_example_trainer --use_gpu
000006/000003 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000004/000003 lambda = 2.000027 x = [79795.101562 -39896.468750] y = [159592.375000 -79795.101562]
000005/000006 lambda = 2.000054 x = [39896.468750 -19947.152344] y = [79795.101562 -39896.468750]
000001/000007 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000002/000003 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000009/000008 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000004/000004 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000001/000005 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000006/000007 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000003/000006 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]
000006/000006 lambda =     -nan x = [0.000000 0.000000] y = [0.000000 0.000000]

@markusdr , ini sangat aneh. Bisakah Anda memposting langkah-langkah lengkap Anda membangun biner?

Bisa pakai GPU dan OS apa? Apakah Anda menggunakan Cuda 7.0 dan Cudnn 6.5 V2?

Cukup beri +1 untuk memperbaiki masalah ini di AWS sesegera mungkin. Kami tidak memiliki kartu GPU lain untuk penelitian kami.

Hai, tidak yakin apakah ini masalah terpisah tetapi saya mencoba membangun dengan GPU CUDA 3.0 (Geforce 660 Ti) dan saya mendapatkan banyak kesalahan dengan --config=cuda. Lihat file terlampir di bawah ini. Tampaknya tidak terkait dengan perubahan yang disarankan di atas. Saya perhatikan bahwa ia mencoba mengkompilasi file compute_52.cpp1.ii sementara yang akan menjadi versi yang salah untuk GPU saya.

Saya menggunakan Ubuntu 15.10. Saya memodifikasi host_config.h di Cuda termasuk untuk menghapus pemeriksaan versi di gcc. Saya menggunakan Cuda 7.0 dan cuDNN 6.5 v2 seperti yang direkomendasikan, meskipun saya juga menginstal versi yang lebih baru.

cuda_build_fail.txt

Ya, saya menggunakan Cuda 7.0 dan Cudnn 6.5 pada instans EC2 g2.2xlarge dengan AIM ini:
cuda_7 - ami-12fd8178
ubuntu 14.04, gcc 4.8, cuda 7.0, atlas, dan opencv.
Untuk membangun, saya mengikuti instruksi di tensorflow.org.

Sepertinya kita melihat ketidakcocokan API antara Compute Capability v3 dan Compute Capability v3.5; posting perbaikan tambalan infojunkie , saya menemukan masalah ini

I tensorflow/core/common_runtime/gpu/gpu_device.cc:643] Membuat perangkat TensorFlow (/gpu:0) -> (perangkat: 0, nama: Quadro K2100M, id bus pci: 0000:01:00.0)
I tensorflow/core/common_runtime/local_session.cc:45] Sesi lokal utas paralelisme antar operasi: 8
F tensorflow/stream_executor/cuda/cuda_blas.cc:229] Pemeriksaan gagal: f != nullptr _could not find cublasCreate_v2 di cuBLAS DSO_; dlerror: bazel-bin/tensorflow/cc/tutorials_example_trainer: simbol tidak terdefinisi: cublasCreate_v2

Saya menjalankan Ubuntu 15.04, gcc 4.9.2, CUDA Toolkit 7.5, cuDNN 6.5;

+1 karena memiliki Dukungan Kemampuan Komputasi v3

sudah terpasang cublas? dan di mana tautannya?
ls -lah /usr/local/cuda/lib64/libcublas.so ?

@allanzelener , versi OS dan GCC apa yang Anda miliki? Kesalahan Anda tampaknya berasal dari kompiler C++ yang tidak kompatibel.

Disarankan untuk menggunakan Ubuntu 14.04 dan GCC 4.8 dengan TensorFlow.

@vsrikarunyan , lebih baik menggunakan CUDA Toolkit 7.0, seperti yang disarankan. Anda dapat menginstal CUDA Toolkit lama bersama dengan toolkit baru Anda. Arahkan saja TensorFlow "configure" dan mungkin LD_LIBRARY_PATH ke CUDA 7.0 saat Anda menjalankan TensorFlow.

@avostryakov , tambalan awal @infojunkie seharusnya berfungsi di AWS.

https://Gist.github.com/infojunkie/cb6d1a4e8bf674c6e38e

Tambalan resmi sedang bekerja melalui pipa. Ini akan mengekspos opsi konfigurasi untuk memungkinkan Anda memilih target komputasi Anda. Namun di bawahnya, ia melakukan perubahan serupa. Saya sudah mencobanya di AWS g2, dan mencari tahu setelah semuanya berfungsi, setelah saya menghapus driver NVIDIA sepenuhnya, dan menginstal ulang driver GPU terbaru dari NVIDIA.

Sekali lagi, pengaturan yang disarankan pada AWS saat ini adalah sebagai berikut.
Ubuntu 14.04, GCC 4.8, CUDA Toolkit 7.0 dan CUDNN 6.5. Untuk dua yang terakhir, tidak apa-apa untuk menginstalnya tanpa mempengaruhi instalasi versi lain yang sudah ada. Juga versi resmi yang direkomendasikan untuk dua yang terakhir mungkin akan segera berubah juga.

Saya menerapkan tambalan yang sama pada instance g2.2xlarge dan mendapatkan hasil yang sama seperti @markusdr... sekumpulan nan.

@zheng-xq Ya, saya menggunakan Ubuntu 15.10 dan saya menggunakan GCC 5.2.1. Masalahnya adalah kompiler. Saya tidak tahu cara mengubah kompiler dengan bazel tetapi cukup menginstal gcc-4.8 dan menggunakan pembaruan-alternatif untuk mengubah symlink di usr/bin tampaknya berhasil. (Info lebih lanjut: http://askubuntu.com/questions/26498/choose-gcc-and-g-version). Terima kasih atas bantuannya, saya akan melaporkan kembali jika saya mengalami masalah lebih lanjut.

Saya membuat ini berfungsi pada instance g2.2xlarge dan menjalankan contoh pelatihan, dan memverifikasi bahwa gpu aktif menggunakan alat nvidia-smi , tetapi ketika menjalankan mnist's convolutional.py , kehabisan memori. Saya menduga ini hanya ada hubungannya dengan ukuran batch dan fakta bahwa aws GPU tidak memiliki banyak memori, tetapi hanya ingin membuangnya untuk memastikan kedengarannya benar. Untuk memperjelas, saya menjalankan yang berikut ini, dan itu berjalan selama 15 menit, dan kemudian kehabisan memori.

python tensorflow/models/image/mnist/convolutional.py

@nbenhaim , apa yang harus Anda lakukan untuk membuatnya berfungsi?

@markusdr , @jbencook , NAN cukup meresahkan. Saya menjalankan hal yang sama sendiri, dan tidak punya masalah.

Jika Anda menggunakan pengaturan perangkat lunak yang disarankan: Ubuntu 14.04, GCC 4.8, Cuda 7.0 dan Cudnn 6.5, maka tebakan saya selanjutnya adalah driver Cuda. Bisakah Anda menghapus dan menginstal ulang driver Cuda terbaru.

Ini adalah urutan yang saya coba di AWS, jarak tempuh Anda mungkin berbeda:

sudo apt-get remove --purge "nvidia*"
wget http://us.download.nvidia.com/XFree86/Linux-x86_64/352.55/NVIDIA-Linux-x86_64-352.55.run
sudo ./NVIDIA-Linux-x86_64-352.55.run --accept-license --no-x-check --no-recursion

Terima kasih telah menindaklanjuti @zheng-xq - Saya akan mencobanya hari ini.

+1 lain untuk mendukung GPU pra-3.5, sebagai orang lain yang satu-satunya opsi realistis untuk pelatihan data nyata adalah instans GPU AWS.

Bahkan untuk pengujian lokal, ternyata GPU laptop saya (terbaru, pengembang) tidak mendukung 3.5 :-(

@anjishnu Saya baru saja mengikuti tambalan @infojunkie https://Gist.github.com/infojunkie/cb6d1a4e8bf674c6e38e setelah melakukan instalasi dan pembuatan yang bersih dengan mengikuti petunjuk.

Beberapa komentar - AMI yang saya gunakan telah menginstal NVIDIA cuda toolkit 6.5, jadi ketika saya mengikuti tautan di panduan memulai tensorflow, saya mengunduh file 7.0 .run untuk ubuntu 14.04, memutakhirkan driver, dan menginstal cuda 7.0 ke /usr/local/cuda-7.0 tanpa membuat symlink ke /usr/local/cuda karena saya sudah menginstal 6.5 dan tidak ingin mematikannya

Kemudian, ketika membangun saya baru saja menentukan lokasi yang tepat dari cuda 7.0. Satu hal yang membingungkan adalah ketika membangun pustaka python, tutorial tidak mengingatkan Anda untuk menentukan --config=cuda , tetapi Anda harus melakukannya jika Anda ingin python lib menggunakan gpu

@markusdr , @jbencook , saya mendapatkan NaN dan semua jenis nilai yang kacau juga ketika saya menerapkan tambalan pada awalnya, tetapi yang diperbaiki adalah melakukan "bazel clean" dan membangun kembali dari awal setelah membuat perubahan yang diusulkan diuraikan di @infojunkie tambalan. Apakah Anda mencoba ini?

Menarik... tidak, saya belum punya kesempatan. Apakah Anda mencoba menjalankan CNN dari panduan Memulai?

python tensorflow/models/image/mnist/convolutional.py

Penasaran ingin mendengar apakah itu bekerja dengan benar.

@jbencook seperti yang saya sebutkan, convolutional.py tampaknya berjalan dengan benar, tetapi setelah 15 menit crash karena kehabisan memori, tetapi hasilnya terlihat benar dan saya menggunakan alat nvidia-smi untuk memverifikasi bahwa itu benar-benar berjalan di GPU dan itu adalah. Saya menduga ini karena ukuran batch ... saya tahu bahwa GPU pada EC2 tidak memiliki banyak memori, tetapi saya benar-benar tidak yakin saat ini mengapa kehabisan memori

Contoh convolutional.py kehabisan memori GPU untuk saya juga, pada GeForce GTX 780 Ti.

Saya dapat menginstalnya di AWS setelah banyak rasa sakit. Lihat https://Gist.github.com/erikbern/78ba519b97b440e10640 – Saya juga membuat AMI: ami-cf5028a5 (di wilayah Virginia)

Ini bekerja pada g2.2xlarge dan g2.8xlarge dan mendeteksi perangkat dengan benar (masing-masing 1 dan 4). Namun saya tidak melihat percepatan apa pun dari 4 kartu GPU pada g2.8xlarge. Kedua mesin memproses sekitar 330 contoh/dtk menjalankan contoh CIFAR 10 dengan beberapa GPU. Juga kinerja yang sangat mirip pada contoh konvolusi MNIST. Itu juga macet setelah sekitar 15 menit dengan "Kehabisan memori GPU, lihat dump status memori di atas" seperti yang disebutkan beberapa orang di atas

Saya telah menjalankan contoh CIFAR selama sekitar satu jam dan tampaknya cukup berhasil sejauh ini

Untuk membangun perangkat Cuda 3.0, jika Anda menyinkronkan kode TensorFlow terbaru, Anda dapat melakukan hal berikut. Dokumentasi resmi akan segera diperbarui. Tapi ini penampakannya:

$ TF_UNOFFICIAL_SETTING=1 ./configure

... Sama seperti pengaturan resmi di atas

PERINGATAN: Anda sedang mengonfigurasi pengaturan tidak resmi di TensorFlow. Karena beberapa
perpustakaan eksternal tidak kompatibel, pengaturan ini sebagian besar
belum teruji dan tidak didukung.

Harap tentukan daftar kemampuan komputasi Cuda yang dipisahkan koma yang Anda inginkan
membangun dengan. Anda dapat menemukan kemampuan komputasi perangkat Anda di:
https://developer.nvidia.com/cuda-gpus.
Harap dicatat bahwa setiap kemampuan komputasi tambahan meningkat secara signifikan
waktu pembuatan dan ukuran biner Anda. [Awalnya adalah: "3.5,5.2"]: 3.0

Menyiapkan Cuda termasuk
Menyiapkan Cuda lib64
Menyiapkan Cuda bin
Menyiapkan Cuda nvvm
Konfigurasi selesai

@nbenhaim @markusdr

Masalah kehabisan memori mungkin disebabkan oleh fakta bahwa convolutional.py menjalankan evaluasi pada seluruh kumpulan data pengujian (10000) contoh. Itu terjadi setelah pelatihan selesai, sebagai langkah terakhir:

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/image/mnist/convolutional.py#L266

Bisakah Anda mencoba mengiris train_data dan test_labels agar lebih kecil?

Saya dapat mengonfirmasi bahwa dengan skrip pemasangan @erikbern dan cabang master TensorFlow terbaru cifar10_multi_gpu_train.py berfungsi seperti yang diharapkan pada GPU:

step 100, loss = 4.49 (330.8 examples/sec; 0.387 sec/batch)

Meskipun baris ini sekarang terputus karena perubahan kode.

Juga jika saya mengambil 1000 sampel uji, contoh convolutional.py juga berfungsi.

EDIT: Contoh bazel-bin/tensorflow/cc/tutorials_example_trainer --use_gpu juga berfungsi tanpa memberi saya banyak nan.

Saya mengonfirmasi bahwa build terbaru mendukung penentuan kemampuan komputasi melalui
$ TF_UNOFFICIAL_SETTING=1 ./configure
tanpa perlu tambalan. Terima kasih!

Saya pikir masalah ini dapat ditutup, kecuali seseorang menemukan fungsi aktual yang gagal untuk Cuda <3.5.

Sebenarnya, izinkan saya mengambilnya kembali :-) Skrip ./configure memodifikasi kode sumber dengan mengubah baris yang relevan dengan versi Cuda yang ditentukan sendiri. Kemudian git melaporkan perubahan yang tidak dikomit dan menjadi sangat sulit untuk bekerja dengan basis kode ini tanpa mengembalikan perubahan, git pull ing, dan mengonfigurasi lagi, belum lagi mengirimkan kontribusi.

Pendekatan yang lebih baik adalah membaca pengaturan versi tersebut dari file konfigurasi.

ErikBern di atas dan AMI-nya berfungsi untuk cifar untuk saya - ami-cf5028a5

Mendapatkan ~320 sampel per detik versus kotak windows i7 saya di buruh pelabuhan yang mendapat ~105 sampel per detik untuk cifar10_train.py

@infojunkie : ya, ini tidak ideal (@zheng-xq dan saya membahas ini sedikit selama peninjauan!).

Kami akan mencoba memikirkan cara yang lebih baik untuk menangani ini, meskipun kami ingin menjaga kemampuan pemfilteran perangkat runtime agar sinkron dengan cara biner dibangun (karenanya perlu mengedit kode sumber untuk kompilasi dan waktu berjalan). Jika tidak, pengguna mendapatkan kesalahan yang sulit di-debug.

Kami akan terus bekerja untuk membuat ini lebih mudah, tetapi mudah-mudahan ini memungkinkan beberapa kemajuan untuk Anda.

@vrv : ya, saya pasti bisa melanjutkan pekerjaan saya dengan perbaikan ini. Terima kasih atas dukungannya!

Hanya ingin tahu, karena c4.4xlarge dengan 16 vCpus sekitar 0,88 per jam dibandingkan instance gpu yang 0,65 per jam, bukankah lebih baik menggunakan banyak cpu daripada gpu?

@timshephard Saya meragukannya, tetapi jangan ragu untuk menjalankan beberapa tolok ukur – Anda dapat menginstal AMI saya (ami-cf5028a5) di c4.4xlarge dan menjalankan cifar10_train.py

Sebenarnya, g2.2xlarge memiliki 8 CPU di samping GPU. Akan mencoba itu.

CPU multi-ulir didukung, tetapi jika Anda ingin melakukan pelatihan nyata,
GPU 4 Life, sampai mereka merilis implementasi terdistribusi

Pada Kam, 12 Nov 2015 jam 16:53, Erik Bernhardsson < [email protected]

menulis:

@timshephard https://github.com/timshephard Saya ragu, tapi jangan ragu
untuk menjalankan beberapa tolok ukur – Anda dapat menginstal AMI saya (ami-cf5028a5) di a
c4.4xlarge dan jalankan cifar10_train.py


Balas email ini secara langsung atau lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/25#issuecomment -156274039
.

Saya hanya mendapatkan kecepatan 3x untuk GPU amazon di atas CPU windows saya di buruh pelabuhan. Bagus, tapi itu hanya 1 dari inti saya. Semua 4 core di kotak windows saya mungkin bisa mengalahkan GPU amazon.

itu menarik, karena dengan caffe , saya tidak melakukan benchmark sebenarnya,
tetapi pelatihan dalam mode CPU mengerikan, seperti urutan besarnya atau lebih
perbedaan. Mungkin TF dioptimalkan lebih baik dalam mode CPU - tidak akan mengejutkan
Aku.

Pada Kam, 12 Nov 2015 jam 17:01, timshephard [email protected]
menulis:

Saya hanya mendapatkan kecepatan 3x untuk GPU amazon di atas CPU windows saya
buruh pelabuhan. Bagus, tapi itu hanya 1 dari inti saya. Semua untuk 4 core di my
kotak windows mungkin bisa mengalahkan GPU amazon.


Balas email ini secara langsung atau lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/25#issuecomment -156275410
.

Harap diingat bahwa tutorial cifar10 tidak dimaksudkan sebagai patokan. Ini dimaksudkan untuk menunjukkan beberapa fitur yang berbeda, seperti saver dan ringkasan. Dalam bentuknya saat ini, itu akan dibatasi oleh CPU, bahkan dengan GPU. Untuk benchmark, seseorang harus lebih berhati-hati dan hanya menggunakan fitur-fitur penting.

Mungkin saja GPU amazon lambat karena alasan tertentu https://www.reddit.com/r/MachineLearning/comments/305me5/slow_gpu_performance_on_amazon_g22xlarge/
Laporan menarik: "G2.2xlarge adalah GK104 (797 MHz yang di-downclock), yang akan menjadikannya 1/4 kecepatan TitanX yang baru dirilis dan 2,7x lebih lambat daripada GTX 980."

fwiw, mendapatkan 13-11-2015 00:38:05.472034: langkah 20, kerugian = 4,64 (362,5 contoh/dtk; 0,353 dtk/batch)
sekarang dengan 7 cpus dan cifar10_multi_gpu_train.py. Saya mengubah semua referensi perangkat dari gpu ke cpu, jika itu masuk akal.

oke, aneh. 2015-11-13 00:43:56.914273: langkah 10, loss = 4,65 (347,4 contoh/dtk; 0,368 dtk/batch) dan menggunakan 2 cpus, jadi jelas ada yang gagal di sini. Pasti masih menggunakan GPU. Menarik karena prosesnya sedikit lebih cepat daripada skrip versi GPU tunggal.

bahkan dengan instruksi erikbern saya masih mendapatkan

AssertionError: Model menyimpang dengan loss = NaN ketika saya mencoba cifar_train.py dan ini ketika menjalankan mnist/convolutional.py

Zaman 1.63
Kehilangan minibatch: nan, kecepatan pembelajaran: nan
Kesalahan minibatch: 90,6%
Kesalahan validasi: 90,4%
Zaman 1,75
Kerugian minibatch: nan, kecepatan belajar: 0,000000
Kesalahan minibatch: 92,2%
Kesalahan validasi: 90,4%
Zaman 1.86
Kerugian minibatch: nan, kecepatan belajar: 0,000000

Saya menjalankannya di GPU di AWS, tetapi seperti yang lain, saya mendapatkan kecepatan yang tidak mengesankan.

Saya bisa menjalankan contoh convolutional.py tanpa kehabisan memori setelah menggunakan perbaikan yang benar yang disarankan oleh @zheng-xq untuk mengatur opsi saat menjalankan konfigurasi

Skrip penginstalan yang disediakan oleh @erikbern tidak lagi berfungsi sejak komit 9c3043ff3bf31a6a81810b4ce9e87ef936f1f529

Komit terbaru memperkenalkan bug ini, @keveman sudah membuat catatan tentang komit di sini:
https://github.com/tensorflow/tensorflow/commit/9c3043ff3bf31a6a81810b4ce9e87ef936f1f529#diff -1a60d717df0f558f55ec004e6af5c7deL25

Hai! Saya memiliki masalah dengan kompilasi tensorflow dengan GTX 670. Saya menjalankan

TF_UNOFFICIAL_SETTING=1 ./configure
bazel build -c opt --config=cuda //tensorflow/cc:tutorials_example_trainer

Saya mendapat kesalahan:

INFO: Found 1 target...
INFO: From Compiling tensorflow/core/kernels/bias_op_gpu.cu.cc:
tensorflow/core/kernels/bias_op_gpu.cu.cc(40): error: identifier "__ldg" is undefined
          detected during:
            instantiation of "void tensorflow::functor::BiasOpCustomKernel(int, const T *, const T *, int, int, T *) [with T=float]" 
(57): here
            instantiation of "void tensorflow::functor::Bias<tensorflow::GPUDevice, T, Dims>::operator()(const tensorflow::functor::Bias<tensorflow::GPUDevice, T, Dims>::Device &, tensorflow::TTypes<T, Dims, Eigen::DenseIndex>::ConstTensor, tensorflow::TTypes<T, 1, Eigen::DenseIndex>::ConstVec, tensorflow::TTypes<T, Dims, Eigen::DenseIndex>::Tensor) [with T=float, Dims=2]" 
(69): here

tensorflow/core/kernels/bias_op_gpu.cu.cc(40): error: identifier "__ldg" is undefined
          detected during:
            instantiation of "void tensorflow::functor::BiasOpCustomKernel(int, const T *, const T *, int, int, T *) [with T=double]" 
(57): here
            instantiation of "void tensorflow::functor::Bias<tensorflow::GPUDevice, T, Dims>::operator()(const tensorflow::functor::Bias<tensorflow::GPUDevice, T, Dims>::Device &, tensorflow::TTypes<T, Dims, Eigen::DenseIndex>::ConstTensor, tensorflow::TTypes<T, 1, Eigen::DenseIndex>::ConstVec, tensorflow::TTypes<T, Dims, Eigen::DenseIndex>::Tensor) [with T=double, Dims=2]" 
(69): here

2 errors detected in the compilation of "/tmp/tmpxft_000067dd_00000000-7_bias_op_gpu.cu.cpp1.ii".
ERROR: /home/piotr/tensorflow/tensorflow/tensorflow/core/BUILD:248:1: output 'tensorflow/core/_objs/gpu_kernels/tensorflow/core/kernels/bias_op_gpu.cu.o' was not created.
ERROR: /home/piotr/tensorflow/tensorflow/tensorflow/core/BUILD:248:1: not all outputs were created.
Target //tensorflow/cc:tutorials_example_trainer failed to build

Informasi tentang kartu saya dari perangkat sampel NVIDIA:

Device 0: "GeForce GTX 670"
  CUDA Driver Version / Runtime Version          7.5 / 7.0
  CUDA Capability Major/Minor version number:    3.0
  Total amount of global memory:                 2046 MBytes (2145235968 bytes)
  ( 7) Multiprocessors, (192) CUDA Cores/MP:     1344 CUDA Cores
  GPU Max Clock rate:                            980 MHz (0.98 GHz)
  Memory Clock rate:                             3004 Mhz
  Memory Bus Width:                              256-bit
  L2 Cache Size:                                 524288 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 1 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 7.5, CUDA Runtime Version = 7.0, NumDevs = 1, Device0 = GeForce GTX 670

Adakah ide mengapa itu tidak berfungsi?
Terima kasih!

__ldg primitif hanya ada untuk 3.5+ saya pikir. Kami memiliki perbaikan internal untuk mendukung keduanya yang akan segera kami coba keluarkan.

Lihat https://github.com/tensorflow/tensorflow/issues/320 untuk detail lebih lanjut

Terima kasih! Menambahkan perbaikan dari #320 membantu saya, saya dapat mengkompilasi (dengan banyak peringatan) dan mengeksekusi

bazel-bin/tensorflow/cc/tutorials_example_trainer --use_gpu

Ketika saya menjalankan contoh:

tensorflow/models/image/mnist$ python convolutional.py 

Saya mendapat peringatan bahwa:

Ignoring gpu device (device: 0, name: GeForce GTX 670, pci bus id: 0000:01:00.0) with Cuda compute capability 3.0. The minimum required Cuda capability is 3.5.

Bagaimana cara mengaktifkan GPU dalam contoh dari tensorflow/model/gambar?

@erikbern
apakah Anda menemukan beberapa masalah GPU di Amazon? Saya juga menjalankan beberapa contoh GPU CIFAR tetapi tidak melihat percepatan.

Berikut adalah status penggunaan GPU, sepertinya semua GPU digunakan tetapi tidak melakukan apa-apa.

+------------------------------------------------- -----+
| NVIDIA-SMI 346.46 Versi Driver: 346.46 |
|----------------------------+------------------ -----+----------------------+
| Nama GPU Kegigihan-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Penggunaan/Cap | Penggunaan Memori | GPU-Util Compute M. |
|==================================================== =====+========================|
| 0 GRID K520 Mati | 0000:00:03.0 Diskon | T/A |
| T/A 54C P0 55W / 125W | 3832MiB / 4095MiB | 37% Bawaan |
+-------------------------------+----------------- -----+----------------------+
| 1 GRID K520 Mati | 0000:00:04.0 Diskon | T/A |
| T/A 42C P0 42W / 125W | 3796MiB / 4095MiB | 0% Bawaan |
+-------------------------------+----------------- -----+----------------------+
| 2 GRID K520 Mati | 0000:00:05.0 Diskon | T/A |
| T/A 46C P0 43W / 125W | 3796MiB / 4095MiB | 0% Bawaan |
+-------------------------------+----------------- -----+----------------------+
| 3 GRID K520 Mati | 0000:00:06.0 Diskon | T/A |
| T/A 43C P0 41W / 125W | 3796MiB / 4095MiB | 0% Bawaan |
+-------------------------------+----------------- -----+----------------------+

+------------------------------------------------- ----------------------------+
| Proses: Memori GPU |
| Jenis PID GPU Nama proses Penggunaan |
|================================================== ==============================|
| 0 60160 C python 3819MiB |
| 1 60160 C python 3783MiB |
| 2 60160 C python 3783MiB |
| 3 60160 C python 3783MiB |
+------------------------------------------------- ----------------------------+

@mhejrati menurut komentar di https://news.ycombinator.com/item?id=10555692 sepertinya Anda tidak bisa melakukannya di AWS:

Virtualisasi Xen menonaktifkan salinan P2P ergo GPU memiliki apa yang kami sebut "kegagalan untuk berkomunikasi dan beberapa GPU yang tidak dapat Anda jangkau (tanpa melalui CPU itu)."

Tidak yakin seberapa tepercaya komentar HN, tapi hanya itu yang saya tahu sejauh ini

@erikbern @mhejrati Saya tidak begitu yakin bahwa properti spesifik Xen adalah masalah. Salinan P2P tampaknya tidak diperlukan karena cpu masih dapat menetapkan pekerjaan ke setiap GPU tanpa perlu berkomunikasi satu sama lain. Masih aneh bahwa semua GPU pada instans tampaknya berada dalam status semi-digunakan ini tetapi pekerjaan berjalan tanpa kesalahan.

Saya akan menutup bug ini. Silakan buka yang baru dengan judul yang lebih spesifik jika beberapa masalah di sini tetap belum terselesaikan.

Apakah ini berarti tensorflow versi terakhir berfungsi di instans Amazon g2 tanpa peretasan? Dan apakah itu berarti bekerja lebih dari satu GPU di sana?

Saya tidak yakin apakah kita harus memanggil TF_UNOFFICIAL_* "bukan peretasan", tapi ya, itu _harus_ berfungsi. Jika tidak, kemungkinan besar itu tidak terkait dengan Cuda 3.0, dan kita harus memiliki bug yang lebih spesifik.

Dan apakah mungkin untuk mengeksekusi kode pada dua atau lebih GPU pada instance amazon? Misalnya, paralelisme data untuk melatih model seperti pada contoh CIFAR. Beberapa orang hanya 5 komentar di atas komentar ini menulis bahwa itu tidak mungkin.

Saya tidak tahu. Tetapi jika itu masih menjadi masalah dengan 0.6.0, itu pasti bug, hanya yang lebih spesifik tentang beberapa GPU.

Saya menggunakan 0.6.0 di ubuntu, tidak dapat menggunakan lebih dari satu GPU. Utilisasi GPU pada satu GPU selalu 0.

Sekedar referensi, menyewa K40 atau K80 sebenarnya tidak terlalu mahal. Amazon tidak memilikinya, tetapi beberapa opsi di http://www.nvidia.com/object/gpu-cloud-computing-services.html memilikinya. (Beberapa untuk serendah seperti $3/jam)

Theano dan Torch tidak memiliki masalah dengan komputasi 3.0 sama sekali. Bisakah kita mengharapkan TensorFlow untuk mendukung komputasi 3.0 dalam waktu dekat?

Atau setidaknya tambahkan kemampuan untuk mengesampingkan pembatasan tanpa harus mengkompilasi ulang.

@Dringite , Anda dapat mengaktifkan Cuda 3.0 menggunakan yang berikut ini:

TF_UNOFFICIAL_SETTING=1 ./configure

Ini harus fungsional. Dan jika tidak, jangan ragu untuk mengajukan masalah lain untuk melacaknya.

Panduan pemasangan tensorflow sekarang menyertakan perbaikan untuk cuda 3.0 juga

Pada Rabu, 10 Februari 2016 pukul 14:37, zheng-xq [email protected] menulis:

@Dringite https://github.com/Dringite , Anda dapat mengaktifkan Cuda 3.0 menggunakan
pengikut:

TF_UNOFFICIAL_SETTING=1 ./configure

Ini harus fungsional. Dan jika tidak, jangan ragu untuk mengajukan yang lain
masalah untuk melacaknya.


Balas email ini secara langsung atau lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/25#issuecomment -182610763
.

Saya pikir panduan saat ini tidak berfungsi untuk gpu - tes mengembalikan nan seperti yang dilaporkan sebelumnya.
Secara khusus Anda masih perlu melakukan ini:
TF_UNOFFICIAL_SETTING=1 ./configure

Saya tidak dapat menemukan panduan pemasangan termasuk perbaikan untuk cuda 3.0, dapatkah seseorang menunjukkannya kepada saya? TERIMA KASIH!

printf "\ny\n7.5\n\n\n\n3.0\n" | ./konfigurasi

7.5 adalah versi cuda, 3.0 adalah komputasi.

Masih belum ada peningkatan kinerja untuk beberapa GPU di Amazon (CUDA=7.5, cudnn =4.0,compute = 3.0) dibandingkan dengan GPU tunggal.

adakah yang berhasil pada kemampuan komputasi Cuda 2.0?

Diverifikasi bahwa 'TF_UNOFFICIAL_SETTING=1 ./configure' berfungsi pada macbook pro dengan di GeForce GT 750M. Terima kasih!

Apakah ada ETA untuk perbaikan resmi? Sangat sulit untuk mempertahankan (misalnya membuat gambar dengan dockerfile kita sendiri) dalam produksi.

Laptop saya memberi saya log ini ketika saya mencoba menjalankan mnist sample :
"Mengabaikan perangkat gpu (perangkat:0,nama:GeForce GT 635M, pci bus id) dengan kemampuan komputasi Cuda 2.1. Kemampuan Cuda minimum yang diperlukan adalah 3.0."
Jadi apakah ini berarti saya tidak dapat menggunakan versi GPU karena minimum Cuda untuk tensorflow adalah 3.0 ?
Terima kasih

Jika Anda menggunakan binari bawaan, ya. Jika Anda membangun dari sumber, Anda bisa
membangun dengan dukungan Cuda 2.1 tetapi saya tidak tahu apakah itu benar-benar berfungsi. Dia
kemungkinan minimum efektif adalah cuda 3.0.
Pada Sabtu, 10 Sep 2016 pukul 11:51 Mojtaba Tabatabaie [email protected]
menulis:

Laptop saya memberi saya log ini ketika saya mencoba menjalankan mnist sample :
Mengabaikan perangkat gpu (perangkat:0,nama:GeForce GT 635M, pci bus id) dengan Cuda
kemampuan komputasi 2.1. Kemampuan Cuda minimum yang diperlukan adalah 3.0 . "
Jadi apakah ini berarti saya tidak dapat menggunakan versi GPU karena minimum Cuda
untuk tensorflow adalah 3.0?
Terima kasih


Anda menerima ini karena Anda mengubah status buka/tutup.
Balas email ini secara langsung, lihat di GitHub
https://github.com/tensorflow/tensorflow/issues/25#issuecomment -246128896,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/AAjO_RvNrRMQEmsueXWoaU5FX4tWHZq3ks5qovwegaJpZM4Ge0kc
.

@smtabatabaie Sudahkah Anda mencoba membangun cuDNN dari sumber seperti yang disarankan oleh @martinwicke , saya menghadapi masalah yang persis sama dengan Anda dan itu akan banyak membantu saya jika Anda membagikan pengalaman Anda?

Mohon bantuannya. Saya mendapatkan pesan kesalahan yang sama dengan "Mengabaikan perangkat gpu yang terlihat (perangkat: 0, nama: GeForce GT 750M, pci bus id: 0000:01:00.0) dengan kemampuan komputasi Cuda 3.0. Kemampuan Cuda minimum yang diperlukan adalah 3,5."

Saya telah membaca posting dari orang lain, satu-satunya masalah adalah ini adalah instalasi windows langsung dan bukan di AWS karena saya berasumsi sebagian besar orang di sini memilikinya. Di situs web tensorflow, dinyatakan bahwa minimal 3.0 diperlukan, mengapa saya tidak dapat menggunakan ini? dan bagaimana saya bisa mengatasinya?

Mohon saran tentang cara melakukan sambutan ini.

@gunan @mrry apakah paket windows tidak dibuat dengan cuda 3.0? Apakah itu sebabnya?
mereka sangat kecil?

@martinwicke Nightlies dan rc1 juga seharusnya.

nightlies ya.
rc0 saya pikir adalah 3.5.
Apakah kami memilih perubahan untuk menggunakan 3.0 ke r0.12?

Kami melakukan cherrypick perubahan.
@cydal Anda dapat menggunakan build malam di sini:
http://ci.tensorflow.org/view/Nightly/job/nightly-win/14/DEVICE=gpu ,OS=windows/artifact/cmake_build/tf_python/dist/tensorflow_gpu-0.12.0rc0-cp35-cp35m-win_amd64. apa

Atau Anda bisa menunggu 0.12.0rc1, yang akan mendarat dalam beberapa hari.

Terima kasih teman-teman atas tanggapan cepatnya, setidaknya saya tidak mengharapkannya untuk sementara waktu. Maaf jika ini terdengar seperti pertanyaan bodoh, bagaimana cara menginstal ini? apakah saya cukup menginstalnya dengan pip? (jika demikian, apakah saya menghapus gpu tensorflow sebelumnya? atau melakukannya secara otomatis?) atau apakah perlu mengunduhnya dan menginstalnya secara manual? menganggap saya sedikit newbie.

Tautan menunjuk ke "paket PIP".
Jika Anda menggunakan perintah pip install , Anda seharusnya dapat menggunakan perintah yang sama dengan flag --upgrade .
Atau Anda dapat menjalankan pip uninstall tensorflow dan kemudian menginstal paket yang tercantum di atas.
Setelah Anda memberikan perintah pip URL, itu akan secara otomatis mengunduh dan menginstal.

Hanya ini yang bisa saya berikan dengan pengetahuan terbatas tentang sistem Anda, distribusi python Anda, dll.
Pertimbangkan untuk melakukan pencarian google untuk detail lebih lanjut tentang cara kerja instalasi paket pip dengan distribusi python Anda.

Hai, saya hanya mencopot pemasangan yang sebelumnya dan menginstal ulang dan berhasil! Terima kasih banyak, Anda menyelamatkan saya dari membeli laptop baru.

Hai @gunan dengan perubahan terbaru untuk kompatibilitas 3.5, saya mendapatkan log berikut:

>>>> sess = tf.Session()
I c:\tf_jenkins\home\workspace\nightly-win\device\gpu\os\windows\tensorflow\core
\common_runtime\gpu\gpu_device.cc:885] Found device 0 with properties:
name: Quadro K4100M
major: 3 minor: 0 memoryClockRate (GHz) 0.7055
pciBusID 0000:01:00.0
Total memory: 4.00GiB
Free memory: 3.69GiB
I c:\tf_jenkins\home\workspace\nightly-win\device\gpu\os\windows\tensorflow\core
\common_runtime\gpu\gpu_device.cc:906] DMA: 0
I c:\tf_jenkins\home\workspace\nightly-win\device\gpu\os\windows\tensorflow\core
\common_runtime\gpu\gpu_device.cc:916] 0:   Y
I c:\tf_jenkins\home\workspace\nightly-win\device\gpu\os\windows\tensorflow\core
\common_runtime\gpu\gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (d
evice: 0, name: Quadro K4100M, pci bus id: 0000:01:00.0)
E c:\tf_jenkins\home\workspace\nightly-win\device\gpu\os\windows\tensorflow\core
\common_runtime\gpu\gpu_device.cc:586] Could not identify NUMA node of /job:loca
lhost/replica:0/task:0/gpu:0, defaulting to 0.  Your kernel may not have been bu
ilt with NUMA support.

Bagaimana saya bisa menyiasatinya? Saran tentang cara melakukan ini sangat diterima.

@ kay10 Sepertinya berhasil. Pesan kesalahan pada baris terakhir tidak berbahaya, dan akan dihapus dalam rilis.

Seperti yang saya lihat di utas ini, setiap orang memiliki tingkat kompatibilitas 3. Bagi mereka yang memiliki kompatibilitas 2, apakah ada solusi tanpa kompilasi kode sumber?
Saya mencoba nightly build yang dibagikan oleh @gunan dan mendapatkan kesalahan:
tensorflow_gpu-0.12.0rc0-cp35-cp35m-win_amd64.whl is not a supported wheel on this platform.
itu bukan roda linux dan saya segera menyadarinya.

Situasi saat ini di Ubuntu 16,04.
I tensorflow/core/common_runtime/gpu/gpu_device.cc:948] Ignoring visible gpu device (device: 0, name: GeForce GTX 590, pci bus id: 0000:03:00.0) with Cuda compute capability 2.0. The minimum required Cuda capability is 3.0. I tensorflow/core/common_runtime/gpu/gpu_device.cc:948] Ignoring visible gpu device (device: 1, name: GeForce GTX 590, pci bus id: 0000:04:00.0) with Cuda compute capability 2.0. The minimum required Cuda capability is 3.0.

@batuhandayioglugil terlalu banyak kernel GPU kami mengandalkan fungsionalitas yang hanya tersedia di versi 3.0 ke atas, jadi sayangnya Anda akan membutuhkan GPU yang lebih baru. Anda mungkin juga mempertimbangkan untuk mencoba salah satu layanan cloud.

@vrv saya sampai pada titik ini setelah menghabiskan cukup waktu untuk masalah ini dan membeli PSU baru sehingga saya menghabiskan banyak biaya. Untuk menghindari pemborosan waktu lebih lanjut, saya ingin mengajukan pertanyaan: setidaknya ada 15 perpustakaan pembelajaran mendalam yang saya dengar. Cuda dan cuDNN diperlukan untuk tensorflow. Apakah situasi ini (kemampuan komputasi) khusus untuk perpustakaan cuda? Bolehkah saya memiliki kesempatan lain? jika tidak, saya akan menyerah dan terus bekerja dengan CPU (Maafkan pengabaian saya)

Saya pikir ini akan menjadi lebih banyak masalah daripada mencoba untuk membuat kartu 2.0 Anda berfungsi -- mungkin saja CPU Anda yang ada mungkin lebih cepat atau lebih cepat daripada GPU spesifik Anda, dan jauh lebih sedikit masalah untuk memulai. Sayangnya, saya tidak tahu apa yang dibutuhkan perpustakaan lain.

apakah sudah support GPU compute 3.0?

Ya.

@martinwicke terima kasih atas respon cepatnya. apakah saya masih harus membuatnya dari sumber, atau langsung menginstalnya dengan pip? Saya di Arch linux dan berjuang untuk membangunnya dari sumber yang memberikan kesalahan dengan c compiler.

Saya pikir itu harus bekerja dari biner.

Saya memiliki masalah yang sama "Mengabaikan perangkat gpu (perangkat:0,nama:GeForce GT 635M, pci bus id) dengan kemampuan komputasi Cuda 2.1. Kemampuan Cuda minimum yang diperlukan adalah 3.0." . @smtabatabaie @martinwicke @alphajatin. Tolong !!!!

Kemampuan komputasi 2.1 terlalu rendah untuk menjalankan TensorFlow. Anda memerlukan kartu grafis yang lebih baru (atau lebih kuat) untuk menjalankan TensorFlow di GPU.

Url jawaban atas pertanyaan tidak valid. Bisakah Anda memperbaruinya?

Untuk paket pip malam, cara yang disarankan untuk menginstal adalah dengan menggunakan perintah pip install tf-nightly .
ci.tensorflow.org tidak digunakan lagi.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat