Pytorch: Mengulangi crash/reboot sistem pytorch dengan andal saat menggunakan contoh imagenet

Dibuat pada 8 Okt 2017 · 67Komentar · Sumber: pytorch/pytorch

Jadi saya memiliki sistem crash 100% berulang (reboot) ketika mencoba menjalankan contoh imagenet (dataset 2012). resnet18 default. Kerusakan tampaknya terjadi di Variable.py di torch.autograd.backward(..) (baris 158).

Saya berhasil menjalankan contoh mnist dasar.

Setup: Ubuntu 16.04, 4.10.0-35-generic #39~16.04.1-Ubuntu SMP Rabu 13 Sep 09:02:42 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux

python --version Python 3.6.2 :: Anaconda, Inc.

/usr/local/cuda/bin/nvcc --version
nvcc: driver compiler NVIDIA (R) Cuda
Hak Cipta (c) 2005-2017 NVIDIA Corporation
Dibuat pada Jum_Sep__1_21:08:03_CDT_2017
Alat kompilasi Cuda, rilis 9.0, V9.0.176

+------------------------------------------------- ----------------------------+
| Proses: Memori GPU |
| Jenis PID GPU Nama proses Penggunaan |
|================================================== ==============================|
| 0 1335 G /usr/lib/xorg/Xorg 499MiB |
| 0 2231 G kayu manis 55MiB |
| 0 3390 G ...-token=C6DE372B6D9D4FCD6453869AF4C6B4E5 93MiB |
+------------------------------------------------- ----------------------------+

obor/visi dibangun secara lokal pada mesin dari master. Tidak ada masalah pada waktu kompilasi atau penginstalan, selain peringatan waktu kompilasi normal...

Senang bisa membantu mendapatkan informasi lebih lanjut..

Sumber

castleguarders

Komentar yang paling membantu

Punya masalah yang sama dengan _GTX1070_ tetapi reboot tidak acak.
Saya memiliki kode yang dapat membuat PC saya reboot setiap kali saya menjalankannya setelah paling banyak 1 Epoch.
Awalnya saya pikir bisa PSU karena punya saya hanya 500W. Namun setelah penyelidikan lebih dekat dan bahkan mengatur konsumsi daya maksimum ke nilai yang lebih rendah dengan nvidia-smi saya menyadari masalahnya ada di tempat lain.
Itu bukan masalah overheating juga jadi saya mulai berpikir bahwa itu mungkin karena mode Turbo _I7-7820x_. Setelah menonaktifkan mode Turbo dalam pengaturan BIOS _Asus X299-A_ saya dan mengubah konfigurasi Ubuntu seperti yang dinyatakan di sini , masalahnya tampaknya hilang.

Apa yang TIDAK berhasil:

Mengubah pin_memory untuk pemuat data.
Bermain dengan ukuran batch.
Meningkatkan batas memori bersama sistem.
Menetapkan nvidia-smi -pl 150 dari 195 kemungkinan untuk sistem saya.

Tidak yakin apakah ini terkait dengan masalah BIOS asli. Saya menjalankan versi 1203 sementara yang terbaru adalah 3 rilis di depan -- 1503 dan mereka menempatkan

stabilitas yang ditingkatkan

ke dalam deskripsi masing-masing 3. Versi BIOS Asus X299-A Salah satu dari rilis itu juga

Mikrokode CPU Intel yang diperbarui.

Jadi ada kemungkinan ini diperbaiki.

vwvolodya pada 6 Sep 2018

👍7 🎉2 👀1

Semua 67 komentar

Saya telah mengalami reboot sistem acak sekali karena motherboard - ketidakcocokan GPU. Ini telah terwujud selama pelatihan panjang. Apakah kerangka kerja lain (misalnya caffe) berhasil dalam pelatihan di ImageNet?

vadimkantorov pada 8 Okt 2017

Belum mencoba itu. Namun menjalankan beberapa bangku grafis yang berjalan lama;) tanpa masalah. Saya mungkin bisa mencoba memberikan kerangka kerja lain, apa rekomendasi Anda. Kafe?

Ingatlah, kerusakan yang saya laporkan terjadi segera (contoh mnist-cuda berjalan hingga selesai berkali-kali tanpa masalah). Jadi saya ragu itu masalah ketidakcocokan ah/w.

castleguarders pada 8 Okt 2017

Bisakah Anda mencoba memicu kerusakan sekali lagi dan melihat apakah sesuatu yang relevan dicetak dalam /var/log/dmesg.0 atau /var/log/kern.log ?

apaszke pada 9 Okt 2017

Nol entri yang terkait dengan ini di dmesg atau kern.log. Mesin melakukan klik dan reset yang terdengar, jadi saya pikir register h/w atau memori diputar-putar dengan cara yang tidak disukai. Tidak ada pemberitahuan nyata ke kernel untuk mencatat apa pun. Reboot pada baris kode yang sama setiap kali, setidaknya beberapa kali saya melewatinya.

castleguarders pada 9 Okt 2017

Itu aneh. Sejujurnya saya tidak punya ide bagus untuk men-debug masalah seperti itu. Dugaan saya adalah itu semacam masalah perangkat keras, tetapi saya tidak begitu tahu.

apaszke pada 10 Okt 2017

itu pasti masalah perangkat keras juga. Baik itu pada level driver nvidia, atau kegagalan bios/hardware.
Saya menutup masalah ini, karena tidak ada tindakan yang harus diambil di sisi proyek pytorch.

soumith pada 10 Okt 2017

Untuk referensi di masa mendatang, masalah ini disebabkan oleh tanjakan daya yang curam dari catu daya server 1080ti yang memicu perlindungan tegangan. Hanya beberapa contoh pytorch yang menyebabkannya muncul.

castleguarders pada 7 Des 2017

@castleguarders Sudahkah Anda menemukan cara untuk mengatasi masalah ini? Tampaknya bahkan catu daya "platinum" 1200W tidak cukup hanya untuk 2X 1080Ti, ia reboot dari waktu ke waktu.

yurymalkov pada 10 Feb 2018

@castleguarders Saya mengalami masalah serupa, bagaimana Anda menemukan bahwa itu masalahnya?

pmcrodrigues pada 17 Apr 2018

@pmcrodrigues Ada suara klik setiap kali masalah terjadi. Saya menggunakan nvidia-smi untuk mengontrol lembut penarikan daya, ini memungkinkan tes sedikit lebih lama, tetapi tetap saja trip. Saya beralih ke catu daya Delta 825W dan menangani masalah ini sepenuhnya. Furmark mempermudah pengujian ini jika Anda menjalankan windows. Saya menjalankannya sepenuhnya dipatok selama beberapa hari, saat mengemudikan CPU 100% dengan skrip yang berbeda. Tidak ada masalah sejak saat itu.

@yurymalkov Saya hanya punya 1x 1080ti, tidak berani memasang yang kedua.

castleguarders pada 19 Apr 2018

@pmcrodrigues @castleguarders
Saya juga "menyelesaikan" masalah dengan memberi makan GPU kedua dari PSU terpisah (1000W+1200W untuk 2X 1080Ti). Mengurangi penarikan daya sebesar 0,5X melalui nvidia-smi -pl juga membantu, tetapi mematikan kinerja. Juga mencoba berbagai motherboard/GPU tetapi tidak membantu.

yurymalkov pada 19 Apr 2018

👍1

@castleguarders @yurymalkov Terima kasih keduanya. Saya juga telah mencoba mengurangi penarikan daya melalui nvidia-smi dan itu berhenti merusak sistem. Tetapi dengan tes stres dengan penarikan daya penuh secara bersamaan pada 2 xeon saya (dengan http://people.seas.harvard.edu/~apw/stress/) dan 4 1080ti (dengan https://github.com/wilicc/gpu -burn) tidak membuatnya crash. Jadi untuk saat ini saya hanya melihat masalah ini di pytorch. Mungkin saya perlu tes stres lainnya?

pmcrodrigues pada 19 Apr 2018

@pmcrodrigues gpuburn tampaknya menjadi ujian yang buruk untuk ini, karena tidak membuat power ramp yang curam.
Yaitu mesin dapat melewati gpuburn dengan 4 GPU, tetapi gagal pada 2 GPU dengan skrip pytorch.

Masalahnya mereproduksi pada beberapa kerangka kerja lain (misalnya tensorflow), tetapi tampaknya skrip pytorch adalah tes terbaik, mungkin karena sifatnya yang sangat sinkron.

yurymalkov pada 19 Apr 2018

Saya mengalami masalah yang sama. Adakah yang menemukan solusi lunak untuk ini?
Saya memiliki 4 sistem GPU dengan satu CPU dan catu daya 1500W. Menggunakan 3 dari 4 atau 4/4 menyebabkan reboot.
@castleguarders @yurymalkov @pmcrodrigues Bagaimana cara mengurangi penarikan daya melalui nvidia-smi?

gurkirt pada 2 Mei 2018

@gurkirt Untuk saat ini, saya hanya menggunakan 2 GPU dengan PSU 1500W saya. Jika Anda ingin menguji pengurangan penarikan daya, Anda dapat menggunakan "nvidia-smi -pl X" di mana X adalah penarikan daya baru. Untuk gtx 1080i saya, saya menggunakan "nvidia-smi -pl 150" sedangkan undian standar adalah 250W. Saya menunggu PSU yang lebih kuat untuk menguji apakah itu menyelesaikan masalah. Saat ini saya memiliki alat pengukur untuk mengukur daya yang datang langsung dari dinding, tetapi bahkan ketika saya menggunakan 4 GPU, itu tidak melewati 1000W. Itu masih bisa menjadi beberapa puncak aneh yang tidak terdaftar tetapi ada sesuatu yang salah. Either way, kita mungkin harus menggunakan PSU 1500W ganda.

pmcrodrigues pada 2 Mei 2018

👍4

@pmcrodrigues terima kasih banyak atas tanggapan cepatnya. Saya memiliki sistem lain yang memiliki 2000W dengan 4 1080Ti. Itu bekerja dengan baik. Saya akan mencoba mencolokkan catu daya itu ke mesin ini dan melihat apakah 2000W cukup untuk mesin ini.

gurkirt pada 2 Mei 2018

@pmcrodrigues apakah Anda menemukan laporan log/peringatan/kerusakan di suatu tempat?

gurkirt pada 2 Mei 2018

@gurkirt Tidak ada.

pmcrodrigues pada 2 Mei 2018

Saya mengalami masalah serupa - klik yang terdengar, sistem mati total.

Tampaknya itu hanya terjadi dengan lapisan BatchNorm di tempatnya. Apakah itu sesuai dengan pengalaman Anda?

lukepfister pada 8 Agu 2018

Saya menggunakan reset pada waktu itu. Ini adalah masalah masalah pasokan listrik yang tidak memadai. Ini adalah masalah perangkat keras. Saya perlu memperbarui catu daya. Menurut pencarian saya secara online, lonjakan listrik adalah masalah pytorch. Saya memutakhirkan catu daya dari 1500W ke 1600W. Masalahnya masih muncul sesekali tetapi hanya ketika suhu ruangan sedikit lebih tinggi. Saya pikir ada dua faktor yang berperan, suhu kamar dan faktor utama lainnya adalah catu daya.

gurkirt pada 8 Agu 2018

Saya memiliki masalah yang sama dengan catu daya 550W dan kartu grafis GTX1070. Saya mulai belajar dan sekitar sedetik kemudian listrik padam.

Tapi ini membuat saya berpikir bahwa mungkin akan mungkin untuk mengelabui/meyakinkan PSU bahwa semuanya baik-baik saja dengan membuat fungsi peningkatan yang misalnya mencampur antara tidur dan aktivitas gpu dan secara bertahap meningkatkan beban. Apakah ada yang mencoba ini? Apakah seseorang memiliki kode minimal yang dapat diandalkan untuk memicu pemadaman listrik?

dov pada 16 Agu 2018

👍2

Apa yang TIDAK berhasil:

Mengubah pin_memory untuk pemuat data.
Bermain dengan ukuran batch.
Meningkatkan batas memori bersama sistem.
Menetapkan nvidia-smi -pl 150 dari 195 kemungkinan untuk sistem saya.

Tidak yakin apakah ini terkait dengan masalah BIOS asli. Saya menjalankan versi 1203 sementara yang terbaru adalah 3 rilis di depan -- 1503 dan mereka menempatkan

stabilitas yang ditingkatkan

ke dalam deskripsi masing-masing 3. Versi BIOS Asus X299-A Salah satu dari rilis itu juga

Mikrokode CPU Intel yang diperbarui.

Jadi ada kemungkinan ini diperbaiki.

vwvolodya pada 6 Sep 2018

👍7 🎉2 👀1

Sebagai catatan, masalah saya adalah catu daya yang rusak. Saya mendiagnosis ini dengan menjalankan https://github.com/wilicc/gpu-burn di Linux dan kemudian FurMark di Windows, dengan asumsi, bahwa kecuali saya dapat mereproduksi kerusakan di Windows, mereka tidak akan berbicara dengan saya di komputer saya toko. Kedua tes ini gagal untuk saya, ketika saya mengambil komputer untuk diperbaiki dan mendapatkan catu daya baru. Sejak itu, saya telah menjalankan pytorch selama berjam-jam tanpa crash.

dov pada 6 Sep 2018

👍1

Apakah ada yang menemukan cara untuk memperbaiki ini. Saya memiliki kesalahan serupa di mana komputer saya restart segera setelah saya memulai pelatihan. Saya memiliki psu 750w dan hanya 1 gpu (1080ti) jadi saya rasa ini bukan masalah daya. Juga, saya tidak melihat peningkatan watt ke GPU saya sebelum restart.

DanielLongo pada 22 Okt 2018

Jika saya dapat menambahkan beberapa informasi lebih lanjut tentang vwvolodya komentar yang bagus. Konfigurasi motherboard/cpu kami adalah ASUS TUF X299 MARK 2 dengan i9-7920x. Versi Bios berada di 1401. Satu-satunya hal yang dapat mencegah sistem untuk reboot/shutdown adalah mematikan: Mode Turbo.

Untuk saat ini, setelah memperbarui ke 1503 masalah tampaknya diselesaikan dengan mengaktifkan Mode Turbo.

Semoga harimu menyenangkan!

yaynouche pada 12 Nov 2018

👍3

Jika saya dapat menambahkan beberapa informasi lebih lanjut tentang vwvolodya komentar yang bagus. Konfigurasi motherboard/cpu kami adalah ASUS TUF X299 MARK 2 dengan i9-7920x. Versi Bios berada di 1401. Satu-satunya hal yang dapat mencegah sistem untuk reboot/shutdown adalah mematikan: Mode Turbo.
Untuk saat ini, setelah memperbarui ke 1503 masalah tampaknya diselesaikan dengan mengaktifkan Mode Turbo.
Semoga harimu menyenangkan!

@yaynouche @vwvolodya masalah serupa terjadi pada ASUS WS-X299 SAGE dengan i9-9920X. Mematikan Mode Turbo adalah satu-satunya solusi saat ini, dengan BIOS terbaru (Versi 0905 yang secara resmi mendukung i9-9920X).

UPDATE: ternyata, saya harus mengaktifkan mode turbo di BIOS dan menggunakan perintah seperti echo "1" > /sys/devices/system/cpu/intel_pstate/no_turbo seperti pada https://github.com/pytorch/pytorch/issues/3022#issuecomment-419093454 untuk menonaktifkan turbo melalui perangkat lunak . Jika saya menonaktifkan mode turbo di BIOS, maka mesin tetap akan reboot.

PEMBARUAN 2: Saya pikir mematikan Mode Turbo hanya dapat menurunkan kemungkinan masalah saya, bukan menghilangkannya.

zym1010 pada 20 Jan 2019

Saya mengalami masalah yang sama. Adakah yang menemukan solusi lunak untuk ini?
Saya memiliki 4 sistem GPU dengan satu CPU dan catu daya 1500W. Menggunakan 3 dari 4 atau 4/4 menyebabkan reboot.
@castleguarders @yurymalkov @pmcrodrigues Bagaimana cara mengurangi penarikan daya melalui nvidia-smi?

menghadapi masalah yang sama. 4 GTX 1080Ti dengan 1600W PSU (Dengan redundansi) . Mencoba menggunakan gpu burn untuk mengujinya dan stabil seperti batu.

Suley pada 7 Apr 2019

@Suley secara pribadi saya pikir ini lebih merupakan masalah CPU; pada dasarnya, pytorch memanggil CPU untuk mengeksekusi serangkaian instruksi yang menarik terlalu banyak daya dari motherboard.

zym1010 pada 7 Apr 2019

@Suley secara pribadi saya pikir ini lebih merupakan masalah CPU; pada dasarnya, pytorch memanggil CPU untuk mengeksekusi serangkaian instruksi yang menarik terlalu banyak daya dari motherboard.

Terima kasih untuk balasan Anda. Saya akan menguji CPU untuk mengidentifikasi masalah

Suley pada 7 Apr 2019

@Suley secara pribadi saya pikir ini lebih merupakan masalah CPU; pada dasarnya, pytorch memanggil CPU untuk mengeksekusi serangkaian instruksi yang menarik terlalu banyak daya dari motherboard.

Saya menjalankan tes stres cpu dan tes stres GPU secara bersamaan, tidak ada masalah yang ditemukan.
Mobo saya mendukung 150 W TDP, tdp cpu saya adalah 115w tdp.
Jadi konsumsi daya maksimum saya adalah: 115w * 2(CPU) + 250w *4(1080Ti) + 200W (Disk dan komponen lainnya) = 1430
Tampaknya 1600W sudah cukup. dan selain itu, ada dua daya redundansi 1600W yang keduanya menghasilkan daya, itu berarti setiap PSU hanya membawa setengah beban.

2 GPU berfungsi dengan baik.
3 GPU tidak stabil. reboot setelah beberapa menit.
4 GPU langsung mogok. reboot sistem dan tidak ada log yang direkam.

Suley pada 7 Apr 2019

Saya juga mencoba menjalankan tes stres untuk CPU dan GPU secara bersamaan; tidak ada masalah sama sekali. Mungkin karena jenis instruksinya... tidak yakin.

Bisakah Anda mencoba menonaktifkan beberapa inti CPU atau melakukan underclock? Dalam kasus saya, ini menurunkan probabilitas/frekuensi reboot tetapi tidak memperbaiki masalah.

Ini didasarkan pada fakta bahwa mengurangi beban CPU dapat membuat program lebih stabil (setidaknya di mesin saya) yang menurut saya ini adalah masalah CPU.

Yimeng Zhang
dikirim dari iPhone saya

Pada 7 April 2019, pukul 13:04, Suley [email protected] menulis:
@Suley secara pribadi saya pikir ini lebih merupakan masalah CPU; pada dasarnya, pytorch memanggil CPU untuk mengeksekusi serangkaian instruksi yang menarik terlalu banyak daya dari motherboard.
Saya menjalankan tes stres cpu dan tes stres GPU secara bersamaan, tidak ada masalah yang ditemukan.
Mobo saya mendukung 150 W TDP,
Jadi konsumsi daya maksimum saya adalah: 115w * 2(CPU) + 250w *4(1080Ti) + 200W (Disk dan komponen lainnya) = 1430
Tampaknya 1600W sudah cukup. dan selain itu, ada dua daya redundansi 1600W yang keduanya menghasilkan daya, itu berarti setiap PSU hanya membawa setengah beban.
2 GPU berfungsi dengan baik.
3 GPU tidak stabil. reboot setelah beberapa menit.
4 GPU langsung mogok. reboot sistem dan tidak ada log yang direkam.
—
Anda menerima ini karena Anda berkomentar.
Balas email ini secara langsung, lihat di GitHub, atau matikan utasnya.

zym1010 pada 7 Apr 2019

Saya juga mencoba menjalankan tes stres untuk CPU dan GPU secara bersamaan; tidak ada masalah sama sekali. Mungkin karena jenis instruksinya... tidak yakin. Bisakah Anda mencoba menonaktifkan beberapa inti CPU atau melakukan underclock? Dalam kasus saya, ini menurunkan probabilitas/frekuensi reboot tetapi tidak memperbaiki masalah. Ini didasarkan pada fakta bahwa mengurangi beban CPU dapat membuat program lebih stabil (setidaknya di mesin saya) yang menurut saya ini adalah masalah CPU. Yimeng Zhang Dikirim dari iPhone saya
…
Pada 7 April 2019, pukul 13.04, Suley @ . * > menulis: @Suley secara pribadi saya pikir ini lebih merupakan masalah CPU; pada dasarnya, pytorch memanggil CPU untuk mengeksekusi serangkaian instruksi yang menarik terlalu banyak daya dari motherboard. Saya menjalankan tes stres cpu dan tes stres GPU secara bersamaan, tidak ada masalah yang ditemukan. Mobo saya mendukung 150 W TDP, Jadi konsumsi daya maksimum saya adalah: 115w * 2(CPU) + 250w *4(1080Ti) + 200W (Disk dan komponen lainnya) = 1430 Tampaknya 1600W sudah cukup. dan selain itu, ada dua daya redundansi 1600W yang keduanya menghasilkan daya, itu berarti setiap PSU hanya membawa setengah beban. 2 GPU berfungsi dengan baik. 3 GPU tidak stabil. reboot setelah beberapa menit. 4 GPU langsung mogok. reboot sistem dan tidak ada log yang direkam. — Anda menerima ini karena Anda berkomentar. Balas email ini secara langsung, lihat di GitHub, atau matikan utasnya.

Terima kasih. Saat ini ada tugas yang berjalan di server. Saya akan mencobanya setelah tugas selesai, dan membagikan hasil tes saya.
Tetapi masih tidak dapat menjelaskan mengapa menekankan gpu dan cpu berfungsi, tetapi pytorch tidak. Berharap seseorang dapat menggali ini dan memberikan solusi.

Suley pada 10 Apr 2019

Saya juga mencoba menjalankan tes stres untuk CPU dan GPU secara bersamaan; tidak ada masalah sama sekali. Mungkin karena jenis instruksinya... tidak yakin. Bisakah Anda mencoba menonaktifkan beberapa inti CPU atau melakukan underclock? Dalam kasus saya, ini menurunkan probabilitas/frekuensi reboot tetapi tidak memperbaiki masalah. Ini didasarkan pada fakta bahwa mengurangi beban CPU dapat membuat program lebih stabil (setidaknya di mesin saya) yang menurut saya ini adalah masalah CPU. Yimeng Zhang Dikirim dari iPhone saya
…
Pada 7 April 2019, pukul 13.04, Suley @ . * > menulis: @Suley secara pribadi saya pikir ini lebih merupakan masalah CPU; pada dasarnya, pytorch memanggil CPU untuk mengeksekusi serangkaian instruksi yang menarik terlalu banyak daya dari motherboard. Saya menjalankan tes stres cpu dan tes stres GPU secara bersamaan, tidak ada masalah yang ditemukan. Mobo saya mendukung 150 W TDP, Jadi konsumsi daya maksimum saya adalah: 115w * 2(CPU) + 250w *4(1080Ti) + 200W (Disk dan komponen lainnya) = 1430 Tampaknya 1600W sudah cukup. dan selain itu, ada dua daya redundansi 1600W yang keduanya menghasilkan daya, itu berarti setiap PSU hanya membawa setengah beban. 2 GPU berfungsi dengan baik. 3 GPU tidak stabil. reboot setelah beberapa menit. 4 GPU langsung mogok. reboot sistem dan tidak ada log yang direkam. — Anda menerima ini karena Anda berkomentar. Balas email ini secara langsung, lihat di GitHub, atau matikan utasnya.

sepertinya anda benar. itu adalah bug terkait cpu. Setelah saya menonaktifkan semua core cpu kecuali cpu0, itu berhasil.
Tetapi hanya satu inti yang berfungsi. Mengaktifkan setengah dari inti masih macet.

Suley pada 13 Apr 2019

@Suley apakah Anda menggunakan chipset X299? Tampaknya banyak build dengan X299 memiliki masalah ini.

zym1010 pada 13 Apr 2019

PSU 1600W dengan 4x 2080 TI menghadapi masalah yang sama. Saya memasang PSU 750W kedua dengan ADD2PSU dan sekarang saya menjalankan 1600W PSU = 3x2080Ti + System dan 750W PSU = 1x2080Ti dan semuanya tampak stabil. Seperti yang dikomentari oleh yang lain, pytorch adalah satu-satunya aplikasi yang menekankan GPU sehingga mereka mengalami perlindungan saat ini. Penambang, Renderer, Stresstests semuanya nyaman dengan satu PSU 1600W. Jadi ini adalah masalah perangkat keras dan mulai sekarang pytorch akan menjadi GPU Stresstest saya :-) BTW: Saya memiliki build X399

mwyborski pada 23 Apr 2019

Ya, pytorch menyebabkan lonjakan daya pada saat inisialisasi jaringan. PSU 1600W sudah cukup jika PSU Anda adalah PSU kelas platinum dan PSU perak kelas emas tidak cukup kuat untuk menangani perubahan kebutuhan daya yang tiba-tiba. PSU Anda dapat memasok cukup tetapi tidak dapat menangani perubahan mendadak dari penggunaan ~250W menjadi 1000+W yang diperlukan dalam hitungan detik. Periksa kelas catu daya. Matikan juga overclocking di pengaturan bios.

gurkirt pada 24 Apr 2019

@gurkirt Saya memiliki PSU 1200W "kelas platinum" yang tidak dapat menangani dua GPU 1080Ti. Meskipun, itu bekerja lebih baik daripada PSU lain yang saya miliki (1000W, merek berbeda, tidak murah).

yurymalkov pada 24 Apr 2019

Saya memiliki corsair 1600W platinum dengan 4x1080Ti dan berfungsi dengan baik.

gurkirt pada 28 Apr 2019

Ya, pytorch menyebabkan lonjakan daya pada saat inisialisasi jaringan. PSU 1600W sudah cukup jika PSU Anda adalah PSU kelas platinum dan PSU perak kelas emas tidak cukup kuat untuk menangani perubahan kebutuhan daya yang tiba-tiba. PSU Anda dapat memasok cukup tetapi tidak dapat menangani perubahan mendadak dari penggunaan ~250W menjadi 1000+W yang diperlukan dalam hitungan detik. Periksa kelas catu daya. Matikan juga overclocking di pengaturan bios.

psu saya adalah psu kelas Platinum. Supermicro 7047GR barebone. dan itu dua 1600w, menggabungkan 3200w secara total.

Suley pada 28 Apr 2019

@gurkirt Saya memiliki PSU 1200W "kelas platinum" yang tidak dapat menangani dua GPU 1080Ti. Meskipun, itu bekerja lebih baik daripada PSU lain yang saya miliki (1000W, merek berbeda, tidak murah).

Aneh! Saya memiliki dua PSU kelas platinum. (1600w). Tidak dapat menangani 4 1080Ti!

Suley pada 28 Apr 2019

@Suley apakah Anda menggunakan chipset X299? Tampaknya banyak build dengan X299 memiliki masalah ini.

Tidak. Saya menggunakan x79, yang cukup tua. server X99 saya bekerja dengan baik.

Suley pada 28 Apr 2019

Saya memiliki masalah yang sama dengan 4x2080ti + asus x299 sage + Rosewill Hercules 1600W PSU (atau Corsair 1500i), menonaktifkan cpu turbo tidak membantu. Setelah menggunakan Corsair 1600i Titanium , bekerja dengan sempurna.

ZhengRui pada 16 Mei 2019

Saya memiliki masalah yang sama dengan 4x2080ti + asus x299 sage + Rosewill Hercules 1600W PSU (atau Corsair 1500i), menonaktifkan cpu turbo tidak membantu. Setelah menggunakan Corsair 1600i Titanium , bekerja dengan sempurna.

@ZhengRui Mesin saya juga memiliki 4x2080ti + x299 sage, tetapi dengan PSU 2000W; masih gagal... (mungkin karena perbedaan CPU? Milik saya adalah 12 core i9-9920X).

zym1010 pada 16 Mei 2019

@zym1010 cpu saya adalah 10core i9-9820

ZhengRui pada 17 Mei 2019

Saya memiliki masalah yang sama dengan 4x2080ti + asus x299 sage + Rosewill Hercules 1600W PSU (atau Corsair 1500i), menonaktifkan cpu turbo tidak membantu. Setelah menggunakan Corsair 1600i Titanium , bekerja dengan sempurna.

Saya memiliki kasus serupa, setelah memutakhirkan ke 1600i, berhasil.

gurkirt pada 23 Mei 2019

Dalam kasus saya, mesin saya memiliki 1080 dan 550W PSU. Menjalankan program libtorch saya di Rust sekali tidak masalah. Namun, jika saya mengulangi mematikan dan memulai ulang program saya setiap 30 detik, sistem akan mati dengan andal, atau GPU menjadi offline. Akhirnya, motherboard rusak tidak bisa boot sama sekali.

jerry73204 pada 25 Mei 2019

Saya rasa jelas dari pembahasan di atas bahwa kebanyakan itu adalah kesalahan PSU, PSU tidak hanya harus memiliki pemadaman listrik yang cukup tetapi harus cukup kuat untuk menahan lonjakan listrik. Saran saya untuk Anda jika Anda memiliki masalah ini, cobalah mengubahnya ke PSU yang lebih baik dan simpan mesin di tempat yang dingin dan kering.

gurkirt pada 26 Mei 2019

Ternyata masalah utama bagi saya bukanlah PSU, tetapi kurangnya kabel. Rupanya menghubungkan GPU yang memiliki 2 soket PCIe ke satu soket di PSU menarik terlalu banyak daya dari soket PSU tunggal dan perlindungan tegangan lebih mematikan semuanya.

Memutakhirkan PSU dalam kasus saya tampaknya memperburuk masalah, karena PSU tidak menyala sama sekali. Alasannya adalah bahwa PSU baru (dan lebih baik) melakukan pemeriksaan kabel sebelum dihidupkan dan mereka gagal.

Menggunakan kabel dengan 2 kepala di kedua sisi atau dua kabel berbeda memecahkan masalah bagi saya

mikonapoli pada 29 Mei 2019

Saya tidak yakin apa yang saya hadapi sama dengan masalahnya. Komputer saya menggunakan 1080Ti, dan jika penggunaan Memori GPU mendekati 100%, yaitu menggunakan memori hampir 11GB, itu akan reboot. Tetapi jika saya mengurangi ukuran batch jaringan untuk mengurangi penggunaan memori, masalah reboot tidak akan terjadi tanpa meningkatkan daya. Jika seseorang memenuhi masalah reboot, saya harap kondisi saya dapat membantu Anda.

qwesdfok pada 11 Jul 2019

Saya menghadapi masalah yang sama dengan 1080 Ti dan PSU 450 W dan mencoba mengurangi konsumsi daya dengan mengetikkan perintah "Sudo nvidia-smi -pl X" sebagai solusi sementara. Namun, ini tidak berhasil pada percobaan pertama. Setelah itu, saya perhatikan bahwa jika Anda membatasi konsumsi daya terlebih dahulu dan ketik "nvidia-smi -lms 50" di terminal lain untuk memeriksa penggunaan daya dan memori GPU sesaat sebelum memulai pelatihan, saya dapat melatih jaringan tanpa masalah . Saya sedang menunggu PSU baru sekarang untuk solusi permanen.

alpErenSari pada 12 Jul 2019

Saya juga mengalami masalah ini dan dapat mereproduksinya dengan skrip Pytorch tanpa menggunakan GPU apa pun (hanya CPU). Jadi saya setuju dengan @zym1010 bagi saya ini masalah CPU. Saya memperbarui BIOS saya (ASUS WS X299 SAGE LGA 2066 Intel X299) dan tampaknya telah menghentikan masalah agar tidak terjadi. Namun mengingat komentar di utas ini, saya tidak sepenuhnya yakin masalah ini sudah diperbaiki ...

@soumith Tidakkah menurut Anda kontributor Pytorch harus melihat masalah ini daripada hanya menutupnya? Pytorch tampaknya menekankan GPU/CPU dengan cara yang tidak dilakukan oleh tes stres GPU/CPU. Ini bukan perilaku yang diharapkan, dan masalahnya mempengaruhi banyak orang. Sepertinya masalah yang agak menarik juga!

Caselles pada 16 Jul 2019

👍3

Saya juga mengalami masalah ini dan dapat mereproduksinya dengan skrip Pytorch tanpa menggunakan GPU apa pun (hanya CPU). Jadi saya setuju dengan @zym1010 bagi saya ini masalah CPU. Saya memperbarui BIOS saya (ASUS WS X299 SAGE LGA 2066 Intel X299) dan tampaknya telah menghentikan masalah agar tidak terjadi. Namun mengingat komentar di utas ini, saya tidak sepenuhnya yakin masalah ini sudah diperbaiki ...
@soumith Tidakkah menurut Anda kontributor Pytorch harus melihat masalah ini daripada hanya menutupnya? Pytorch tampaknya menekankan GPU/CPU dengan cara yang tidak dilakukan oleh tes stres GPU/CPU. Ini bukan perilaku yang diharapkan, dan masalahnya mempengaruhi banyak orang. Sepertinya masalah yang agak menarik juga!

@Caselles apakah Anda mengacu pada BIOS versi 1001? Saya melihatnya beberapa waktu lalu di situs web ASUS tetapi tampaknya entah bagaimana telah dihapus.

zym1010 pada 16 Jul 2019

BIOS yang saya instal adalah yang ini: "WS X299 SAGE Formal BIOS 0905 Release" .

Caselles pada 17 Jul 2019

Dalam pengalaman saya, masalah ini muncul dengan PSU Thermaltake yang berbeda. Dalam kasus terakhir, mengubah PSU dari Thermaltake platinum 1500W ke Corsair HX1200 memecahkan masalah pada pengaturan dua-2080Ti.

yurymalkov pada 17 Jul 2019

Saya memiliki masalah ini dengan CPU dan GPU, yang berarti reboot terjadi bahkan ketika saya secara fisik menghapus GPU dan hanya melatih jaringan pada CPU tanpa menggunakan dataloader

Catu daya saya adalah catu daya emas EVGA 850w, dan CPU: i7-8700k, GPU: GTX 1080ti (hanya 1 buah)

Dan saya memiliki sakelar ECO di catu daya saya, jika saya mengalihkannya ke "on", itu lebih sering terjadi.

Seperti yang dikatakan orang lain, tes tekanan pada CPU dan GPU lulus.

Jadi, kesimpulan di sini:

Reboot akan terjadi bahkan dengan pelatihan hanya pada CPU, bahkan setelah saya melepas GPU secara fisik.
Nyalakan ECO switch di PSU mengakibatkan lebih sering reboot.
I7-8700k+GTX 1080ti pada catu daya 850W.
Hanya muncul saat menggunakan Pytorch bahkan tanpa Dataloader

pengyu965 pada 4 Sep 2019

Jika saya dapat menambahkan beberapa informasi lebih lanjut tentang vwvolodya komentar yang bagus. Konfigurasi motherboard/cpu kami adalah ASUS TUF X299 MARK 2 dengan i9-7920x. Versi Bios berada di 1401. Satu-satunya hal yang dapat mencegah sistem untuk reboot/shutdown adalah mematikan: Mode Turbo.
Untuk saat ini, setelah memperbarui ke 1503 masalah tampaknya diselesaikan dengan mengaktifkan Mode Turbo.
Semoga harimu menyenangkan!
@yaynouche @vwvolodya masalah serupa terjadi pada ASUS WS-X299 SAGE dengan i9-9920X. Mematikan Mode Turbo adalah satu-satunya solusi saat ini, dengan BIOS terbaru (Versi 0905 yang secara resmi mendukung i9-9920X).
UPDATE: ternyata, saya harus mengaktifkan mode turbo di BIOS dan menggunakan perintah seperti echo "1" > /sys/devices/system/cpu/intel_pstate/no_turbo seperti pada #3022 (komentar) untuk menonaktifkan turbo melalui perangkat lunak . Jika saya menonaktifkan mode turbo di BIOS, maka mesin tetap akan reboot.
PEMBARUAN 2: Saya pikir mematikan Mode Turbo hanya dapat menurunkan kemungkinan masalah saya, bukan menghilangkannya.

Detail perangkat keras saya:

Motherboard: Asus WS X299 SAGE/10G 
CPU: Intel Core i9-9900X
GPU: Geforce RTX2080 TI - 11GB (4 of them)
Power supply: Masterwatt Maker - 1500Watts

Versi Bios: 0905. Kemudian diperbarui ke 1201.
Turbo diaktifkan dari bios lalu setel 1 di /sys/devices/system/cpu/intel_pstate/no_turbo
Mencoba kombinasi lain.

Diuji menggunakan https://github.com/wilicc/gpu-burn. Semua gps ok.

Setiap kali saya melatih maskrcnn_resnet50_fpn pada coco dataset menggunakan 4 GPU dengan ukuran batch 4, sistem segera reboot. Tapi, ketika saya menggunakan 3 GPU dengan ukuran batch 4 atau 4 GPU dengan ukuran batch 2, itu adalah pelatihan.

Apa yang bisa menjadi alasannya? Sumber Daya listrik?
Saya sangat ingin memecahkannya. Saya menghargai komentar Anda.
Terima kasih sebelumnya
Zulfi

cognitiveRobot pada 9 Sep 2019

Saya juga memiliki masalah ini menggunakan 4 x Geforce RTX2080 TI - 11GB dan 1600W EVGA SuperNOVA Platinum PSU (Saya juga mencoba menukar PSU dengan 1600W SuperNOVA EVGA Gold PSU) dan masalah masih terjadi saat menggunakan PyTorch dengan 4 GPU.

jeroneandrews pada 16 Okt 2019

Dari pengalaman saya, reboot sering terjadi ketika nvidia-persistenced tidak diinstal dan dijalankan.
Tautan: https://docs.nvidia.com/deploy/driver-persistence/index.html

Memperbarui Bios juga merupakan bagian penting dari solusi. Semoga membantu.

Salam,

Yasin

yaynouche pada 16 Okt 2019

👍1

@gurkirt apa spesifikasi sistem Anda yang lain?

Saya juga memiliki 4 x RTX 2080tis dan psu corsair 1600i tetapi pc saya masih mati setelah beberapa saat ketika menggunakan semua 4 GPU.

jeroneandrews pada 24 Okt 2019

Hei hanya untuk FYI saya mengalami masalah ini pada banyak mesin (semua X299 dengan beberapa 2080Tis), dan setelah mencoba 4 PSU yang berbeda, Corsair AX1600I adalah satu-satunya yang saya tidak mengalami reboot.

sjdrc pada 9 Mar 2020

Saya memiliki masalah yang sama.
Konfigurasi mesin - Lenovo y540, RTX 2060, Ubuntu 18.04. Saya mencoba melatih model klasifikasi gambar biner sederhana (4 lapisan konv dengan batchnorm). Model dilatih selama 20 zaman (ukuran batch = 8) dan kemudian laptop saya dimatikan.

Keluaran dari nvidia-smi :

| NVIDIA-SMI 430.50       Driver Version: 430.50       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 2060    Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   47C    P8     3W /  N/A |     10MiB /  5934MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Berikut ini adalah file log sebelum sistem crash saya pikir. Saya menemukannya di - cat /var/log/kern.log .

Mar 10 17:05:01 maverick kernel: [    9.279289] audit: type=1400 audit(1583840101.525:10): apparmor="STATUS" operation="profile_load" profile="unconfined" name="/usr/lib/snapd/snap-confine//mount-namespace-capture-helper" pid=837 comm="apparmor_parser"
Mar 10 17:05:01 maverick kernel: [    9.280042] audit: type=1400 audit(1583840101.529:11): apparmor="STATUS" operation="profile_load" profile="unconfined" name="/sbin/dhclient" pid=828 comm="apparmor_parser"
Mar 10 17:05:01 maverick kernel: [    9.325087] intel_rapl_common: Found RAPL domain package
Mar 10 17:05:01 maverick kernel: [    9.325092] intel_rapl_common: Found RAPL domain core
Mar 10 17:05:01 maverick kernel: [    9.325096] intel_rapl_common: Found RAPL domain uncore
Mar 10 17:05:01 maverick kernel: [    9.325100] intel_rapl_common: Found RAPL domain dram
Mar 10 17:05:01 maverick kernel: [    9.355748] input: HDA Intel PCH Mic as /devices/pci0000:00/0000:00:1f.3/sound/card0/input13
Mar 10 17:05:01 maverick kernel: [    9.355987] input: HDA Intel PCH Headphone as /devices/pci0000:00/0000:00:1f.3/sound/card0/input14
Mar 10 17:05:01 maverick kernel: [    9.356199] input: HDA Intel PCH HDMI/DP,pcm=3 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input15
Mar 10 17:05:01 maverick kernel: [    9.356895] input: HDA Intel PCH HDMI/DP,pcm=7 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input16
Mar 10 17:05:01 maverick kernel: [    9.357074] input: HDA Intel PCH HDMI/DP,pcm=8 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input17
Mar 10 17:05:01 maverick kernel: [    9.357296] input: HDA Intel PCH HDMI/DP,pcm=9 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input18
Mar 10 17:05:01 maverick kernel: [    9.357497] input: HDA Intel PCH HDMI/DP,pcm=10 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input19
Mar 10 17:05:01 maverick kernel: [    9.432866] dw-apb-uart.2: ttyS4 at MMIO 0x8f802000 (irq = 20, base_baud = 115200) is a 16550A
Mar 10 17:05:01 maverick kernel: [    9.434397] iwlwifi 0000:00:14.3 wlp0s20f3: renamed from wlan0
Mar 10 17:05:01 maverick kernel: [    9.445610] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms  430.50  Thu Sep  5 22:39:50 CDT 2019
Mar 10 17:05:01 maverick kernel: [    9.575171] nvidia-uvm: Loaded the UVM driver in 8 mode, major device number 234
Mar 10 17:05:01 maverick kernel: [    9.623512] Bluetooth: BNEP (Ethernet Emulation) ver 1.3
Mar 10 17:05:01 maverick kernel: [    9.623516] Bluetooth: BNEP filters: protocol multicast
Mar 10 17:05:01 maverick kernel: [    9.623525] Bluetooth: BNEP socket layer initialized
Mar 10 17:05:01 maverick kernel: [    9.664785] input: MSFT0001:01 06CB:CD5F Touchpad as /devices/pci0000:00/0000:00:15.1/i2c_designware.1/i2c-2/i2c-MSFT0001:01/0018:06CB:CD5F.0003/input/input24
Mar 10 17:05:01 maverick kernel: [    9.665154] hid-multitouch 0018:06CB:CD5F.0003: input,hidraw2: I2C HID v1.00 Mouse [MSFT0001:01 06CB:CD5F] on i2c-MSFT0001:01
Mar 10 17:05:01 maverick kernel: [    9.669632] input: HDA NVidia HDMI/DP,pcm=3 as /devices/pci0000:00/0000:00:01.0/0000:01:00.1/sound/card1/input20
Mar 10 17:05:01 maverick kernel: [    9.669880] input: HDA NVidia HDMI/DP,pcm=7 as /devices/pci0000:00/0000:00:01.0/0000:01:00.1/sound/card1/input21
Mar 10 17:05:01 maverick kernel: [    9.669932] input: HDA NVidia HDMI/DP,pcm=8 as /devices/pci0000:00/0000:00:01.0/0000:01:00.1/sound/card1/input22
Mar 10 17:05:02 maverick kernel: [    9.767641] ACPI Warning: \_SB.PCI0.PEG0.PEGP._DSM: Argument #4 type mismatch - Found [Buffer], ACPI requires [Package] (20190703/nsarguments-66)
Mar 10 17:05:02 maverick kernel: [   10.035982] Generic Realtek PHY r8169-700:00: attached PHY driver [Generic Realtek PHY] (mii_bus:phy_addr=r8169-700:00, irq=IGNORE)
Mar 10 17:05:02 maverick kernel: [   10.149333] r8169 0000:07:00.0 enp7s0: Link is Down
Mar 10 17:05:02 maverick kernel: [   10.179246] iwlwifi 0000:00:14.3: Applying debug destination EXTERNAL_DRAM
Mar 10 17:05:02 maverick kernel: [   10.296096] iwlwifi 0000:00:14.3: Applying debug destination EXTERNAL_DRAM
Mar 10 17:05:02 maverick kernel: [   10.361833] iwlwifi 0000:00:14.3: FW already configured (0) - re-configuring
Mar 10 17:05:02 maverick kernel: [   10.374304] iwlwifi 0000:00:14.3: BIOS contains WGDS but no WRDS
Mar 10 17:05:02 maverick kernel: [   10.378535] Bluetooth: hci0: Waiting for firmware download to complete
Mar 10 17:05:02 maverick kernel: [   10.379322] Bluetooth: hci0: Firmware loaded in 1598306 usecs
Mar 10 17:05:02 maverick kernel: [   10.379451] Bluetooth: hci0: Waiting for device to boot
Mar 10 17:05:02 maverick kernel: [   10.392359] Bluetooth: hci0: Device booted in 12671 usecs
Mar 10 17:05:02 maverick kernel: [   10.395240] Bluetooth: hci0: Found Intel DDC parameters: intel/ibt-17-16-1.ddc
Mar 10 17:05:02 maverick kernel: [   10.398388] Bluetooth: hci0: Applying Intel DDC parameters completed
Mar 10 17:05:03 maverick kernel: [   11.148057] nvidia-uvm: Unloaded the UVM driver in 8 mode
Mar 10 17:05:03 maverick kernel: [   11.171826] nvidia-modeset: Unloading
Mar 10 17:05:03 maverick kernel: [   11.219065] nvidia-nvlink: Unregistered the Nvlink Core, major device number 237
Mar 10 17:05:04 maverick kernel: [   12.125832] nvidia-nvlink: Nvlink Core is being initialized, major device number 237
Mar 10 17:05:04 maverick kernel: [   12.127484] nvidia 0000:01:00.0: vgaarb: changed VGA decodes: olddecodes=none,decodes=none:owns=none
Mar 10 17:05:04 maverick kernel: [   12.175644] NVRM: loading NVIDIA UNIX x86_64 Kernel Module  430.50  Thu Sep  5 22:36:31 CDT 2019
Mar 10 17:05:05 maverick kernel: [   13.205291] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms  430.50  Thu Sep  5 22:39:50 CDT 2019
Mar 10 17:05:05 maverick kernel: [   13.250663] nvidia-uvm: Loaded the UVM driver in 8 mode, major device number 234
Mar 10 17:05:06 maverick kernel: [   13.986003] wlp0s20f3: authenticate with 58:c1:7a:1b:bd:d0
Mar 10 17:05:06 maverick kernel: [   13.994385] wlp0s20f3: send auth to 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:05:06 maverick kernel: [   14.047103] iwlwifi 0000:00:14.3: Unhandled alg: 0x707
Mar 10 17:05:06 maverick kernel: [   14.063692] wlp0s20f3: authenticated
Mar 10 17:05:06 maverick kernel: [   14.068040] wlp0s20f3: associate with 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:05:06 maverick kernel: [   14.097924] wlp0s20f3: RX AssocResp from 58:c1:7a:1b:bd:d0 (capab=0x431 status=0 aid=4)
Mar 10 17:05:06 maverick kernel: [   14.143288] iwlwifi 0000:00:14.3: Unhandled alg: 0x707
Mar 10 17:05:06 maverick kernel: [   14.177499] wlp0s20f3: associated
Mar 10 17:05:06 maverick kernel: [   14.296025] IPv6: ADDRCONF(NETDEV_CHANGE): wlp0s20f3: link becomes ready
Mar 10 17:05:08 maverick kernel: [   16.376337] bpfilter: Loaded bpfilter_umh pid 1511
Mar 10 17:05:18 maverick kernel: [   26.325876] Bluetooth: RFCOMM TTY layer initialized
Mar 10 17:05:18 maverick kernel: [   26.325884] Bluetooth: RFCOMM socket layer initialized
Mar 10 17:05:18 maverick kernel: [   26.325892] Bluetooth: RFCOMM ver 1.11
Mar 10 17:05:19 maverick kernel: [   27.169380] rfkill: input handler disabled
Mar 10 17:08:10 maverick kernel: [  198.039283] ucsi_ccg 0-0008: failed to reset PPM!
Mar 10 17:08:10 maverick kernel: [  198.039292] ucsi_ccg 0-0008: PPM init failed (-110)
Mar 10 17:10:11 maverick kernel: [  319.690728] mce: CPU11: Core temperature above threshold, cpu clock throttled (total events = 75)
Mar 10 17:10:11 maverick kernel: [  319.690729] mce: CPU5: Core temperature above threshold, cpu clock throttled (total events = 75)
Mar 10 17:10:11 maverick kernel: [  319.690730] mce: CPU11: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690730] mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690772] mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690773] mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690774] mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690775] mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690776] mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690777] mce: CPU9: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690778] mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690779] mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690780] mce: CPU10: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690781] mce: CPU8: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.691710] mce: CPU5: Core temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691713] mce: CPU11: Core temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691716] mce: CPU11: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691717] mce: CPU5: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691777] mce: CPU0: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691781] mce: CPU7: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691783] mce: CPU6: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691787] mce: CPU2: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691790] mce: CPU1: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691793] mce: CPU8: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691798] mce: CPU10: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691800] mce: CPU4: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691804] mce: CPU3: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691807] mce: CPU9: Package temperature/speed normal
Mar 10 17:13:35 maverick kernel: [  523.048575] wlp0s20f3: authenticate with 58:c1:7a:1b:bd:d0
Mar 10 17:13:35 maverick kernel: [  523.055288] wlp0s20f3: send auth to 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:13:35 maverick kernel: [  523.097819] wlp0s20f3: authenticated
Mar 10 17:13:35 maverick kernel: [  523.099819] wlp0s20f3: associate with 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:13:35 maverick kernel: [  523.107873] wlp0s20f3: RX AssocResp from 58:c1:7a:1b:bd:d0 (capab=0x431 status=0 aid=1)
Mar 10 17:13:35 maverick kernel: [  523.109523] iwlwifi 0000:00:14.3: Unhandled alg: 0x707
Mar 10 17:13:35 maverick kernel: [  523.110798] wlp0s20f3: associated
Mar 10 17:13:35 maverick kernel: [  523.119975] IPv6: ADDRCONF(NETDEV_CHANGE): wlp0s20f3: link becomes ready

Bagaimana saya bisa menghentikan ini terjadi lagi yaitu. hentikan pelatihan pytorch dan tidak merusak sistem saya?

theairbend3r pada 10 Mar 2020

@ theairbend3r Saya tidak yakin apakah Anda mengalami masalah yang sama dengan yang ada di sini. Seperti yang saya pahami, saat memulai pelatihan dengan obor, GPU dan CPU meningkat dengan sangat cepat sehingga dapat melebihi penarikan daya normal dan memicu perlindungan kelebihan beban pada PSU. Saya selalu mengalami ini sebelum zaman pertama berakhir.

Maaf saya tidak punya saran yang lebih berguna untuk Anda.

sjdrc pada 10 Mar 2020

👍1

Beberapa solusi yang mungkin: (tidak yakin apakah ada di antara mereka yang dapat memperbaiki masalah secara mandiri)

Versi BIOS: Saya mengikuti diskusi di atas untuk memperbarui versi BIOS saya dari 3501 ke 4001 (Asus X99-E WS/USB3.1), masalah terpecahkan.
Mengatur kipas GPU Nvidia: Saya mengubah kecepatan kipas GPU untuk mengurangi risiko suhu tinggi yang dapat menyebabkan shutdown/reboot yang muncul.
Turunkan num_worker dari 12 menjadi 4 (maks #core di server saya adalah 12).
Daya yang tidak mencukupi dari pemasok daya.

sdsy888 pada 17 Mar 2020

Tampaknya bahkan catu daya "platinum" 1200W tidak cukup hanya untuk 2X 1080Ti, ia reboot dari waktu ke waktu.

Menghadapi masalah ini dengan 2x 2080ti pada banyak PC dengan platium 1000W dan 1200W. Bekerja dengan baik saat menggunakan hanya 1 GPU, tetapi tidak 2. Dipecahkan dengan memutakhirkan PSU ke 1600W.