मुझे भी यही त्रुटि मिली। अंतर यह है कि जब मैं एक GPU या दो GPU का उपयोग करता हूं, तो कोई समस्या नहीं है। लेकिन Mask RCNN (mask_rcnn_R-101-FPN) या रेटिनानेट (retinanet_R-101-FPN) को प्रशिक्षित करने के लिए 4 GPU का उपयोग करने पर भी यही समस्या होती है।

tshizys 25 जन॰ 2018

मैं एक ही समस्या है जब मैं दो या अधिक GPU के साथ tutorial_Res50 नेटवर्क को प्रशिक्षित करता हूं।

lwher 25 जन॰ 2018

जीपीयू आईडी निर्दिष्ट करते समय एक ही मुद्दे का सामना करना पड़ा (यानी सबसे कम आईडी से अलग, उदाहरण के लिए 4 जीपीयू के लिए '1,3,5,7')। यदि सबसे कम जीपीयू आईडी निर्दिष्ट किए जाते हैं, तो प्रशिक्षण ठीक चलता है।

jwnsu 25 जन॰ 2018

👍1

@jwnsu : हम एक फिक्स पर काम कर रहे हैं, ताकि CUDA_VISIBLE_DEVICES अभी भी सबसे कम आईडी प्रशिक्षण का उपयोग न करे। रिपोर्टिंग और निदान के लिए धन्यवाद।

rbgirshick 25 जन॰ 2018

Hi @jwnsu , @coolbrain , @tshizys , @lwher : हम अपनी तरफ से इस मुद्दे को

क्या आप प्रत्येक को कुछ और जानकारी प्रदान कर सकते हैं जो एक सामान्य पैटर्न को प्रकट कर सकती हैं?

विशेष रूप से:

ऑपरेटिंग सिस्टम: ?
संकलक संस्करण:?
CUDA संस्करण:?
cuDNN संस्करण:?
NVIDIA चालक संस्करण:?
GPU मॉडल (सभी उपकरणों के लिए यदि वे सभी समान नहीं हैं):?
और कुछ जो प्रासंगिक लगता है:?

जब हम प्रशिक्षण देखते हैं, तो उदाहरण के लिए, GPU ids 1,3,5,7 के साथ:

CUDA_VISIBLE_DEVICES=1,3,5,7 python2 tools/train_net.py --cfg configs/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_1x.yaml OUTPUT_DIR /tmp/dbg-cvd-train TRAIN.DATASETS "('coco_2014_minival',)" NUM_GPUS 4

Every 0.1s: nvidia-smi                                                                                                                                                                                                                                                                                                                             Fri Jan 26 09:09:26 2018

Fri Jan 26 09:09:26 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.39                 Driver Version: 375.39                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M40           On   | 0000:07:00.0     Off |                  Off |
|  0%   42C    P8    17W / 250W |      0MiB / 12209MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla M40           On   | 0000:08:00.0     Off |                  Off |
|  0%   51C    P0   144W / 250W |   7214MiB / 12209MiB |     46%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla M40           On   | 0000:09:00.0     Off |                  Off |
|  0%   38C    P8    19W / 250W |      0MiB / 12209MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla M40           On   | 0000:0A:00.0     Off |                  Off |
|  0%   52C    P0   220W / 250W |   7502MiB / 12209MiB |     38%      Default |
+-------------------------------+----------------------+----------------------+
|   4  Tesla M40           On   | 0000:0B:00.0     Off |                  Off |
|  0%   40C    P8    17W / 250W |      0MiB / 12209MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   5  Tesla M40           On   | 0000:0C:00.0     Off |                  Off |
|  0%   60C    P0    85W / 250W |   7081MiB / 12209MiB |     48%      Default |
+-------------------------------+----------------------+----------------------+
|   6  Tesla M40           On   | 0000:0D:00.0     Off |                  Off |
|  0%   40C    P8    20W / 250W |      0MiB / 12209MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   7  Tesla M40           On   | 0000:0E:00.0     Off |                  Off |
|  0%   56C    P0    81W / 250W |   7494MiB / 12209MiB |     40%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    1   2871837    C   ..............gcc-5-glibc-2.23/bin/python2.7  7210MiB |
|    3   2871837    C   ..............gcc-5-glibc-2.23/bin/python2.7  7498MiB |
|    5   2871837    C   ..............gcc-5-glibc-2.23/bin/python2.7  7077MiB |
|    7   2871837    C   ..............gcc-5-glibc-2.23/bin/python2.7  7490MiB |
+-----------------------------------------------------------------------------+

rbgirshick 26 जन॰ 2018

👍4

ऑपरेटिंग सिस्टम: Ubuntu 16.04
संकलक संस्करण: gcc (उबंटू 5.4.0-6ubuntu1 ~ 16.04.4) 5.4.0
CUDA संस्करण: 8.0
cuDNN संस्करण: v5.1
NVIDIA ड्राइवर संस्करण: 384.111

एनवीडिया-एसआई:
+ ------------------------------------------------- ---------------------------- +
| NVIDIA-SMI 384.111 ड्राइवर संस्करण: 384.111 |
| ------------------------------- + ----------------- ----- + ---------------------- +
| GPU का नाम दृढ़ता-एम | बस-आईडी Disp.A | अस्थिर अनिश्चित। ईसीसी |
| फैन टेंप परफेक्ट पोर: उपयोग / कैप | स्मृति-उपयोग | GPU-Util Compute एम |
| ================================= + |
| 0 टेस्ला एम 60 ऑफ | 00001543: 00: 00.0 बंद | बंद |
| N / A 42C P0 41W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 1 टेस्ला एम 60 ऑफ | 00003134: 00: 00.0 बंद | बंद |
| N / A 42C P0 39W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 2 टेस्ला एम 60 ऑफ | 00004975: 00: 00.0 बंद | बंद |
| N / A 38C P0 41W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 3 टेस्ला एम 60 ऑफ | 0000F3E6: 00: 00.0 बंद | बंद |
| N / A 38C P0 40W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +

zdwong 27 जन॰ 2018

ऑपरेटिंग सिस्टम: CentOS Linux रिलीज़ 7.1.1503
संकलक संस्करण: जीसीसी संस्करण 4.8.2
CUDA संस्करण: CUDA 8.0
cuDNN संस्करण: cuDNN 6.0.21
NVIDIA ड्राइवर संस्करण: 375.26
GPU मॉडल: 4x GeForce GTX TITAN X） 12G Ge

एनवीडिया-एसआई:

Mask RCNN (e2e_mask_rcnn_R-101-FPN), रेटिनानेट (retinanet_R-101-FPN) / तेज़ RCNN (e2e_faster_rcnn_R-50-FPN) को प्रशिक्षित करने के लिए 4 जीपीयू (0,1,2,3) का उपयोग करते समय, त्रुटि "संदर्भ" : 307: एक अवैध मेमोरी एक्सेस का सामना करना पड़ा ”या“ reference_gpu.h: 170। एनकाउंटर किए गए CUDA त्रुटि: एक अवैध मेमोरी एक्सेस में ऑपरेटर से त्रुटि का सामना किया गया था: इनपुट: "gpu_0 / retnet_cls_pred_fpn3_b_grad" इनपुट: "gpu_2 / retnet_cls_pred_fpn3_b_grad" = आउटपुट: "gpu_0 / retnet_cls_cls_clr_prn_prpr_prn_prs_prs" : 0} ”होता है।

लेकिन एक GPU या दो GPUS (0,1 या 2,3) का उपयोग करके, इसे सामान्य रूप से प्रशिक्षित किया जा सकता है।
धन्यवाद।

tshizys 27 जन॰ 2018

@jwsu : आपकी त्रुटि को और अधिक निकटता से देखते हुए ("अमान्य डिवाइस ऑर्डिनल"), ऐसा लगता है कि आप 8 जीपीयू के लिए एक कॉन्फिगर सेट के साथ प्रशिक्षित करने की कोशिश कर रहे हैं, लेकिन केवल 4 ( CUDA_VISIBLE_DEVICES माध्यम से) तक पहुँचने की प्रक्रिया को सीमित कर रहा है

rbgirshick 27 जन॰ 2018

@coolbrain , @tshizys : विवरण के लिए धन्यवाद। यदि आप id {0,2}, {0,3}, {1,2}, या {1,3} का उपयोग करके दो GPU का उपयोग करते हैं तो क्या होगा?

rbgirshick 27 जन॰ 2018

@rbgirshick आप सही हैं, कल की कोशिश करने के लिए (8 GPUs सेटिंग के साथ) गलत कॉन्फ़िगर फ़ाइल को उठाया। बस सही कॉन्फ़िग फ़ाइल के साथ फिर से प्रयास किया गया (4 जीपीयू, जीपीयू आईडी से त्रुटि "1,2,4,5", "0,1,2,3" ठीक काम करता है), त्रुटि अब उसी के समान है जो अन्य देख रहे हैं:

I0127 09:06:48.220716 10872 context_gpu.cu:325] Total: 20748 MB
terminate called after throwing an instance of 'caffe2::EnforceNotMet'
terminate called after throwing an instance of 'caffe2::EnforceNotMet'
  what():  [enforce fail at context_gpu.h:170] . Encountered CUDA error: an illegal memory access was encountered Error from operator: 
input: "gpu_0/retnet_bbox_pred_fpn3_b_grad" input: "gpu_2/retnet_bbox_pred_fpn3_b_grad" output: "gpu_0/retnet_bbox_pred_fpn3_b_grad" name: "" type: "Add" device_option { device_type: 1 cuda_gpu_id: 0 }
  what():  [enforce fail at context_gpu.h:170] . Encountered CUDA error: an illegal memory access was encountered Error from operator: 
input: "gpu_2/retnet_cls_conv_n3_fpn3" input: "gpu_2/__m13_shared" output: "gpu_2/__m13_shared" name: "" type: "ReluGradient" arg { name: "cudnn_exhaustive_search" i: 0 } arg { name: "order" s: "NCHW" } device_option { device_type: 1 cuda_gpu_id: 2 } engine: "CUDNN" is_gradient_op: true
*** Aborted at 1517072808 (unix time) try "date -d @1517072808" if you are using GNU date ***
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
terminate called recursively
PC: @     0x7fd71f6bd428 gsignal
*** SIGABRT (@0x3e900002a18) received by PID 10776 (TID 0x7fd548e3d700) from PID 10776; stack trace: ***
    @     0x7fd71fa63390 (unknown)
    @     0x7fd71f6bd428 gsignal
    @     0x7fd71f6bf02a abort
    @     0x7fd71b51c84d __gnu_cxx::__verbose_terminate_handler()
    @     0x7fd71b51a6b6 (unknown)
    @     0x7fd71b51a701 std::terminate()
    @     0x7fd71b545d38 (unknown)
    @     0x7fd71fa596ba start_thread
    @     0x7fd71f78f41d clone
    @                0x0 (unknown)
./itrain4.sh: line 9: 10776 Aborted                 (core dumped) python2 tools/train_net.py --multi-gpu-testing --cfg configs/iret-rn50-fpn-voc.yaml OUTPUT_DIR ./output

jwnsu 27 जन॰ 2018

@coolbrain, @tshizys: अंधेरे में एक शॉट को पारित करके nccl के कार्यान्वयन सभी को कम स्विच करने के लिए है USE_NCCL True करने के लिए train_net.py , के रूप में:

python2 tools/train_net.py --multi-gpu-testing \
  --cfg configs/getting_started/tutorial_2gpu_e2e_faster_rcnn_R-50-FPN.yaml \
  OUTPUT_DIR /tmp/output USE_NCCL True

इसके लिए Caffe2 को nccl ops के साथ निर्मित करना होगा - मुझे यकीन नहीं है कि यह डिफ़ॉल्ट रूप से किया गया है या nccl समर्थन के साथ Caffe2 के पुनर्निर्माण के लिए कुछ काम की आवश्यकता होगी।

rbgirshick 28 जन॰ 2018

👍6

@rbgshshick , दो जीपीयू का उपयोग करते समय, {{0,2}, {0,3}, {1,2}, {1,3}, त्रुटि अभी भी मौजूद है। यहाँ उदाहरण के लिए {0,3} और प्रशिक्षण रेटिनानेट (रेटिननेट_आर-101-एफपीएन) का उपयोग कर विवरण दिया गया है:

F0128 12: 09: 08.461153 4938 संदर्भ_gpu.cu:387] पर त्रुटि: /home/yszhu/local/caffe2/caffe2/core/context_gpu.u:387: एक अवैध मेमोरी एक्सेस का सामना करना पड़ा
* विफलता स्टैक ट्रेस की जाँच करें:
पुनरावर्ती कहा जाता है
पुनरावर्ती कहा जाता है
यदि आप GNU दिनांक का उपयोग कर रहे हैं, तो 1517112548 पर अनइंस्टॉल करें (यूनिक्स समय) "दिनांक -d @ 1517112548" का प्रयास करें
'caffe2 :: EnforceNotMet' का एक उदाहरण फेंकने के बाद बुलाया समाप्त
क्या (): [enforce fail_gpu.h: 170 पर विफल]। एनकाउंटर CUDA त्रुटि: अवैध मेमोरी एक्सेस का सामना किया गया था ऑपरेटर से त्रुटि:
इनपुट: "gpu_0 / fpn_6_relu" इनपुट: "gpu_0 / fpn_7_w" इनपुट: "gpu_0 / __ m23_sared" आउटपुट: "gpu_0 / fpn_7_w_grad" आउटपुट: "gpu_0 / fpn_7_grad_grad_grad_grad_grad"> आउटपुट_ग्रेड करें। "arg {नाम:" कर्नेल "i: 3} arg {नाम:" थकाऊ_सर्च "i: 0} arg {नाम:" पैड "i: 1} arg {नाम:" आदेश "s:" NCHW "} arg {नाम : "स्ट्राइड" i: 2} device_option {device_type: 1 cuda_gpu_id: 0} इंजन: "CUDNN" is_gradient_op: true
@ 0x7f2bdf712772 google :: LogMessage :: Fail ()
पीसी: @ 0x0 (अज्ञात)
PID 4791 से PID 4791 (TID 0x7f2a6effd700) द्वारा प्राप्त SIGABRT (@ 0x3e8000012b7);
@ 0x7f2bdf7126ce google :: LogMessage :: SendToLog ()
@ 0x7f2c2670e130 (अज्ञात)
@ 0x7f2bdf71204c google :: LogMessage :: Flush ()
@ 0x7f2c25c6a5d7 __GI_raise
@ 0x7f2bdf71556d google :: LogMessageFatal :: ~ LogMessageFatal ()
@ 0x7f2c25c6bcc8 __GI_abort
@ 0x7f2c1b1b1965 __gnu_cxx :: __ verbose_terminate_handler ()
@ 0x7f2bdfdd1180 caffe2 :: CUDAContext :: Delete ()
@ 0x7f2c1b1af946 (अज्ञात)
@ 0x7f2be27f42d9 std :: _ Sp_counted_base <> :: _ M_rel_s ()
@ 0x7f2c1b1af973 std :: समाप्त ()
@ 0x7f2c1b2062c5 (अज्ञात)
@ 0x7f2bdfd377d1 caffe2 :: Tensor <> :: ResizeLike <> ()
@ 0x7f2c26706df5 start_thread
@ 0x7f2bdfd6e3e2 _ZN6caffe210CuDNNState7executeIRZNS_19CudnConvGradientOp13DoRunWithWypeFfffffffEbvEUPSPS0_E1_EEvP11CUstream_stot_stot
@ 0x7f2c25d2b1ad __clone
@ 0x7f2bdfd707e1 caffe2 :: CudnnConvGradientOp :: DoRunWithType <> ()
@ 0x0 (अज्ञात)

त्रुटि के रूप हर बार समान नहीं होते हैं, लेकिन यह सिर्फ "एनकाउंटर किए गए CUDA त्रुटि: एक अवैध मेमोरी एक्सेस का सामना करना पड़ा" है।

tshizys 28 जन॰ 2018

मैं nccl-1.3.5 के साथ caffe2 का पुनर्निर्माण भी करता हूं (https://caffe2.ai/docs/getting-started.html?platform=centos&configuration=cloud#null__troublesh समस्या निवारण के साथ)

और USE_NCCL ट्रू के लिए n_l को लागू करने के लिए सभी-कम कार्यान्वयन को स्विच करें जैसे:

python2 उपकरण / train_net.py --multi-gpu-testing \
--cfg कॉन्फ़िगर / 12_2017_baselines / retinanet_R-101-FPN_1x_4gpus.yaml \
OUTPUT_DIR परिणाम_retinanet_R-101-FPN_1x_4gpus_model USE_NCCL True

त्रुटि चार-जीपीयू {0,1,2,3} या किसी भी दो जीपीयू {0,2}, {0,3}, {1,2}, {1,3} का उपयोग करने के लिए दोनों गायब हो गई।
@rbgirshick , बहुत बहुत धन्यवाद।

tshizys 28 जन॰ 2018

👍2

नमस्ते, मैं tutorial_network को प्रशिक्षित करने के लिए nccl सेशन खोलता हूं और ऊपर की त्रुटि गायब हो गई। हालांकि, डेटा लोड करने के बाद प्रोग्राम हैंग हो जाता है और हर समय 100% सीपीयू पर कब्जा कर लेता है।

.......
I0129 03: 25: 13.106998 118074 संदर्भ_gpu.cu:321] GPU 0: 2175 MB
I0129 03: 25: 13.107028 118074 संदर्भ_gpu.cu:321] GPU 1: 2078 एमबी
I0129 03: 25: 13.107045 118074 संदर्भ_gpu.cu:321] GPU 2: 2266 एमबी
I0129 03: 25: 13.107059 118074 संदर्भ_gpu.cu:321] GPU 3: 1860 MB
I0129 03: 25: 13.107072 118074 संदर्भ_gpu.cu:325] कुल: 8381 एमबी
I0129 03: 25: 13.122316 118079 संदर्भ_gpu.cu:321] GPU 0: 2195 MB
I0129 03: 25: 13.122344 118079 संदर्भ_gpu.cu:321] GPU 1: 2145 MB
I0129 03: 25: 13.122361 118079 संदर्भ_gpu.cu:321] GPU 2: 2267 एमबी
I0129 03: 25: 13.122378 118079 संदर्भ_gpu.cu:321] GPU 3: 1924 MB
I0129 03: 25: 13.122395 118079 संदर्भ_gpu.cu:325] कुल: 8532 एमबी
I0129 03: 25: 13.151623 118079 संदर्भ_ gpu.cu:321] GPU 0: 2245 MB
I0129 03: 25: 13.151650 118079 संदर्भ_gpu.cu:321] GPU 1: 2159 एमबी
I0129 03: 25: 13.152823 118079 संदर्भ_gpu.cu:321] GPU 2: 2269 MB
I0129 03: 25: 13.153623 118079 संदर्भ_gpu.cu:321] GPU 3: 2020 एमबी
I0129 03: 25: 13.154454 118079 संदर्भ_gpu.cu:325] कुल: 8694 एमबी
I0129 03: 25: 13.186017 118079 संदर्भ_gpu.cu:321] GPU 0: 2260 MB
I0129 03: 25: 13.186053 118079 संदर्भ_gpu.cu:321] GPU 1: 2214 एमबी
I0129 03: 25: 13.186067 118079 संदर्भ_gpu.cu:321] GPU 2: 2279 MB
I0129 03: 25: 13.186077 118079 संदर्भ_ gpu.cu:321] GPU 3: 2080 MB
I0129 03: 25: 13.186089 118079 संदर्भ_gpu.cu:325] कुल: 8835 एमबी
I0129 03: 25: 13.215306 118076 संदर्भ_gpu.cu:321] GPU 0: 2310 MB
I0129 03: 25: 13.215342 118076 संदर्भ_gpu.cu:321] GPU 1: 2269 एमबी
I0129 03: 25: 13.215351 118076 संदर्भ_gpu.cu:321] GPU 2: 2308 MB
I0129 03: 25: 13.215368 118076 संदर्भ_gpu.cu:321] GPU 3: 2081 MB
I0129 03: 25: 13.215384 118076 संदर्भ_gpu.cu:325] कुल: 8970 एमबी
I0129 03: 25: 13.307595 118084 संदर्भ_ gpu.cu:321] GPU 0: 2310 एमबी
I0129 03: 25: 13.307623 118084 संदर्भ_gpu.cu:321] GPU 1: 2301 एमबी
I0129 03: 25: 13.307641 118084 संदर्भ_gpu.cu:321] GPU 2: 2391 MB
I0129 03: 25: 13.307652 118084 संदर्भ_gpu.cu:321] GPU 3: 2104 MB
I0129 03: 25: 13.307665 118084 संदर्भ_gpu.cu:325] कुल: 9108 एमबी
I0129 03: 25: 13.324935 118077 संदर्भ_gpu.cu:321] GPU 0: 2312 MB
I0129 03: 25: 13.324965 118077 संदर्भ_ gpu.cu:321] GPU 1: 2313 एमबी
I0129 03: 25: 13.324982 118077 संदर्भ_gpu.cu:321] GPU 2: 2452 MB
I0129 03: 25: 13.324993 118077 संदर्भ_gpu.cu:321] GPU 3: 2171 MB
I0129 03: 25: 13.325011 118077 संदर्भ_gpu.cu:325] कुल: 9250 एमबी
I0129 03: 25: 13.343673 118080 संदर्भ_gpu.cu:321] GPU 0: 2336 MB
I0129 03: 25: 13.343698 118080 संदर्भ_gpu.cu:321] GPU 1: 2380 MB
I0129 03: 25: 13.343715 118080 संदर्भ_gpu.cu:321] GPU 2: 2468 MB
I0129 03: 25: 13.343731 118080 संदर्भ_gpu.cu:321] GPU 3: 2233 MB
I0129 03: 25: 13.343747 118080 संदर्भ_gpu.cu:325] कुल: 9417 एमबी
I0129 03: 25: 13.369802 118085 cuda_nccl_gpu.cc:110] NCCLContext को कुंजी के लिए बनाना: 0: 0,1,2,3,
I0129 03: 25: 13.381914 118076 संदर्भ_gpu.cu:321] GPU 0: 2361 MB
I0129 03: 25: 13.381942 118076 संदर्भ_gpu.cu:321] GPU 1: 2453 एमबी
I0129 03: 25: 13.381961 118076 संदर्भ_gpu.cu:321] GPU 2: 2524 एमबी
I0129 03: 25: 13.381978 118076 संदर्भ_ gpu.cu:321] GPU 3: 2247 MB
I0129 03: 25: 13.381995 118076 संदर्भ_ gpu.cu:325] कुल: 9587 एमबी
I0129 03: 25: 13.613253 118083 संदर्भ_gpu.cu:321] GPU 0: 2388 MB
I0129 03: 25: 13.613292 118083 संदर्भ_ gpu.cu:321] GPU 1: 2525 एमबी
I0129 03: 25: 13.613301 118083 संदर्भ_gpu.cu:321] GPU 2: 2524 MB
I0129 03: 25: 13.613308 118083 संदर्भ_gpu.cu:321] GPU 3: 2310 MB
I0129 03: 25: 13.613315 118083 संदर्भ_gpu.cu:325] कुल: 9748 एमबी

कार्यक्रम लटका हुआ है ......

मेरा वातावरण:
ऑपरेटिंग सिस्टम: Ubuntu 16.04
संकलक संस्करण: gcc (उबंटू 5.4.0-6ubuntu1 ~ 16.04.4) 5.4.0
CUDA संस्करण: 8.0
cuDNN संस्करण: v5.1
NVIDIA ड्राइवर संस्करण: 384.111

एनवीडिया-एसआई:
+ ------------------------------------------------- ---------------------------- +
| NVIDIA-SMI 384.111 ड्राइवर संस्करण: 384.111 |
| ------------------------------- + ----------------- ----- + ---------------------- +
| GPU का नाम दृढ़ता-एम | बस-आईडी Disp.A | अस्थिर अनिश्चित। ईसीसी |
| फैन टेंप परफेक्ट पोर: उपयोग / कैप | स्मृति-उपयोग | GPU-Util Compute एम |
| ================================= + |
| 0 टेस्ला एम 60 ऑफ | 00001543: 00: 00.0 बंद | बंद |
| N / A 42C P0 41W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 1 टेस्ला एम 60 ऑफ | 00003134: 00: 00.0 बंद | बंद |
| N / A 42C P0 39W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 2 टेस्ला एम 60 ऑफ | 00004975: 00: 00.0 बंद | बंद |
| N / A 38C P0 41W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 3 टेस्ला एम 60 ऑफ | 0000F3E6: 00: 00.0 बंद | बंद |
| N / A 38C P0 40W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +

lwher 29 जन॰ 2018

@lwher : यह दुर्भाग्यपूर्ण है। हम डिफ़ॉल्ट रूप से एनसीसीएल का उपयोग नहीं करते हैं, यह गतिरोध पैदा करने का खतरा है, जो कि मुझे लगता है कि आप देख रहे हैं।

rbgirshick 29 जन॰ 2018

NCCL के साथ caffe2 के पुनर्निर्माण के बाद er मैं इस स्क्रिप्ट के साथ कार्यक्रम को फिर से चलाता हूँ 2
अजगर उपकरण / train_net.py \
--मुल्टी-जीपीयू-परीक्षण \
--cfg कॉन्फिग / get_started / tutorial_4gpu_e2e_faster_rcnn_R-50-FPN.yaml \
OUTPUT_DIR ./output USE_NCCL सच है

यह इस त्रुटि को फेंकता है ：

कुंजी के लिए NCCLContext बनाना: 0: 0,1,2,3,
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
चेतावनी:

आपको हमेशा libnvidia-ml.so के साथ चलना चाहिए जो आपके साथ संस्थापित है
NVIDIA प्रदर्शन चालक। डिफ़ॉल्ट रूप से यह / usr / lib और / usr / lib64 में स्थापित है।
GDK पैकेज में libnvidia-ml.so एक स्टब लाइब्रेरी है जो केवल के लिए संलग्न है
निर्माण के उद्देश्य (जैसे कि आपके द्वारा निर्मित मशीन आपके पास नहीं है
प्रदर्शन चालक को स्थापित करने के लिए)।
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
'caffe2 :: EnforceNotMet' का एक उदाहरण फेंकने के बाद बुलाया समाप्त
क्या (): [लागू cuda_nccl_gpu.cc:40] स्थिति == ncclSuccess पर विफल। 2 बनाम 0. त्रुटि: /mnt/hzhida/project/caffe2/caffe2/contrib/nccl/cuda_nccl_gpu.cc40: सिस्टम त्रुटि ऑपरेटर से त्रुटि:
इनपुट: "gpu_0 / rpn_cls_logits_fpn2_w_grad" इनपुट: "gpu_1 / rpn_cls_logits_fpn2_w_grad" इनपुट: "gpu_2 / rpn_cls_logits_fpn2_w_grad" इनपुट: "gpu_3 / rpn_cls_logits_fpn2_w_grad" उत्पादन: "gpu_0 / rpn_cls_logits_fpn2_w_grad" उत्पादन: "gpu_1 / rpn_cls_logits_fpn2_w_grad" उत्पादन: "gpu_2 / rpn_cls_logits_fpn2_w_grad" आउटपुट : "gpu_3 / rpn_cls_logits_fpn2_w_grad" नाम: "" प्रकार: "NCCLAllreduce" device_option {device_type: 1 cuda_gad_id: 0}
* 1517210588 पर रद्द करें (यूनिक्स समय) "दिनांक -15 @ 1517210588" आज़माएं
पीसी: @ 0x7ff1e0383428 gsignal
SIDABRT (@ 0x3e800007a46) PID 31302 (TID 0x7fefb5ffb700) पीआईडी 31302 से प्राप्त किया;
I0129 07: 23: 08.187249 31591 cuda_nccl_gpu.cc:110] कुंजी के लिए NCCLContext बनाना: 0: 0,1,2,3,

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
चेतावनी:

आपको हमेशा libnvidia-ml.so के साथ चलना चाहिए जो आपके साथ संस्थापित है
NVIDIA प्रदर्शन चालक। डिफ़ॉल्ट रूप से यह / usr / lib और / usr / lib64 में स्थापित है।
GDK पैकेज में libnvidia-ml.so एक स्टब लाइब्रेरी है जो केवल के लिए संलग्न है
निर्माण के उद्देश्य (जैसे कि आपके द्वारा निर्मित मशीन आपके पास नहीं है
प्रदर्शन चालक को स्थापित करने के लिए)।
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
पुनरावर्ती कहा जाता है
@ 0x7ff1e0729390 (अज्ञात)
I0129 07: 23: 08.188051 31592 संदर्भ_gpu.cu:321] GPU 0: 2466 MB
I0129 07: 23: 08.188074 31592 संदर्भ_gpu.cu:321] GPU 1: 2387 एमबी
I0129 07: 23: 08.188091 31592 संदर्भ_gpu.cu:321] GPU 2: 2311 एमबी
I0129 07: 23: 08.188099 31592 संदर्भ_ gpu.cu:321] GPU 3: 2382 एमबी
I0129 07: 23: 08.188107 31592 संदर्भ_gpu.cu:325] कुल: 9548 एमबी
@ 0x7ff1e0383428 gsignal
@ 0x7ff1e038502a गर्भपात
@ 0x7ff1da16284d __gnu_cxx :: __ verbose_terminate_ler ()
@ 0x7ff1da1606b6 (अज्ञात)
@ 0x7ff1da160701 std :: समाप्त ()
@ 0x7ff1da18bd38 (अज्ञात)
@ 0x7ff1e071f6ba start_thread
@ 0x7ff1e045541d क्लोन
@ 0x0 (अज्ञात)
निरस्त (कोर डंप)

चल रहा पर्यावरण ：
ऑपरेटिंग सिस्टम: Ubuntu 16.04
संकलक संस्करण: gcc (उबंटू 5.4.0-6ubuntu1 ~ 16.04.4) 5.4.0
CUDA संस्करण: 8.0
cuDNN संस्करण: v5.1
NVIDIA ड्राइवर संस्करण: 384.111

एनवीडिया-एसआई:
+ ------------------------------------------------- ---------------------------- +
| NVIDIA-SMI 384.111 ड्राइवर संस्करण: 384.111 |
| ------------------------------- + ----------------- ----- + ---------------------- +
| GPU का नाम दृढ़ता-एम | बस-आईडी Disp.A | अस्थिर अनिश्चित। ईसीसी |
| फैन टेंप परफेक्ट पोर: उपयोग / कैप | स्मृति-उपयोग | GPU-Util Compute एम |
| ================================= + |
| 0 टेस्ला एम 60 ऑफ | 00001543: 00: 00.0 बंद | बंद |
| N / A 42C P0 41W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 1 टेस्ला एम 60 ऑफ | 00003134: 00: 00.0 बंद | बंद |
| N / A 42C P0 39W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 2 टेस्ला एम 60 ऑफ | 00004975: 00: 00.0 बंद | बंद |
| N / A 38C P0 41W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +
| 3 टेस्ला एम 60 ऑफ | 0000F3E6: 00: 00.0 बंद | बंद |
| N / A 38C P0 40W / 150W | 0MiB / 8123MiB | 0% डिफ़ॉल्ट |
+ ------------------------------- + ----------------- ----- + ---------------------- +

zdwong 29 जन॰ 2018

NCCL के बारे में एक अतिरिक्त नोट: Caffe2 डिफ़ॉल्ट रूप से NCCL के साथ बनाता है, इसलिए इसे पुनर्निर्माण करने की कोई आवश्यकता नहीं है।

ir413 29 जन॰ 2018

इस पर कूदना: चूंकि अवैध मेमोरी एक्सेस एड ऑपरेटर से है, आप जांचना चाहते हैं कि क्या आप जिस पीयूपी का उपयोग कर रहे हैं, उसके बीच डायरेक्ट पीयर एक्सेस उपलब्ध है या नहीं। वर्तमान ऐड ऑप उस पर निर्भर करता है, और नहीं तो हम कोड को ठीक करना चाहते हैं। मूल रूप से, ऐसा करने के लिए, अजगर में, करें:

from caffe2.python import workspace
print(workspace.GetCudaPeerAccessPattern())

क्या आप डिबगिंग के लिए इसका आउटपुट पेस्ट कर सकते हैं? (विशेष रूप से, यदि आप CUDA_VISIBLE_DEVICES का उपयोग कर रहे हैं, तो सुनिश्चित करें कि आप इसके बाद भी अजगर का आह्वान करते हैं)

Yangqing 30 जन॰ 2018

👍2

अपने दो डिबग लाइनों से @Yangqing उत्पादन:
[[ True True False False] [ True True False False] [False False True True] [False False True True]]
इस मुद्दे को देखने के लिए thx (और ... caffe / caffe2 चौखटे!)

jwnsu 30 जन॰ 2018

@jwnsu धन्यवाद! बस पुष्टि करने के लिए, इसलिए जोड़ें ऑपरेटर gpu {0,1} और {2,3} के दाईं ओर दसियों जोड़ रहा है? (मुझे लगता है कि यह 4 gpus से एक साथ सामान जोड़ रहा है)।

Yangqing 30 जन॰ 2018

यह 4 gpus कॉन्फिगर है, GPU आईडी के साथ "0,1,2,4" (CUDA_VISIBLE_DEVICES के माध्यम से) निर्दिष्ट है। यदि GPU id को "0,1,2,3" (सबसे कम GPU आईडी) के रूप में कॉन्फ़िगर किया गया है, तो यह बिना किसी के ठीक काम करता है। त्रुटि।

jwnsu 30 जन॰ 2018

@Yangqing
मेरे लिनक्स सर्वर में 4 M60 GPU हैं,
यह मेरा कार्यक्षेत्र है। GetCudaPeerAccessPattern () आउटपुट:
[[सच झूठी झूठी
[झूठी झूठी झूठी
[झूठी झूठी झूठी
[झूठी झूठी झूठी]

मैं अच्छी तरह से 1 gpu का उपयोग करके नेट को प्रशिक्षित कर सकता हूं, लेकिन जब मैं 2 या 4 GPUS का उपयोग करके नेट को प्रशिक्षित करता हूं, तो मैं उपरोक्त समस्याओं को पूरा करता हूं, यहां तक कि मैं NCCL = True सेट करता हूं

Liang-Sen 31 जन॰ 2018

धन्यवाद दोस्तों। यह मेरी धारणा की पुष्टि करता है कि अवैध मेमोरी एक्सेस ऐड-ओप से आता है, जब पीयर एक्सेस सक्षम नहीं है, तो क्रॉस-डिवाइस संचार को ठीक से संभालना नहीं है। फिक्स जारी करेंगे।

Yangqing 31 जन॰ 2018

👍14

क्रॉस-डिवाइस संचार में एक ही समस्या ...
यह मशीन 4 GPU [0,1,2,3] का उपयोग कर सकती है:

यह मशीन [0,1] और [2,3] का उपयोग कर सकती है:

BTW, मेरे पास 12 सीपीयू और 4 टाइटन एक्स का उपयोग 3 डी फास्टर आरसीएनएन को पाइरॉच ढांचे में प्रशिक्षित करने के लिए है। क्यों Pytorch इस समस्या नहीं है ????

JohnnyGambler 31 जन॰ 2018

@Yangqing क्योंकि मैं मल्टी-जीपीयू में डिटेक्ट्रॉन को प्रशिक्षित नहीं कर सकता, इसलिए मैं जानना चाहता हूं कि आप कब तक क्रॉस-जीपीयू संचार समस्या को ठीक करेंगे? धन्यवाद।

zdwong 2 फ़र॰ 2018

👍7

@Yangqing मैं ऊपर के रूप में इसी तरह की समस्याओं में भाग गया। मेरे लिनक्स वर्कस्टेशन में 2 GTX-1080Ti हैं। त्रुटि infos निम्नानुसार हैं:
[enforce fail at context_gpu.h:170] . Encountered CUDA error: an illegal memory access was encountered Error from operator: input: "gpu_0/rpn_cls_logits_fpn2_b_grad" input: "gpu_1/rpn_cls_logits_fpn2_b_grad" output: "gpu_0/rpn_cls_logits_fpn2_b_grad" name: "" type: "Add" device_option { device_type: 1 cuda_gpu_id: 0 }
और मेरा कार्यक्षेत्र। GetCudaPeerAccessPattern () आउटपुट है:
[[सही गलत]
[सच्चा झूठा]]
क्या यह क्रॉस-जीपीयू संचार समस्या भी है? यदि नहीं, तो कोई भी इसे ठीक करने में मेरी मदद कर सकता है, धन्यवाद।

blateyang 4 फ़र॰ 2018

हाँ the यह वही समस्या है। क्रॉस-जीपीयू में ग्रेडिएंट एक साथ नहीं जोड़ सकते क्योंकि जीपीयू एक दूसरे के साथ संवाद नहीं कर सकते हैं। यदि आप समस्या को हल करना चाहते हैं, तो शायद आप GPU से CPU में ग्रेडिएंट्स की प्रतिलिपि बना सकते हैं, फिर उन्हें एक साथ जोड़ दें और उन्हें औसत करें। और अंत में, सीपीयू से जीपीयू तक औसत ढाल कॉपी करें। @blateyang

zdwong 5 फ़र॰ 2018

आपके सुझाव के लिए धन्यवाद! @ कूलब्रेन क्या वे एक ही क्रॉस-जीपीयू संचार समस्या से नहीं मिले थे?

blateyang 6 फ़र॰ 2018

या तो सबसे कम GPU आईडी (0,1,2,3) या उच्चतम GPU आईडी (4,5,6,7) के साथ 4 जीपीयू का प्रशिक्षण बिना किसी त्रुटि के यहां काम करता है (8 gpus भी काम कर सकता है, लेकिन अभी तक इसकी कोशिश नहीं की है। ) इसमें केवल विशेष आईडी के मिश्रण के साथ समस्या है, जैसे "0,1,2,4" या "1,3,5,7"।

संदिग्ध caffe2 क्रॉस-जीपीयू संचार समस्या अलग-अलग हार्डवेयर बिल्ड के साथ अलग तरीके से व्यवहार कर सकती है (पहले बताए गए फेसबुक M40 सर्वर आईडी के मिश्रण के साथ भी काम करता है)।

jwnsu 6 फ़र॰ 2018

👍1

उसी समस्या को लेकर आओ। क्या यह तय है?

Tangshitao 1 मार्च 2018

मैं एक समस्या पर 4 GTX 1080TI GPUS के साथ एक कार्य केंद्र से मिला। मल्टी-जीपीयू अन्य प्लेटफॉर्म पर अच्छा काम करता है, जैसे कैफ और टेंसोरफ्लो।
यह मेरा कार्यक्षेत्र है। GetCudaPeerAccessPattern () आउटपुट:
[[सच्चा सच्चा झूठा झूठ]
[सच सच गलत झूठी]
[असत्य असत्य सच सच]
[झूठी झूठी सच्ची]
दो-gpu कॉन्फ़िगरेशन ({0,1} या {2,3} के साथ) अच्छी तरह से काम करता है। तीन या चार gpus उपरोक्त समस्या का सामना करेंगे। हालाँकि, मेरी त्रुटि Add संचालन पर नहीं है, मुझे याद है कि प्रकार Copy

yuzcccc 8 मार्च 2018

क्या समस्या हल हो गई है?

fliman 12 मार्च 2018

@rbgirshick हाय, मैं

II-Matto 23 मार्च 2018

@Yangqing हाय, मैं Copy ऑपरेटर में एक ही मुद्दा मिला।
जब मैं USE_NCCL True ध्वज नहीं जोड़ता, तो त्रुटियां इस प्रकार हैं:

E0325 02:26:02.258566  8284 operator_schema.cc:73] Input index 0 and output idx 0 (gpu_0/res3_0_branch2a_w_grad) are set to be in-place but this is actually not supported by op Copy
Original python traceback for operator 2817 in network `generalized_rcnn` in exception above (most recent call last):
  File "tools/train_net.py", line 358, in <module>
  File "tools/train_net.py", line 196, in main
  File "tools/train_net.py", line 205, in train_model
  File "tools/train_net.py", line 283, in create_model
  File "/home/shuqin/git/RefineNet/lib/modeling/model_builder.py", line 120, in create
  File "/home/shuqin/git/RefineNet/lib/modeling/model_builder.py", line 92, in generalized_rcnn
  File "/home/shuqin/git/RefineNet/lib/modeling/model_builder.py", line 254, in build_generic_detection_model
  File "/home/shuqin/git/RefineNet/lib/modeling/optimizer.py", line 42, in build_data_parallel_model
  File "/home/shuqin/git/RefineNet/lib/modeling/optimizer.py", line 84, in _add_allreduce_graph
  File "/home/shuqin/git/caffe2/build/caffe2/python/muji.py", line 64, in Allreduce
  File "/home/shuqin/git/caffe2/build/caffe2/python/muji.py", line 204, in AllreduceFallback
Traceback (most recent call last):
  File "tools/train_net.py", line 358, in <module>
    main()
  File "tools/train_net.py", line 196, in main
    checkpoints = train_model()
  File "tools/train_net.py", line 210, in train_model
    setup_model_for_training(model, output_dir)
  File "tools/train_net.py", line 316, in setup_model_for_training
    workspace.CreateNet(model.net)
  File "/home/shuqin/git/caffe2/build/caffe2/python/workspace.py", line 166, in CreateNet
    StringifyProto(net), overwrite,
  File "/home/shuqin/git/caffe2/build/caffe2/python/workspace.py", line 192, in CallWithExceptionIntercept
    return func(*args, **kwargs)
RuntimeError: [enforce fail at operator.cc:125] schema->Verify(operator_def). Operator def did not pass schema checking: input: "gpu_0/res3_0_branch2a_w_grad" output: "gpu_0/res3_0_branch2a_w_grad" name: "" type: "Copy" device_option { device_type: 1 cuda_gpu_id: 0 }

यदि मैंने USE_NCCL True ध्वज जोड़ा, तो त्रुटियां बन जाती हैं:

Original python traceback for operator 2928 in network `generalized_rcnn` in exception above (most recent call last):
  File "tools/train_net.py", line 358, in <module>
  File "tools/train_net.py", line 196, in main
  File "tools/train_net.py", line 205, in train_model
  File "tools/train_net.py", line 283, in create_model
  File "/home/shuqin/git/RefineNet/lib/modeling/model_builder.py", line 120, in create
  File "/home/shuqin/git/RefineNet/lib/modeling/model_builder.py", line 92, in generalized_rcnn
  File "/home/shuqin/git/RefineNet/lib/modeling/model_builder.py", line 254, in build_generic_detection_model
  File "/home/shuqin/git/RefineNet/lib/modeling/optimizer.py", line 42, in build_data_parallel_model
  File "/home/shuqin/git/RefineNet/lib/modeling/optimizer.py", line 82, in _add_allreduce_graph
Traceback (most recent call last):
  File "tools/train_net.py", line 358, in <module>
    main()
  File "tools/train_net.py", line 196, in main
    checkpoints = train_model()
  File "tools/train_net.py", line 217, in train_model
    workspace.RunNet(model.net.Proto().name)
  File "/home/shuqin/git/caffe2/build/caffe2/python/workspace.py", line 230, in RunNet
    StringifyNetName(name), num_iter, allow_fail,
  File "/home/shuqin/git/caffe2/build/caffe2/python/workspace.py", line 192, in CallWithExceptionIntercept
    return func(*args, **kwargs)
RuntimeError: [enforce fail at cuda_nccl_gpu.cc:40] status == ncclSuccess. 2 vs 0.  Error at: /home/shuqin/git/caffe2/caffe2/contrib/nccl/cuda_nccl_gpu.cc40: system error Error from operator:
input: "gpu_0/rpn_cls_logits_fpn2_b_grad" input: "gpu_1/rpn_cls_logits_fpn2_b_grad" input: "gpu_2/rpn_cls_logits_fpn2_b_grad" output: "gpu_0/rpn_cls_logits_fpn2_b_grad" output: "gpu_1/rpn_cls_logits_fpn2_b_grad" output: "gpu_2/rpn_cls_logits_fpn2_b_grad" name: "" type: "NCCLAllreduce" device_option { device_type: 1 cuda_gpu_id: 0 }

मेरा सिस्टम Ubuntu 14.04 है, जिसमें Cuda 8.0 और Cudnn 5.1 है। मेरी मशीन में 8 जीपीयू हैं, लेकिन मैंने केवल अंतिम 4 पर कोड का परीक्षण किया है, इसलिए जीपीयू के बीच संचार में कोई समस्या नहीं होनी चाहिए। मैं CUDA 8.0 के लिए NCCL 2.1.15 का उपयोग करता हूं।

उम्मीद है कि यह मुद्दा जल्द ही ठीक हो सकता है। यह बहुत कष्टप्रद है।

xieshuqin 24 मार्च 2018

यह समस्या अभी भी मौजूद है, है ना?

melody-rain 26 मार्च 2018

मल्टी-जीपीयू प्रशिक्षण चलाने के दौरान 'USE_NCLL ट्रू' जोड़कर, मैं सफलतापूर्वक अपना प्रशिक्षण शुरू कर देता हूं। हालांकि कभी-कभी गतिरोध हो सकता है, आप इसे हल करने के लिए सीखने की दर जैसे कुछ प्रशिक्षण पैराओं को संशोधित करने का प्रयास कर सकते हैं।

blateyang 29 मार्च 2018

समस्या अभी भी मौजूद है।

pkuxwguan 23 अप्रैल 2018

@xieshuqin मैं एक ही समस्या 'स्थिति == ncclSuccess से मिला। 2 बनाम 0. ' जब आप 'USE_NCCL True' का उपयोग करते हैं, तो आप इस समस्या को कैसे हल करते हैं? धन्यवाद

pkuxwguan 23 अप्रैल 2018

@pkuxwguan मेरा मुद्दा तय हो गया है लेकिन मैं भूल गया कि मैंने इसे कैसे ठीक किया। उसके लिए माफ़ करना। लेकिन मुझे याद है कि समस्या एनसीसीएल की गलत स्थापना से संबंधित होनी चाहिए।

xieshuqin 23 अप्रैल 2018

हाय सब, मैं भी इस मुद्दे से ग्रस्त है, तो मैं अंत में इसे अपने आप से तय किया। https://github.com/pytorch/pytorch/pull/6896 ने इस समस्या को हल किया :)

daquexian 24 अप्रैल 2018

👍3 🎉1

कोई भी मुझे बताता है कि क्या मैं केवल एक जीपीयू के साथ मास्क आर-एनएनएन चला सकता हूं?

illutheplanet 25 अप्रैल 2018

@daquexian मैंने आपके पीआर की कोशिश की, यह काम करता है !!! बहुत बहुत धन्यवाद

yuzcccc 25 अप्रैल 2018

🎉1

@daquexian यह पीआर मेरे लिए काम नहीं करता है। मैं NCCL के बिना एक GPU का उपयोग करते समय और USE_NCCL True साथ 2 GPU का उपयोग करते हुए गतिरोध का सामना कर रहा हूं। अपने पीआर के अनुसार muji.py बदलने और USE_NCCL True साथ 2 GPU के साथ चलने के बाद, मैं अभी भी एक गतिरोध का सामना कर रहा हूं; प्रशिक्षण केवल यादृच्छिक पुनरावृत्ति संख्याओं पर विराम देता है।

Feynman27 1 मई 2018

आपकी कोशिश के लिए धन्यवाद :) आपको USE_NCCL = सही सेट करने की आवश्यकता नहीं है यदि आप मेरा उपयोग करते हैं
प्र। NCCL और "म्यूजी" दो अलग-अलग gpu संचार विधियाँ हैं। मेरा पीआर एक है
muji के लिए पैच, जिसे पहले gpu सहकर्मी पहुंच की आवश्यकता थी, और nccl के लिए नहीं।
बस USE_NCCL = गलत सेट करें और मेरा जनसंपर्क काम करेगा।

बुध पर, 2 मई, 2018, 2:51 AM थॉमस बालस्तरी नोटिफिकेशन @github.com
लिखा था:

@daquexian https://github.com/daquexian यह पीआर काम नहीं करता है
मेरे लिए। मैं NCCL के बिना एक ही GPU का उपयोग करते हुए गतिरोध का सामना कर रहा हूं
और USE_NCCL ट्रू के साथ 2 GPU का उपयोग करते समय भी। Muji.py बदलने के बाद
आपके PR के अनुसार और USE_NCCL ट्रू के साथ 2 GPU के साथ चल रहा है, मैं
अभी भी एक गतिरोध का अनुभव; प्रशिक्षण केवल यादृच्छिक पुनरावृत्ति पर रोक देता है
संख्या।
-
आप इसका उल्लेख कर रहे हैं क्योंकि आपका उल्लेख किया गया था।
इस ईमेल का उत्तर सीधे दें, इसे GitHub पर देखें
https://github.com/facebookresearch/Detectron/issues/32#issuecomment-385755468 ,
या धागा म्यूट करें
https://github.com/notifications/unsubscribe-auth/ALEcn2nGO9e-fIF8S3bTDNkK4370hjOVks5tuK7DgaJpZM4Rscunn
।

daquexian 2 मई 2018

शायद मुझे कुछ याद आ रहा है, लेकिन अगर मैं USE_NCCL = गलत सेट करता हूं, और अपने संशोधित muji.py और muji_test.py PR का उपयोग करता हूं, तो मुझे मूल त्रुटि मिलती है:

I0502 14:35:57.192476 79712 context_gpu.cu:318] Total: 23025 MB
E0502 14:35:58.382604 79711 net_dag.cc:195] Exception from operator chain starting at '' (type 'Add'): caffe2::EnforceNotMet: [enforce fail at context_gpu.h:156] . Encountered CUDA error: an illegal memory access was encountered Error from operator: 
input: "gpu_0/rpn_cls_logits_fpn2_b_grad" input: "gpu_1/rpn_cls_logits_fpn2_b_grad" output: "gpu_0/rpn_cls_logits_fpn2_b_grad" name: "" type: "Add" device_option { device_type: 1 cuda_gpu_id: 0 }
E0502 14:35:58.382622 79712 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'Add'): caffe2::EnforceNotMet: [enforce fail at context_gpu.h:156] . Encountered CUDA error: an illegal memory access was encountered Error from operator: 
input: "gpu_0/rpn_cls_logits_fpn2_w_grad" input: "gpu_1/rpn_cls_logits_fpn2_w_grad" output: "gpu_0/rpn_cls_logits_fpn2_w_grad" name: "" type: "Add" device_option { device_type: 1 cuda_gpu_id: 0 }
F0502 14:35:58.382670 79711 context_gpu.h:107] Check failed: error == cudaSuccess an illegal memory access was encountered
*** Check failure stack trace: ***
F0502 14:35:58.382683 79712 context_gpu.h:107] Check failed: error == cudaSuccess an illegal memory access was encountered
*** Check failure stack trace: ***
E0502 14:35:58.383510 79709 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at context_gpu.cu:336] error == cudaSuccess. 77 vs 0. Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:336: an illegal memory access was encountered Error from operator: 
input: "gpu_1/fpn_res3_3_sum" input: "gpu_1/conv_rpn_fpn2_w" input: "gpu_1/__m18_shared" output: "_gpu_1/conv_rpn_fpn2_w_grad_autosplit_2" output: "_gpu_1/conv_rpn_fpn2_b_grad_autosplit_2" output: "_gpu_1/fpn_res3_3_sum_grad_autosplit_0" name: "" type: "ConvGradient" arg { name: "kernel" i: 3 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 1 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 1 } engine: "CUDNN" is_gradient_op: true
E0502 14:35:58.383541 79713 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at conv_op_cudnn.cc:1290] status == CUDNN_STATUS_SUCCESS. 8 vs 0. , Error at: /home/markable-ai/pytorch/caffe2/operators/conv_op_cudnn.cc:1290: CUDNN_STATUS_EXECUTION_FAILED Error from operator: 
input: "gpu_3/conv_rpn_fpn4" input: "gpu_3/rpn_bbox_pred_fpn2_w" input: "gpu_3/rpn_bbox_pred_fpn4_grad" output: "_gpu_3/rpn_bbox_pred_fpn2_w_grad_autosplit_1" output: "_gpu_3/rpn_bbox_pred_fpn2_b_grad_autosplit_1" output: "gpu_3/__m13_shared" name: "" type: "ConvGradient" arg { name: "kernel" i: 1 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 0 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 3 } engine: "CUDNN" is_gradient_op: true
E0502 14:35:58.383591 79706 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at context_gpu.cu:336] error == cudaSuccess. 77 vs 0. Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:336: an illegal memory access was encountered Error from operator: 
input: "gpu_3/conv_rpn_fpn3" input: "gpu_3/rpn_cls_logits_fpn2_w" input: "gpu_3/rpn_cls_logits_fpn3_grad" output: "_gpu_3/rpn_cls_logits_fpn2_w_grad_autosplit_2" output: "_gpu_3/rpn_cls_logits_fpn2_b_grad_autosplit_2" output: "_gpu_3/conv_rpn_fpn3_grad_autosplit_0" name: "" type: "ConvGradient" arg { name: "kernel" i: 1 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 0 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 3 } engine: "CUDNN" is_gradient_op: true
F0502 14:35:58.382683 79712 context_gpu.h:107] Check failed: error == cudaSuccess an illegal memory access was encounteredF0502 14:35:58.434631 79709 context_gpu.h:107] FCheck failed: error == cudaSuccess an illegal memory access was encountered0502 14:35:58.434648 79713 c*** Check failure stack trace: ***
E0502 14:35:58.383741 79700 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at context_gpu.cu:336] error == cudaSuccess. 77 vs 0. Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:336: an illegal memory access was encountered Error from operator: 
input: "gpu_3/conv_rpn_fpn2" input: "gpu_3/rpn_cls_logits_fpn2_w" input: "gpu_3/rpn_cls_logits_fpn2_grad" output: "_gpu_3/rpn_cls_logits_fpn2_w_grad_autosplit_3" output: "_gpu_3/rpn_cls_logits_fpn2_b_grad_autosplit_3" output: "_gpu_3/conv_rpn_fpn2_grad_autosplit_0" name: "" type: "ConvGradient" arg { name: "kernel" i: 1 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 0 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 3 } engine: "CUDNN" is_gradient_op: true
Aborted (core dumped)

मैं Cuda 9.1, cudnn 7.1 का उपयोग 4 V100s के साथ कर रहा हूं।

Feynman27 2 मई 2018

@ Feynman27 क्या आप मुझे बता सकते हैं कि Allreduce4 , Allreduce4Group2 , Allreduce2 या अन्य) ने Allreduce दर्ज किया है? आप इसे जानने के लिए इन शाखा में कुछ प्रिंट कार्य जोड़ना चाह सकते हैं। और क्या करता है, तो आप के कार्यान्वयन की जगह Allreduce सिर्फ फोन करके AllreduceFallback ? यह बहुत अच्छा होगा यदि आप https://github.com/facebookresearch/Detectron/issues/32#issuecomment -361739340 जैसे अपने gpu एक्सेस पैटर्न भी प्रदान कर सकते हैं। धन्यवाद!

daquexian 2 मई 2018

Allreduce4 कहा जा रहा है। Gpu पहुंच पैटर्न है:

>>> from caffe2.python import workspace
>>> print(workspace.GetCudaPeerAccessPattern())
[[ True False False False]
 [False  True False False]
 [False False  True False]
 [False False False  True]]

मैं AllreduceFallback. कॉल करने का प्रयास करूंगा

Feynman27 2 मई 2018

AllreduceFallback कॉल करना उपरोक्त के समान त्रुटि देता है:

I0502 17:08:51.294476 88651 context_gpu.cu:318] Total: 22524 MB
E0502 17:08:52.009866 88659 net_dag.cc:195] Exception from operator chain starting at '' (type 'Add'): caffe2::EnforceNotMet: [enforce fail at context_gpu.h:156] . Encountered CUDA error: an illegal memory access was encountered Error from operator: 
input: "gpu_0/rpn_cls_logits_fpn2_w_grad" input: "gpu_1/rpn_cls_logits_fpn2_w_grad" output: "gpu_0/rpn_cls_logits_fpn2_w_grad" name: "" type: "Add" device_option { device_type: 1 cuda_gpu_id: 0 }
F0502 17:08:52.009990 88659 context_gpu.h:107] Check failed: error == cudaSuccess an illegal memory access was encountered
*** Check failure stack trace: ***
E0502 17:08:52.010440 88651 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at context_gpu.cu:336] error == cudaSuccess. 77 vs 0. Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:336: an illegal memory access was encountered Error from operator: 
input: "gpu_2/fpn_res3_3_sum" input: "gpu_2/conv_rpn_fpn2_w" input: "gpu_2/__m15_shared" output: "_gpu_2/conv_rpn_fpn2_w_grad_autosplit_2" output: "_gpu_2/conv_rpn_fpn2_b_grad_autosplit_2" output: "_gpu_2/fpn_res3_3_sum_grad_autosplit_0" name: "" type: "ConvGradient" arg { name: "kernel" i: 3 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 1 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 2 } engine: "CUDNN" is_gradient_op: true
E0502 17:08:52.010524 88663 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at context_gpu.cu:336] error == cudaSuccess. 77 vs 0. Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:336: an illegal memory access was encountered Error from operator: 
input: "gpu_1/fpn_res2_2_sum" input: "gpu_1/conv_rpn_fpn2_w" input: "gpu_1/__m12_shared" output: "_gpu_1/conv_rpn_fpn2_w_grad_autosplit_3" output: "_gpu_1/conv_rpn_fpn2_b_grad_autosplit_3" output: "_gpu_1/fpn_res2_2_sum_grad_autosplit_0" name: "" type: "ConvGradient" arg { name: "kernel" i: 3 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 1 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 1 } engine: "CUDNN" is_gradient_op: true
F0502 17:08:52.010545 88660 context_gpu.cu:387] Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:387: an illegal memory access was encountered
*** Check failure stack trace: ***
F0502 17:08:52.010545 88660 context_gpu.cu:387] Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:387: an illegal memory access was encounteredF0502 17:08:52.061641 88651 context_gpu.hF107] 502 17:Ch:ck failed: error == cudaSuccess 52.061651 88663 context_gpu.h:
E0502 17:08:52.010577 88653 net_dag.cc:195] Secondary exception from operator chain starting at '' (type 'ConvGradient'): caffe2::EnforceNotMet: [enforce fail at context_gpu.cu:336] error == cudaSuccess. 77 vs 0. Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:336: an illegal memory access was encountered Error from operator: 
input: "gpu_0/fpn_res4_22_sum" input: "gpu_0/conv_rpn_fpn2_w" input: "gpu_0/__m15_shared" output: "_gpu_0/conv_rpn_fpn2_w_grad_autosplit_1" output: "_gpu_0/conv_rpn_fpn2_b_grad_autosplit_1" output: "_gpu_0/fpn_res4_22_sum_grad_autosplit_0" name: "" type: "ConvGradient" arg { name: "kernel" i: 3 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 1 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 0 } engine: "CUDNN" is_gradient_op: true
*** Check failure stack trace: ***
F0502 17:08:52.010545 88660 context_gpu.cu:387] Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:387: an illegal memory access was encounteredF0502 17:08:52.061641 88651 context_gpu.hF107] 502 17:Ch:ck failed: error == cudaSuccess 52.061651 88663 context_gpu.h:
07] Check failed: error == cudaSuccess an illegal memory access was encountered
*** Check failure stack trace: ***
F0502 17:08:52.010545 88660 context_gpu.cu:387] Error at: /home/markable-ai/pytorch/caffe2/core/context_gpu.cu:387: an illegal memory access was encounteredF0502 17:08:52.061641 88651 context_gpu.hF107] 502 17:Ch:ck failed: error == cudaSuccess 52.061651 88663 context_gpu.h:
07] Check failed: error == cudaSuccess an illegal memory access was encounteredF0502 17:08:52.061749 88653 context_gpu.h:107] Check failed: error == cudaSuccess an illegal memory access was encountered
*** Check failure stack trace: ***
Aborted (core dumped

Feynman27 2 मई 2018

@ Feynman27 यह अजीब है। आपके gpu एक्सेस पैटर्न के अनुसार, AllreduceFallback बजाय Allreduce4 कहा जाएगा। और जब आपने AllreduceFallback मैन्युअल रूप से कॉल किया, तो त्रुटि संदेश AllreduceFallback से नहीं आया। क्या आपने राइट फोल्डर में muji.py को बदला है? उदाहरण के लिए, caffe2 का अजगर पैकेज में है अगर /usr/lib/python/site-packages/caffe2 , तो बदल रहा है muji.py caffe2 के स्रोत फ़ोल्डर में (जैसे ~/caffe2/python ) काम नहीं करेगा।

daquexian 3 मई 2018

@ Feynman27 क्या आपने

yuzcccc 3 मई 2018

@daquexian caffe2 पैकेज pytorch/caffe2 तहत स्थापित किया गया है, /usr/lib/python/site-packages/caffe2 या कुछ और नहीं। मैंने इस निर्देशिका में देखने के लिए अपना $PYTHONPATH निर्धारित किया है। मैंने इसकी पुष्टि भी की है:

Python 2.7.14 |Anaconda, Inc.| (default, Mar 27 2018, 17:29:31) 
[GCC 7.2.0] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import caffe2
>>> caffe2.__file__
'/home/markable-ai/pytorch/build/caffe2/__init__.pyc'
>>> from caffe2.python import muji
>>> muji.__file__
'/home/markable-ai/pytorch/build/caffe2/python/muji.pyc'
>>>

मैंने केवल muji.py तहत pytorch/caffe2/python/muji.py muji.py फ़ाइल को संशोधित किया है।

@yuzcccc मैंने

Feynman27 3 मई 2018

@ Feynman27 मुझे लगता है कि आपको muji.py तहत /home/markable-ai/pytorch/build/caffe2/python/muji.py muji.py संशोधित करना चाहिए

daquexian 3 मई 2018

हां, यह मेरी दृष्टि थी। अच्छी कैच। मैं pytorch/caffe2/python/muji.py संशोधित कर रहा था और pytorch/build/caffe2/python/muji.py संशोधित होना चाहिए था।

Feynman27 3 मई 2018

❤1

@ Feynman27 इसे काम करते हुए देखकर खुशी हुई :)
@Yangqing क्या आप मेरे pr https://github.com/pytorch/pytorch/pull/6896 की समीक्षा कर सकते हैं? यह कई डेट्रायट उपयोगकर्ताओं की मदद कर सकता है :)

daquexian 3 मई 2018

👍1

@daquexian दुर्भाग्य से, मुझे अभी भी गतिरोध का सामना करना

Feynman27 3 मई 2018

@ Feynman27 हम्म .. USE_NCCL का मूल्य क्या है? यह False होना चाहिए

daquexian 4 मई 2018

हां, USE_NCCL गलत पर सेट किया गया था।

Feynman27 4 मई 2018

@ Feynman27 क्षमा करें मुझे पता नहीं है कि यह गतिरोध क्यों होगा। मेरे लिए प्रजनन करना कठिन है

daquexian 4 मई 2018

काफी उचित। सभी के लिए मुझे पता है, मैं जो गतिरोध अनुभव कर रहा हूं, वह GPU सहकर्मी पहुंच सक्षम है या नहीं। आपके पीआर ने निश्चित रूप से मुझे USE_NCCL=False साथ प्रशिक्षण शुरू करने की अनुमति दी। मैं एज़्योर मशीनों पर चल रहा हूं, इसलिए यह उनके वीएम पर चलने से संबंधित हो सकता है। मैंने 2 टाइटनएक्स के साथ स्थानीय मशीनों पर प्रशिक्षण शुरू कर दिया है और प्रशिक्षण ठीक लग रहा है।

Feynman27 4 मई 2018

❤1

@daquexian धन्यवाद! आपके पीआर ने मेरे लिए काम किया!

mks0601 11 मई 2018

🎉1

लगता है कि यह मुद्दा बंद हो सकता है।

gadcam 29 मई 2018

@gadcam बंद किए जा सकने वाले मुद्दों की पहचान करने में मदद करने के लिए धन्यवाद!

इस एक के लिए, मैं इसे खुला छोड़ना चाहूंगा जब तक कि Caffe2 में एक विलय नहीं हो जाता।

rbgirshick 29 मई 2018

👍1

@rbgirshick दुर्भाग्य से कोई मेरी पीआर की समीक्षा करता है: |

daquexian 29 मई 2018

@rbgirshick धन्यवाद! मेरा PR https://github.com/pytorch/pytorch/pull/6896 विलय कर दिया गया है। ऐसा लगता है कि यह मुद्दा बंद हो सकता है :)

daquexian 4 जून 2018

👍3

Detectron: मल्टी-जीपीयू प्रशिक्षण एक अवैध मेमोरी एक्सेस को फेंक देता है

सबसे उपयोगी टिप्पणी

सभी 64 टिप्पणियाँ

कार्यक्रम लटका हुआ है ......

संबंधित मुद्दों