Pytorch: تكرار تعطل / إعادة تشغيل نظام pytorch بشكل موثوق عند استخدام أمثلة imagenet

تم إنشاؤها على ٨ أكتوبر ٢٠١٧  ·  67تعليقات  ·  مصدر: pytorch/pytorch

لذلك لدي تعطل نظام قابل للتكرار بنسبة 100٪ (إعادة تشغيل) عند محاولة تشغيل مثال التخيل (مجموعة بيانات 2012). افتراضيات resnet18. يبدو أن الانهيار حدث في Variable.py في torch.autograd.backward (..) (السطر 158).

أنا قادر على تشغيل مثال mnist الأساسي بنجاح.

الإعداد: Ubuntu 16.04، 4.10.0-35-generic # 39 ~ 16.04.1-Ubuntu SMP Wed Sep 13 09:02:42 UTC 2017 x86_64 x86_64 x86_64 GNU / Linux

بيثون - نسخة بايثون 3.6.2 :: Anaconda، Inc.

/ usr / local / cuda / bin / nvcc - الإصدار
nvcc: NVIDIA (R) Cuda برنامج تشغيل المترجم
حقوق النشر (c) 2005-2017 لشركة NVIDIA
تم الإنشاء في Fri_Sep__1_21: 08: 03_CDT_2017
أدوات تجميع Cuda ، الإصدار 9.0 ، V9.0.176

إخراج nvidia-smi.
السبت 7 أكتوبر 23:51:53 2017
+ ------------------------------------------------- ---------------------------- +
| NVIDIA-SMI 384.81 إصدار برنامج التشغيل: 384.81 |
| ------------------------------- + ----------------- ----- + ---------------------- +
| استمرار اسم وحدة معالجة الرسومات- M | Bus-Id Disp.A | متقلب Uncorr. ECC |
| أداء درجة حرارة المروحة : الاستخدام / الغطاء | استخدام الذاكرة | GPU-Util Compute M. |
| ================================ + ================= ===== + ======================= |
| 0 بطاقة GeForce GTX 108 ... إيقاف | 00000000: 03: 00.0 تشغيل | غير متاح |
| 14٪ 51C P8 18 واط / 250 واط | 650 ميغا بايت / 11170 ميغا بايت | 0٪ افتراضي |
+ ------------------------------- + ----------------- ----- + ---------------------- +

+ ------------------------------------------------- ---------------------------- +
| العمليات: ذاكرة وحدة معالجة الرسومات |
| GPU PID اكتب اسم العملية الاستخدام |
| =================================================== ============================== |
| 0 1335 G / usr / lib / xorg / Xorg 499MiB |
| 0 2231 جم قرفة 55 ميجا بايت |
| 0 3390 G ...- الرمز المميز = C6DE372B6D9D4FCD6453869AF4C6B4E5 93MiB |
+ ------------------------------------------------- ---------------------------- +

تم بناء الشعلة / الرؤية محليًا على الجهاز من السيد. لا توجد مشكلات في وقت التجميع أو التثبيت ، بخلاف تحذيرات وقت التجميع العادية ...

يسعدني مساعدتك في الحصول على مزيد من المعلومات ..

التعليق الأكثر فائدة

واجهت نفس المشكلة مع _GTX1070_ لكن عمليات إعادة التشغيل لم تكن عشوائية.
كان لدي رمز كان قادرًا على إعادة تشغيل جهاز الكمبيوتر الخاص بي في كل مرة أقوم بتشغيله بعد فترة واحدة على الأكثر.
في البداية اعتقدت أنه يمكن أن يكون PSU لأن لي 500W فقط. ولكن بعد إجراء تحقيق دقيق وحتى تحديد الحد الأقصى لاستهلاك الطاقة إلى قيم أقل باستخدام nvidia-smi أدركت أن المشكلة في مكان آخر.
لم تكن مشكلة ارتفاع درجة الحرارة أيضًا ، لذا بدأت أعتقد أنها قد تكون بسبب وضع _I7-7820x_ Turbo. بعد تعطيل وضع Turbo في إعدادات BIOS الخاصة بي _Asus X299-A_ وتغيير تكوين Ubuntu كما هو مذكور هنا ، يبدو أن المشكلة قد ولت.

ما الذي لم ينجح:

  • تغيير pin_memory لأدوات تحميل البيانات.
  • اللعب مع حجم الدفعة.
  • زيادة حدود الذاكرة المشتركة للنظام.
  • تعيين nvidia-smi -pl 150 من أصل 195 ممكن لنظامي.

لست متأكدًا مما إذا كان هذا مرتبطًا بقضايا BIOS الأصلية. أقوم بتشغيل إصدار 1203 بينما أحدث إصدار هو 3 إصدارات - 1503 وقد وضعوا

تحسين الاستقرار

في وصف كل من هذه 3. إصدارات BIOS Asus X299-A كان أحد هذه الإصدارات أيضًا

تم تحديث الرمز الصغير لوحدة المعالجة المركزية Intel.

لذلك هناك احتمال أن يكون هذا قد تم إصلاحه.

ال 67 كومينتر

لقد واجهت عمليات إعادة تشغيل عشوائية للنظام مرة واحدة بسبب اللوحة الأم - عدم توافق وحدة معالجة الرسومات. وقد تجلى هذا خلال التدريب الطويل. هل تنجح الأطر الأخرى (مثل caffe) في التدريب على ImageNet؟

لم أجرب ذلك بعد. ومع ذلك ركض بعض مقاعد البدلاء الرسومية طويلة المدى ؛) دون مشاكل. ربما يمكنني النظر في إعطاء أطر عمل أخرى لقطة ، ما هي توصيتك. كافيه؟

ضع في اعتبارك أن الانهيار الذي أبلغت عنه يحدث عمليًا على الفور (يتم تشغيل مثال mnist-cuda عدة مرات دون مشكلة). لذلك أشك في أنها مشكلة آه / ث عدم التوافق.

هل يمكنك محاولة تشغيل العطل مرة أخرى ومعرفة ما إذا كان أي شيء ذي صلة قد تمت طباعته في /var/log/dmesg.0 أو /var/log/kern.log ؟

لا توجد إدخالات متعلقة بهذا في dmesg أو kern.log. يقوم الجهاز بنقرة مسموعة ويعيد التعيين ، لذلك أعتقد أنه يتم التلاعب في سجلات h / w أو الذاكرة بطريقة لا تحبها. لا يوجد إشعار حقيقي للنواة لتسجيل أي شيء. يعيد التشغيل في نفس سطر الكود في كل مرة ، على الأقل في المرات القليلة التي مررت فيها خلاله.

هذا غريب. لأكون صادقًا ، ليس لدي أي أفكار جيدة لتصحيح مثل هذه المشكلات. أظن أنها مشكلة ما في الأجهزة ، لكنني لا أعرف حقًا.

إنها بالتأكيد مشكلة في الأجهزة أيضًا. سواء كان ذلك على مستوى برنامج تشغيل nvidia ، أو عطل في السير / الأجهزة.
أقوم بإغلاق المشكلة ، حيث لا يوجد أي إجراء يمكن اتخاذه من جانب مشروع pytorch.

للرجوع إليها في المستقبل ، كانت المشكلة ناتجة عن منحدر طاقة شديد الانحدار لإمداد طاقة الخادم المشغل 1080ti عبر حماية الجهد. فقط بعض أمثلة pytorch تسببت في ظهورها.

castleguarders هل اكتشفت كيفية حل هذه المشكلة؟ يبدو أنه حتى مصدر الطاقة "البلاتيني" 1200 واط لا يكفي فقط 2X 1080Ti ، فإنه يعيد التشغيل من وقت لآخر.

castleguarders لدي مشكلات مماثلة ، كيف وجدت أن هذه هي المشكلة؟

pmcrodrigues كانت هناك نقرة مسموعة كلما حدثت المشكلة. لقد استخدمت nvidia-smi للتحكم الناعم في سحب القوة ، مما سمح للاختبارات لفترة أطول قليلاً ، لكن الرحلة على أي حال. لقد قمت بالتبديل إلى مزود طاقة بقوة 825 وات وتولى الأمر حل المشكلة بالكامل. يسهل Furmark عمل اختبار هذا إذا قمت بتشغيل النوافذ. لقد قمت بتشغيله مربوطًا بالكامل لبضعة أيام ، أثناء قيادة وحدات المعالجة المركزية بنسبة 100 ٪ بنص مختلف. إنها صفر مشاكل منذ ذلك الحين.

yurymalkov لدي فقط 1x 1080ti ، لم أجرؤ على وضع واحدة ثانية.

تضمين التغريدة
لقد قمت أيضًا "بحل" المشكلة عن طريق تغذية وحدة معالجة الرسومات الثانية من PSU منفصل (1000 واط + 1200 واط لـ 2 × 1080Ti). ساعد أيضًا تقليل سحب الطاقة بمقدار 0.5X عبر nvidia-smi -pl ، لكنه قتل الأداء. جربت أيضًا اللوحات الأم / وحدات معالجة الرسومات المختلفة لكنها لم تساعد.

castleguardersyurymalkov شكرا لكما . لقد حاولت أيضًا تقليل سحب الطاقة عبر nvidia-smi وتوقف عن تعطل النظام. ولكن مع اختبارات الإجهاد بكامل طاقتها ، ارسم في وقت واحد على 2 xeons (مع http://people.seas.harvard.edu/~apw/stress/) و 4 1080ti (مع https://github.com/wilicc/gpu -burn) لم تجعله ينهار. حتى الآن لم أر هذه المشكلة إلا على pytorch. ربما أحتاج إلى اختبارات إجهاد أخرى؟

pmcrodrigues يبدو أن gpuburn يمثل اختبارًا سيئًا لهذا ، لأنه لا ينشئ منحدرات شديدة الانحدار.
أي يمكن أن يمر الجهاز gpuburn مع 4 gpus ، لكنه فشل عند 2 gpus مع برنامج pytorch النصي.

تتكرر المشكلة في بعض الأطر الأخرى (مثل Tensorflow) ، ولكن يبدو أن نصوص pytorch هي أفضل اختبار ، ربما بسبب الطبيعة المتزامنة للغاية.

أواجه نفس المشكلة. هل وجد أي شخص أي حل ناعم لهذا؟
لدي 4 أنظمة GPU مع وحدة معالجة مركزية واحدة ومصدر طاقة 1500 واط. يؤدي استخدام 3 من 4 أو 4/4 إلى إعادة التشغيل.
castleguardersyurymalkovpmcrodrigues كيفية تقليل سحب القوة عبر nvidia-smi؟

gurkirt في الوقت الحالي ، أنا أستخدم وحدتي GPU فقط مع 1500W PSU. إذا كنت ترغب في اختبار تقليل سحب القوة ، يمكنك استخدام "nvidia-smi -pl X" حيث يمثل X سحب القوة الجديد. بالنسبة لجهاز gtx 1080i ، استخدمت "nvidia-smi -pl 150" بينما السحب القياسي هو 250 وات. أنا في انتظار PSU أكثر فاعلية لاختبار ما إذا كان يحل المشكلة. لدي حاليًا جهاز قياس لقياس الطاقة القادمة مباشرة من الحائط ، ولكن حتى عندما أستخدم 4 وحدات معالجة رسومات ، فإنها لا تتجاوز 1000 واط. لا يزال من الممكن أن تكون بعض القمم الغريبة التي لم يتم تسجيلها ولكن تم إيقاف تشغيل شيء ما. في كلتا الحالتين ، ربما نحتاج إلى استخدام وحدات PSU المزدوجة بقوة 1500 واط.

pmcrodrigues شكرًا جزيلاً على الاستجابة السريعة. لدي نظام آخر 2000W مع 4 1080Ti. هذا يعمل بشكل جيد. سأحاول توصيل مصدر الطاقة هذا في هذا الجهاز ومعرفة ما إذا كان 2000W كافيًا على هذا الجهاز.

pmcrodrigues هل وجدت أي سجل / تحذير / تقرير تعطل في مكان ما؟

تضمين التغريدة

أواجه مشكلة مماثلة - نقرة مسموعة ، وإغلاق النظام بالكامل.

يبدو أنه يحدث فقط مع طبقات BatchNorm في مكانها. هل هذا يتوافق مع تجربتك؟

كنت أستخدم resenet في ذلك الوقت. إنها مشكلة مشكلة عدم كفاية إمدادات الطاقة. إنها مشكلة في الأجهزة. كنت بحاجة إلى ترقية مصدر الطاقة. وفقًا لعمليات البحث التي أجريتها عبر الإنترنت ، فإن زيادة الطاقة هي مشكلة pytorch. قمت بترقية مصدر الطاقة من 1500 واط إلى 1600 واط. لا تزال المشكلة تظهر بين الحين والآخر ولكن فقط عندما تكون درجة حرارة الغرفة أعلى قليلاً. أعتقد أن هناك عاملين مهمين ، درجة حرارة الغرفة ، وأحد العوامل الرئيسية الأخرى هو مصدر الطاقة.

لدي نفس المشكلة مع مصدر طاقة بقوة 550 وات وبطاقات رسومات GTX1070. أبدأ التعلم وحوالي ثانية بعد ذلك انقطاع التيار الكهربائي.

لكن هذا جعلني أفكر في أنه ربما يكون من الممكن خداع / إقناع PSU بأن كل شيء على ما يرام عن طريق إنشاء وظيفة تكثيف ، على سبيل المثال ، تمزج بين النوم ونشاط وحدة معالجة الرسومات وتزيد الحمل تدريجيًا. هل هناك اي احد جرب هذة؟ هل يوجد لدى شخص حد أدنى من الكود الذي يؤدي إلى انقطاع التيار الكهربائي بشكل موثوق؟

واجهت نفس المشكلة مع _GTX1070_ لكن عمليات إعادة التشغيل لم تكن عشوائية.
كان لدي رمز كان قادرًا على إعادة تشغيل جهاز الكمبيوتر الخاص بي في كل مرة أقوم بتشغيله بعد فترة واحدة على الأكثر.
في البداية اعتقدت أنه يمكن أن يكون PSU لأن لي 500W فقط. ولكن بعد إجراء تحقيق دقيق وحتى تحديد الحد الأقصى لاستهلاك الطاقة إلى قيم أقل باستخدام nvidia-smi أدركت أن المشكلة في مكان آخر.
لم تكن مشكلة ارتفاع درجة الحرارة أيضًا ، لذا بدأت أعتقد أنها قد تكون بسبب وضع _I7-7820x_ Turbo. بعد تعطيل وضع Turbo في إعدادات BIOS الخاصة بي _Asus X299-A_ وتغيير تكوين Ubuntu كما هو مذكور هنا ، يبدو أن المشكلة قد ولت.

ما الذي لم ينجح:

  • تغيير pin_memory لأدوات تحميل البيانات.
  • اللعب مع حجم الدفعة.
  • زيادة حدود الذاكرة المشتركة للنظام.
  • تعيين nvidia-smi -pl 150 من أصل 195 ممكن لنظامي.

لست متأكدًا مما إذا كان هذا مرتبطًا بقضايا BIOS الأصلية. أقوم بتشغيل إصدار 1203 بينما أحدث إصدار هو 3 إصدارات - 1503 وقد وضعوا

تحسين الاستقرار

في وصف كل من هذه 3. إصدارات BIOS Asus X299-A كان أحد هذه الإصدارات أيضًا

تم تحديث الرمز الصغير لوحدة المعالجة المركزية Intel.

لذلك هناك احتمال أن يكون هذا قد تم إصلاحه.

للتسجيل ، كانت مشكلتي هي انقطاع التيار الكهربائي. لقد قمت بتشخيص هذا من خلال تشغيل https://github.com/wilicc/gpu-burn على Linux ثم FurMark على Windows ، على افتراض أنه ما لم أتمكن من إعادة إنتاج التعطل على Windows ، فلن يتحدثوا معي في جهاز الكمبيوتر الخاص بي متجر. فشل كلا الاختبارين بالنسبة لي ، حيث أخذت الكمبيوتر لإصلاحه وحصلت على مصدر طاقة جديد. منذ ذلك الحين ، كنت أقوم بتشغيل pytorch لساعات دون أي أعطال.

هل وجد أي شخص طريقة لإصلاح هذا. لدي خطأ مشابه حيث يتم إعادة تشغيل جهاز الكمبيوتر الخاص بي بعد وقت قصير من بدء التدريب. لدي 750 واط psu و 1 gpu (1080ti) فقط لذلك لا أعتقد أنها مشكلة في الطاقة. أيضًا ، لم أرَ زيادة في القوة الكهربائية تذهب إلى وحدة معالجة الرسومات الخاصة بي قبل إعادة تشغيلها.

هل وجد أي شخص طريقة لإصلاح هذا. لدي خطأ مشابه حيث يتم إعادة تشغيل جهاز الكمبيوتر الخاص بي بعد وقت قصير من بدء التدريب. لدي 750 واط psu و 1 gpu (1080ti) فقط لذلك لا أعتقد أنها مشكلة في الطاقة. أيضًا ، لم أرَ زيادة في القوة الكهربائية تذهب إلى وحدة معالجة الرسومات الخاصة بي قبل إعادة تشغيلها.

إذا كان بإمكاني إضافة المزيد من المعلومات حول تعليق رائع على vwvolodya. كان تكوين اللوحة الأم / وحدة المعالجة المركزية لدينا هو ASUS TUF X299 MARK 2 مع i9-7920x. كان إصدار Bios في 1401. الشيء الوحيد الذي يمكن أن يمنع النظام من إعادة التشغيل / إيقاف التشغيل هو إيقاف: وضع Turbo.

في الوقت الحالي ، بعد التحديث إلى 1503 ، يبدو أن المشكلة قد تم حلها مع تنشيط وضع Turbo.

يملك الرجال يوم عظيم !

إذا كان بإمكاني إضافة المزيد من المعلومات حول تعليق رائع على vwvolodya. كان تكوين اللوحة الأم / وحدة المعالجة المركزية لدينا هو ASUS TUF X299 MARK 2 مع i9-7920x. كان إصدار Bios في 1401. الشيء الوحيد الذي يمكن أن يمنع النظام من إعادة التشغيل / إيقاف التشغيل هو إيقاف: وضع Turbo.

في الوقت الحالي ، بعد التحديث إلى 1503 ، يبدو أن المشكلة قد تم حلها مع تنشيط وضع Turbo.

يملك الرجال يوم عظيم !

yaynouchevwvolodya حدثت مشكلات مماثلة على ASUS WS-X299 SAGE مع i9-9920X. يعد إيقاف تشغيل Turbo Mode هو الحل الوحيد الآن ، مع أحدث BIOS (الإصدار 0905 الذي يدعم i9-9920X رسميًا).

UPDATE: اتضح ، يجب أن أقوم بتمكين وضع turbo في BIOS واستخدام أوامر مثل echo "1" > /sys/devices/system/cpu/intel_pstate/no_turbo كما في https://github.com/pytorch/pytorch/issues/3022#issuecomment-419093454 لتعطيل turbo عبر البرنامج . إذا قمت بتعطيل وضع turbo في BIOS ، فسيستمر تشغيل الجهاز.

تحديث 2: أعتقد أن إيقاف تشغيل وضع Turbo لن يؤدي إلا إلى تقليل فرصة مشكلتي ، وليس القضاء عليها.

أواجه نفس المشكلة. هل وجد أي شخص أي حل ناعم لهذا؟
لدي 4 أنظمة GPU مع وحدة معالجة مركزية واحدة ومصدر طاقة 1500 واط. يؤدي استخدام 3 من 4 أو 4/4 إلى إعادة التشغيل.
castleguardersyurymalkovpmcrodrigues كيفية تقليل سحب القوة عبر nvidia-smi؟

تواجه نفس المشكلة. 4 GTX 1080Ti مع 1600 وات PSU (مع التكرار). حاولت استخدام gpu burn لاختباره وهو مستقر مثل الصخور.

Suley شخصيا أعتقد أن هذا هو أكثر من مشكلة وحدة المعالجة المركزية ؛ في الأساس ، تستدعي pytorch وحدة المعالجة المركزية (CPU) لتنفيذ سلسلة من التعليمات التي تستهلك قدرًا كبيرًا من الطاقة من اللوحة الأم.

Suley شخصيا أعتقد أن هذا هو أكثر من مشكلة وحدة المعالجة المركزية ؛ في الأساس ، تستدعي pytorch وحدة المعالجة المركزية (CPU) لتنفيذ سلسلة من التعليمات التي تستهلك قدرًا كبيرًا من الطاقة من اللوحة الأم.

شكرا لردك. سأختبر وحدات المعالجة المركزية لتحديد المشكلة

Suley شخصيا أعتقد أن هذا هو أكثر من مشكلة وحدة المعالجة المركزية ؛ في الأساس ، تستدعي pytorch وحدة المعالجة المركزية (CPU) لتنفيذ سلسلة من التعليمات التي تستهلك قدرًا كبيرًا من الطاقة من اللوحة الأم.

أجريت اختبار إجهاد وحدة المعالجة المركزية واختبار إجهاد وحدة المعالجة المركزية في نفس الوقت ، ولم يتم العثور على مشكلة.
يدعم جهاز mobo الخاص بي 150 W TDP ، و tdp لوحدة المعالجة المركزية الخاصة بي هو 115w tdp.
لذا سيكون الحد الأقصى لاستهلاك الطاقة الخاص بي: 115 واط * 2 (وحدة المعالجة المركزية) + 250 واط * 4 (1080 تيرا بايت) + 200 واط (قرص ومكونات أخرى) = 1430
يبدو أن 1600 واط يكفي. وإلى جانب ذلك ، هناك قوتان احتياطيتان 1600 وات والتي تنتج كلاهما طاقة ، وهذا يعني أن كل وحدة PSU تحمل نصف الحمولة فقط.

2 GPU يعمل بشكل جيد.
3 GPU غير مستقر. إعادة التشغيل بعد بضع دقائق.
4 GPU تحطمت على الفور. إعادة تشغيل النظام ولم يتم تسجيل أي سجلات.

حاولت أيضًا إجراء اختبارات الإجهاد لوحدة المعالجة المركزية ووحدة معالجة الرسومات في وقت واحد ؛ لا توجد مشكلة على الإطلاق. ربما يرجع ذلك إلى نوع التعليمات ... لست متأكدًا.

هل يمكنك محاولة تعطيل بعض نوى وحدة المعالجة المركزية أو إلغاء قفلها؟ في حالتي ، انخفض هذا الاحتمال / تكرار إعادة التشغيل ولكن لم يحل المشكلة.

يعتمد على حقيقة أن تقليل حمل وحدة المعالجة المركزية يمكن أن يجعل البرامج أكثر استقرارًا (على الأقل على جهازي) وأعتقد أن هذه مشكلة في وحدة المعالجة المركزية.

يمينغ تشانغ
مرسل من الايفون الخاص بي

في 7 أبريل 2019 الساعة 1:04 مساءً ، كتب Suley [email protected] :

Suley شخصيا أعتقد أن هذا هو أكثر من مشكلة وحدة المعالجة المركزية ؛ في الأساس ، تستدعي pytorch وحدة المعالجة المركزية (CPU) لتنفيذ سلسلة من التعليمات التي تستهلك قدرًا كبيرًا من الطاقة من اللوحة الأم.
أجريت اختبار إجهاد وحدة المعالجة المركزية واختبار إجهاد وحدة المعالجة المركزية في نفس الوقت ، ولم يتم العثور على مشكلة.
يدعم جهاز mobo الخاص بي 150 واط TDP ،
لذا سيكون الحد الأقصى لاستهلاك الطاقة الخاص بي: 115 واط * 2 (وحدة المعالجة المركزية) + 250 واط * 4 (1080 تيرا بايت) + 200 واط (قرص ومكونات أخرى) = 1430
يبدو أن 1600 واط يكفي. وإلى جانب ذلك ، هناك قوتان احتياطيتان 1600 وات والتي تنتج كلاهما طاقة ، وهذا يعني أن كل وحدة PSU تحمل نصف الحمولة فقط.

2 GPU يعمل بشكل جيد.
3 GPU غير مستقر. إعادة التشغيل بعد بضع دقائق.
4 GPU تحطمت على الفور. إعادة تشغيل النظام ولم يتم تسجيل أي سجلات.

-
أنت تتلقى هذا لأنك علقت.
قم بالرد على هذه الرسالة الإلكترونية مباشرةً ، أو اعرضها على GitHub ، أو قم بكتم صوت الموضوع.

حاولت أيضًا إجراء اختبارات الإجهاد لوحدة المعالجة المركزية ووحدة معالجة الرسومات في وقت واحد ؛ لا توجد مشكلة على الإطلاق. ربما يرجع ذلك إلى نوع التعليمات ... لست متأكدًا. هل يمكنك محاولة تعطيل بعض نوى وحدة المعالجة المركزية أو إلغاء قفلها؟ في حالتي ، انخفض هذا الاحتمال / تكرار إعادة التشغيل ولكن لم يحل المشكلة. يعتمد على حقيقة أن تقليل حمل وحدة المعالجة المركزية يمكن أن يجعل البرامج أكثر استقرارًا (على الأقل على جهازي) وأعتقد أن هذه مشكلة في وحدة المعالجة المركزية. أرسل Yimeng Zhang من iPhone الخاص بي
...
في 7 أبريل 2019 ، الساعة 1:04 مساءً ، Suley @ . * > كتب: Suley شخصيًا أعتقد أن هذه مشكلة في وحدة المعالجة المركزية ؛ في الأساس ، تستدعي pytorch وحدة المعالجة المركزية (CPU) لتنفيذ سلسلة من التعليمات التي تستهلك قدرًا كبيرًا من الطاقة من اللوحة الأم. أجريت اختبار إجهاد وحدة المعالجة المركزية واختبار إجهاد وحدة المعالجة المركزية في نفس الوقت ، ولم يتم العثور على مشكلة. يدعم mobo الخاص بي 150 W TDP ، لذا سيكون استهلاك الطاقة الأقصى الخاص بي: 115w * 2 (CPU) + 250w * 4 (1080Ti) + 200W (Disk والمكونات الأخرى) = 1430 يبدو أن 1600W يكفي. وإلى جانب ذلك ، هناك قوتان احتياطيتان 1600 وات والتي تنتج كلاهما طاقة ، وهذا يعني أن كل وحدة PSU تحمل نصف الحمولة فقط. 2 GPU يعمل بشكل جيد. 3 GPU غير مستقر. إعادة التشغيل بعد بضع دقائق. 4 GPU تحطمت على الفور. إعادة تشغيل النظام ولم يتم تسجيل أي سجلات. - أنت تتلقى هذا لأنك علقت. قم بالرد على هذه الرسالة الإلكترونية مباشرةً ، أو اعرضها على GitHub ، أو قم بكتم صوت الموضوع.

شكرا. توجد حاليًا مهمة تعمل على الخادم. سأحاول ذلك بعد انتهاء المهمة ، وأشارك نتيجة الاختبار الخاصة بي.
ولكن ما زلت لا تستطيع تفسير سبب عمل الضغط على وحدة المعالجة المركزية ووحدة المعالجة المركزية ، لكن pytorch لا تفعل ذلك. آمل أن يتمكن شخص ما من البحث في هذا والخروج بحل.

حاولت أيضًا إجراء اختبارات الإجهاد لوحدة المعالجة المركزية ووحدة معالجة الرسومات في وقت واحد ؛ لا توجد مشكلة على الإطلاق. ربما يرجع ذلك إلى نوع التعليمات ... لست متأكدًا. هل يمكنك محاولة تعطيل بعض نوى وحدة المعالجة المركزية أو إلغاء قفلها؟ في حالتي ، انخفض هذا الاحتمال / تكرار إعادة التشغيل ولكن لم يحل المشكلة. يعتمد على حقيقة أن تقليل حمل وحدة المعالجة المركزية يمكن أن يجعل البرامج أكثر استقرارًا (على الأقل على جهازي) وأعتقد أن هذه مشكلة في وحدة المعالجة المركزية. أرسل Yimeng Zhang من iPhone الخاص بي
...
في 7 أبريل 2019 ، الساعة 1:04 مساءً ، Suley @ . * > كتب: Suley شخصيًا أعتقد أن هذه مشكلة في وحدة المعالجة المركزية ؛ في الأساس ، تستدعي pytorch وحدة المعالجة المركزية (CPU) لتنفيذ سلسلة من التعليمات التي تستهلك قدرًا كبيرًا من الطاقة من اللوحة الأم. أجريت اختبار إجهاد وحدة المعالجة المركزية واختبار إجهاد وحدة المعالجة المركزية في نفس الوقت ، ولم يتم العثور على مشكلة. يدعم mobo الخاص بي 150 W TDP ، لذا سيكون استهلاك الطاقة الأقصى الخاص بي: 115w * 2 (CPU) + 250w * 4 (1080Ti) + 200W (Disk والمكونات الأخرى) = 1430 يبدو أن 1600W يكفي. وإلى جانب ذلك ، هناك قوتان احتياطيتان 1600 وات والتي تنتج كلاهما طاقة ، وهذا يعني أن كل وحدة PSU تحمل نصف الحمولة فقط. 2 GPU يعمل بشكل جيد. 3 GPU غير مستقر. إعادة التشغيل بعد دقائق قليلة. 4 تعطل GPU على الفور. إعادة تشغيل النظام ولم يتم تسجيل أي سجلات. - أنت تتلقى هذا لأنك علقت. قم بالرد على هذه الرسالة الإلكترونية مباشرةً ، أو اعرضها على GitHub ، أو قم بكتم صوت الموضوع.

يبدو أنك على حق. إنه خطأ متعلق بوحدة المعالجة المركزية. بعد أن قمت بتعطيل جميع أنوية وحدة المعالجة المركزية باستثناء وحدة المعالجة المركزية (cpu0) ، عملت.
لكن نواة واحدة فقط تعمل. تمكين نصف النوى ما زالت تحطمت.

Suley هل تستخدم شرائح X299؟ يبدو أن العديد من الإصدارات مع X299 لديها هذه المشكلة.

1600W PSU مع 4x 2080 TI تواجه نفس المشكلة. لقد أرفقت وحدة PSU ثانية بقدرة 750 وات مع ADD2PSU والآن أقوم بتشغيل 1600 وات PSU = 3x2080Ti + System و 750 W PSU = 1x2080Ti ويبدو كل شيء مستقرًا. كما علق آخرون ، فإن pytorch هو التطبيق الوحيد الذي يؤكد على وحدة معالجة الرسومات (GPU) لدرجة أنها تواجه الحماية الحالية. كل من عمال المناجم والعارضين و Stresstests مريحة مع 1600 وات PSU. كانت هذه مشكلة في الأجهزة ومن الآن فصاعدًا ستكون pytorch هي GPU Stresstest الخاصة بي :-) راجع للشغل: لدي بناء X399

نعم ، تسبب pytorch زيادة في الطاقة في وقت بدء الشبكة. 1600 واط PSU كافٍ إذا كنت PSU من الدرجة البلاتينية وما فوقها من الفضة من الدرجة الذهبية PSU ليست قوية بما يكفي للتعامل مع التغيير المفاجئ في متطلبات الطاقة. إن PSU الخاص بك قادر على توفير ما يكفي ولكنه لا يمكنه التعامل مع التغيير المفاجئ من ~ 250W إلى 1000 + W المطلوب في غضون ثوان. تحقق من درجة مصدر الطاقة. أيضًا ، قم بإيقاف تشغيل رفع تردد التشغيل في إعدادات السير.

gurkirt كان لدي وحدة PSU بقوة 1200 وات من "الدرجة البلاتينية" والتي لا يمكنها التعامل مع وحدتي معالجة رسوماتيتين 1080Ti. على الرغم من أنها عملت بشكل أفضل من وحدات PSU الأخرى التي أمتلكها (1000W ، ماركات مختلفة ، ليست رخيصة).

لدي قرصان 1600 واط بلاتينيوم مع 4x1080Ti وهو يعمل بشكل جيد.

نعم ، تسبب pytorch زيادة في الطاقة في وقت بدء الشبكة. 1600 واط PSU كافٍ إذا كنت PSU من الدرجة البلاتينية وما فوقها من الفضة من الدرجة الذهبية PSU ليست قوية بما يكفي للتعامل مع التغيير المفاجئ في متطلبات الطاقة. إن PSU الخاص بك قادر على توفير ما يكفي ولكنه لا يمكنه التعامل مع التغيير المفاجئ من ~ 250W إلى 1000 + W المطلوب في غضون ثوان. تحقق من درجة مصدر الطاقة. أيضًا ، قم بإيقاف تشغيل رفع تردد التشغيل في إعدادات السير.

بلدي psu هو psu الصف البلاتيني. سوبرمايكرو 7047GR عظام. وهي عبارة عن اثنين 1600 واط ، تجمع بين 3200 واط في المجموع.

gurkirt كان لدي وحدة PSU بقوة 1200 وات من "الدرجة البلاتينية" والتي لا يمكنها التعامل مع وحدتي معالجة رسوماتيتين 1080Ti. على الرغم من أنها عملت بشكل أفضل من وحدات PSU الأخرى التي أمتلكها (1000W ، ماركات مختلفة ، ليست رخيصة).

غريب! لديّ اثنين من PSU الصف البلاتيني. (1600 واط). لا يمكن التعامل مع 4 1080Ti!

Suley هل تستخدم شرائح X299؟ يبدو أن العديد من الإصدارات مع X299 لديها هذه المشكلة.

لا. أنا أستخدم x79 ، وهو قديم جدًا. يعمل خادم X99 بشكل جيد.

واجهت نفس المشكلة مع 4x2080ti + asus x299 sage + Rosewill Hercules 1600W PSU (أو Corsair 1500i) ، ولم يساعد تعطيل توربو وحدة المعالجة المركزية. بعد استخدام Corsair 1600i Titanium ، يعمل بشكل مثالي.

واجهت نفس المشكلة مع 4x2080ti + asus x299 sage + Rosewill Hercules 1600W PSU (أو Corsair 1500i) ، ولم يساعد تعطيل توربو وحدة المعالجة المركزية. بعد استخدام Corsair 1600i Titanium ، يعمل بشكل مثالي.

يحتوي جهازيZhengRui أيضًا على 4x2080ti + x299 sage ، ولكن مع 2000 واط PSU ؛ ما زلت تفشل ... (ربما بسبب اختلاف وحدة المعالجة المركزية؟ المنجم هو 12 نواة i9-9920X).

@ zym1010 وحدة المعالجة المركزية الخاصة بي هي 10core i9-9820

واجهت نفس المشكلة مع 4x2080ti + asus x299 sage + Rosewill Hercules 1600W PSU (أو Corsair 1500i) ، ولم يساعد تعطيل توربو وحدة المعالجة المركزية. بعد استخدام Corsair 1600i Titanium ، يعمل بشكل مثالي.

كان لدي حالة مماثلة ، بعد الترقية إلى 1600i ، عملت.

في حالتي ، يحتوي جهازي على 1080 و 550 واط PSU. تشغيل برنامج libtorch الخاص بي في Rust مرة واحدة جيد. ومع ذلك ، إذا كررت القتل وإعادة تشغيل البرنامج كل 30 ثانية ، فسيتم إيقاف تشغيل النظام بشكل موثوق ، أو إيقاف تشغيل وحدة معالجة الرسومات. في النهاية ، لا يمكن تشغيل فواصل اللوحة الأم على الإطلاق.

أعتقد أنه من الواضح من المناقشة أعلاه أنه في الغالب يكون خطأ PSU ، لا يجب أن يكون لدى PSU انقطاع طاقة كافٍ فحسب ، بل يجب أن تكون قوية بما يكفي لتحمل زيادة الطاقة. نصيحتي لك إذا كانت لديك هذه المشكلة ، فحاول تغييرها إلى PSU أفضل واحتفظ بالجهاز في مكان بارد وجاف.

اتضح أن المشكلة الرئيسية بالنسبة لي لم تكن PSU ، ولكن نقص الكابلات. يبدو أن توصيل وحدة معالجة الرسومات التي تحتوي على مآخذ PCIe بمقبس واحد في PSU يستمد الكثير من الطاقة من مقبس PSU الفردي وتؤدي الحماية من الجهد الزائد إلى إيقاف تشغيل كل شيء.

يبدو أن ترقية PSU في حالتي تؤدي إلى تفاقم المشكلة ، حيث لم يتم تشغيل PSU على الإطلاق. السبب هو أن PSU الجديد (والأفضل) كان يقوم بفحص الكابلات قبل التشغيل وكانوا يفشلون.

أدى استخدام كابل برأسين على كلا الجانبين أو كبلين متميزين إلى حل المشكلة بالنسبة لي

لست متأكدًا مما أواجهه هو نفس المشكلة. يستخدم جهاز الكمبيوتر الخاص بي 1080Ti ، وإذا كان استخدام ذاكرة GPU قريبًا من 100٪ ، أي يستخدم ذاكرة 11 جيجابايت تقريبًا ، فسيتم إعادة تشغيله. ولكن إذا قمت بتقليل حجم دفعة الشبكة لتقليل استخدام الذاكرة ، فلن تحدث مشكلة إعادة التشغيل بدون ترقية الطاقة. إذا واجه شخص ما مشكلة إعادة التشغيل ، آمل أن تساعدك حالتي.

أواجه نفس المشكلة مع 1080 Ti و 450 W PSU وحاولت تقليل استهلاك الطاقة بكتابة الأمر "sudo nvidia-smi -pl X" كحل مؤقت. ومع ذلك ، هذا لم ينجح في المحاولة الأولى. بعد ذلك ، لاحظت أنه إذا حددت استهلاك الطاقة أولاً وقمت بكتابة "nvidia-smi -lms 50" على محطة أخرى للتحقق من استخدام الطاقة والذاكرة لوحدة معالجة الرسومات قبل بدء التدريب ، يمكنني تدريب الشبكة دون مشكلة . أنا في انتظار PSU جديد الآن لحل دائم.

لقد واجهت هذه المشكلة أيضًا وتمكنت من إعادة إنتاجها باستخدام برنامج نصي Pytorch دون استخدام أي وحدات معالجة رسومات (وحدة المعالجة المركزية فقط). لذلك أتفق مع @ zym1010 بالنسبة لي ، إنها مشكلة تتعلق بوحدة المعالجة المركزية. لقد قمت بتحديث BIOS الخاص بي (ASUS WS X299 SAGE LGA 2066 Intel X299) ويبدو أنه أوقف المشكلة من الحدوث. ومع ذلك ، بالنظر إلى التعليقات الواردة في هذا الموضوع ، لست متأكدًا تمامًا من إصلاح المشكلة ...

soumith ألا تعتقد أنه يجب على المساهمين في Pytorch النظر في هذه المشكلة بدلاً من إغلاقها فقط؟ يبدو أن Pytorch تشدد على GPU / CPU بطريقة لا تفعلها اختبارات إجهاد GPU / CPU. هذا ليس سلوكًا متوقعًا ، والمشكلة تؤثر على كثير من الناس. يبدو أنها قضية مثيرة للاهتمام أيضًا!

لقد واجهت هذه المشكلة أيضًا وتمكنت من إعادة إنتاجها باستخدام برنامج نصي Pytorch دون استخدام أي وحدات معالجة رسومات (وحدة المعالجة المركزية فقط). لذلك أتفق مع @ zym1010 بالنسبة لي ، إنها مشكلة تتعلق بوحدة المعالجة المركزية. لقد قمت بتحديث BIOS الخاص بي (ASUS WS X299 SAGE LGA 2066 Intel X299) ويبدو أنه أوقف المشكلة من الحدوث. ومع ذلك ، بالنظر إلى التعليقات الواردة في هذا الموضوع ، لست متأكدًا تمامًا من إصلاح المشكلة ...

soumith ألا تعتقد أنه يجب على المساهمين في Pytorch النظر في هذه المشكلة بدلاً من إغلاقها فقط؟ يبدو أن Pytorch تشدد على GPU / CPU بطريقة لا تفعلها اختبارات إجهاد GPU / CPU. هذا ليس سلوكًا متوقعًا ، والمشكلة تؤثر على كثير من الناس. يبدو أنها قضية مثيرة للاهتمام أيضًا!

Caselles هل تشير إلى إصدار BIOS 1001؟ لقد رأيته منذ بعض الوقت على موقع ASUS الإلكتروني ولكن يبدو أنه قد تم إزالته بطريقة ما.

BIOS الذي قمت بتثبيته هو هذا: "WS X299 SAGE Formal BIOS 0905 Release" .

من واقع خبرتي ، تأتي هذه المشكلة مع وحدات PSU مختلفة من Thermaltake. في الحالة الأخيرة ، أدى تغيير PSU من Thermaltake platinum 1500W إلى Corsair HX1200 إلى حل المشكلة في إعداد 2-2080Ti.

لدي هذه المشكلة مع كل من وحدة المعالجة المركزية ووحدة معالجة الرسومات ، مما يعني أن إعادة التشغيل تحدث حتى عندما أقوم بإلغاء تثبيت وحدة معالجة الرسومات فعليًا وتدريب الشبكة فقط على وحدة المعالجة المركزية دون استخدام أداة تحميل البيانات

مزود الطاقة الخاص بي هو مصدر طاقة ذهبي EVGA 850w ، ووحدة المعالجة المركزية: i7-8700k ، GPU: GTX 1080ti (قطعة واحدة فقط)

ولدي مفتاح ECO على مصدر الطاقة الخاص بي ، إذا قمت بتشغيله على "تشغيل" ، فإنه يحدث في كثير من الأحيان.

تمامًا مثل ما قاله الآخرون ، يمر اختبار الضغط على كل من وحدة المعالجة المركزية ووحدة معالجة الرسومات.

إذن ، استنتاج هنا:

  1. ستحدث إعادة التشغيل حتى مع التدريب على وحدة المعالجة المركزية فقط ، حتى بعد أن أزلت وحدة معالجة الرسومات فعليًا.
  2. قم بتشغيل مفتاح ECO على PSU مما يؤدي إلى إعادة التشغيل في كثير من الأحيان.
  3. I7-8700k + GTX 1080ti على مصدر طاقة 850 واط.
  4. يظهر فقط أثناء استخدام Pytorch حتى بدون Dataloader

إذا كان بإمكاني إضافة المزيد من المعلومات حول تعليق رائع على vwvolodya. كان تكوين اللوحة الأم / وحدة المعالجة المركزية لدينا هو ASUS TUF X299 MARK 2 مع i9-7920x. كان إصدار Bios في 1401. الشيء الوحيد الذي يمكن أن يمنع النظام من إعادة التشغيل / إيقاف التشغيل هو إيقاف: وضع Turbo.
في الوقت الحالي ، بعد التحديث إلى 1503 ، يبدو أن المشكلة قد تم حلها مع تنشيط وضع Turbo.
يملك الرجال يوم عظيم !

yaynouchevwvolodya حدثت مشكلات مماثلة على ASUS WS-X299 SAGE مع i9-9920X. يعد إيقاف تشغيل Turbo Mode هو الحل الوحيد الآن ، مع أحدث BIOS (الإصدار 0905 الذي يدعم i9-9920X رسميًا).

تحديث: اتضح ، يجب أن أقوم بتمكين وضع turbo في BIOS واستخدام أوامر مثل echo "1" > /sys/devices/system/cpu/intel_pstate/no_turbo كما في # 3022 (تعليق) لتعطيل turbo عبر البرنامج . إذا قمت بتعطيل وضع turbo في BIOS ، فسيستمر تشغيل الجهاز.

تحديث 2: أعتقد أن إيقاف تشغيل وضع Turbo لن يؤدي إلا إلى تقليل فرصة مشكلتي ، وليس القضاء عليها.

تفاصيل أجهزتي:

Motherboard: Asus WS X299 SAGE/10G 
CPU: Intel Core i9-9900X
GPU: Geforce RTX2080 TI - 11GB (4 of them)
Power supply: Masterwatt Maker - 1500Watts

إصدار السير: 0905. ثم تم التحديث إلى 1201.
تم تمكين Turbo من BIOS ثم ضبط 1 in / sys / devices / system / cpu / intel_pstate / no_turbo
حاولت مجموعات أخرى.

تم الاختبار باستخدام https://github.com/wilicc/gpu-burn. جميع gpus على ما يرام.

عندما أقوم بتدريب maskrcnn_resnet50_fpn على مجموعة بيانات coco باستخدام 4 وحدات معالجة رسومات بحجم الدُفعة 4 ، يتم إعادة تشغيل النظام على الفور. ولكن ، عندما أستخدم 3 وحدات معالجة رسومات مع حجم الدُفعة 4 أو 4 وحدات معالجة رسومات بحجم الدُفعة 2 ، فهذا هو التدريب.

ماذا قد يكون السبب؟ مزود الطاقة؟
أنا أموت من أجل الحل. أنا أقدر تعليقاتك.
شكرا لك مقدما
الزلفي

لدي أيضًا هذه المشكلة باستخدام 4 x Geforce RTX2080 TI - 11 جيجا بايت و 1600 واط EVGA SuperNOVA Platinum PSU (حاولت أيضًا تبديل PSU مع 1600W SuperNOVA EVGA Gold PSU) ولا تزال المشكلة تحدث عند استخدام PyTorch مع 4 وحدات معالجة الرسومات.

من تجربتي ، تحدث إعادة التشغيل غالبًا عندما لا يتم تثبيت وتشغيل nvidia-persistenced.
الرابط: https://docs.nvidia.com/deploy/driver-persistance/index.html

يعد تحديث Bios أيضًا جزءًا مهمًا من الحل. آمل أن يساعد.

مع أطيب التحيات،

ياسين

gurkirt ما هي مواصفات النظام الأخرى الخاصة بك؟

لدي أيضًا 4 x RTX 2080tis و قرصان 1600i psu لكن جهاز الكمبيوتر الخاص بي لا يزال مغلقًا بعد فترة عند استخدام جميع وحدات gpus الأربعة.

مرحبًا ، لمعلوماتك فقط ، كنت أواجه هذه المشكلة على أجهزة متعددة (كل X299 مع عدة 2080Tis) ، وبعد تجربة 4 وحدات PSU مختلفة ، فإن Corsair AX1600I هو الوحيد الذي لم أواجه عمليات إعادة تمهيد.

لدي نفس المشكلة.
تكوين الجهاز - Lenovo y540 ، و RTX 2060 ، و Ubuntu 18.04. حاولت تدريب نموذج بسيط لتصنيف الصور الثنائية (4 طبقات تحويل مع دفعة عادية). تم تدريب النموذج لمدة 20 حقبة (حجم الدُفعة = 8) ثم تم إيقاف تشغيل الكمبيوتر المحمول الخاص بي.

ناتج nvidia-smi :

| NVIDIA-SMI 430.50       Driver Version: 430.50       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 2060    Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   47C    P8     3W /  N/A |     10MiB /  5934MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

فيما يلي ملف السجل قبل تعطل النظام على ما أعتقد. لقد وجدته في - cat /var/log/kern.log .

Mar 10 17:05:01 maverick kernel: [    9.279289] audit: type=1400 audit(1583840101.525:10): apparmor="STATUS" operation="profile_load" profile="unconfined" name="/usr/lib/snapd/snap-confine//mount-namespace-capture-helper" pid=837 comm="apparmor_parser"
Mar 10 17:05:01 maverick kernel: [    9.280042] audit: type=1400 audit(1583840101.529:11): apparmor="STATUS" operation="profile_load" profile="unconfined" name="/sbin/dhclient" pid=828 comm="apparmor_parser"
Mar 10 17:05:01 maverick kernel: [    9.325087] intel_rapl_common: Found RAPL domain package
Mar 10 17:05:01 maverick kernel: [    9.325092] intel_rapl_common: Found RAPL domain core
Mar 10 17:05:01 maverick kernel: [    9.325096] intel_rapl_common: Found RAPL domain uncore
Mar 10 17:05:01 maverick kernel: [    9.325100] intel_rapl_common: Found RAPL domain dram
Mar 10 17:05:01 maverick kernel: [    9.355748] input: HDA Intel PCH Mic as /devices/pci0000:00/0000:00:1f.3/sound/card0/input13
Mar 10 17:05:01 maverick kernel: [    9.355987] input: HDA Intel PCH Headphone as /devices/pci0000:00/0000:00:1f.3/sound/card0/input14
Mar 10 17:05:01 maverick kernel: [    9.356199] input: HDA Intel PCH HDMI/DP,pcm=3 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input15
Mar 10 17:05:01 maverick kernel: [    9.356895] input: HDA Intel PCH HDMI/DP,pcm=7 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input16
Mar 10 17:05:01 maverick kernel: [    9.357074] input: HDA Intel PCH HDMI/DP,pcm=8 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input17
Mar 10 17:05:01 maverick kernel: [    9.357296] input: HDA Intel PCH HDMI/DP,pcm=9 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input18
Mar 10 17:05:01 maverick kernel: [    9.357497] input: HDA Intel PCH HDMI/DP,pcm=10 as /devices/pci0000:00/0000:00:1f.3/sound/card0/input19
Mar 10 17:05:01 maverick kernel: [    9.432866] dw-apb-uart.2: ttyS4 at MMIO 0x8f802000 (irq = 20, base_baud = 115200) is a 16550A
Mar 10 17:05:01 maverick kernel: [    9.434397] iwlwifi 0000:00:14.3 wlp0s20f3: renamed from wlan0
Mar 10 17:05:01 maverick kernel: [    9.445610] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms  430.50  Thu Sep  5 22:39:50 CDT 2019
Mar 10 17:05:01 maverick kernel: [    9.575171] nvidia-uvm: Loaded the UVM driver in 8 mode, major device number 234
Mar 10 17:05:01 maverick kernel: [    9.623512] Bluetooth: BNEP (Ethernet Emulation) ver 1.3
Mar 10 17:05:01 maverick kernel: [    9.623516] Bluetooth: BNEP filters: protocol multicast
Mar 10 17:05:01 maverick kernel: [    9.623525] Bluetooth: BNEP socket layer initialized
Mar 10 17:05:01 maverick kernel: [    9.664785] input: MSFT0001:01 06CB:CD5F Touchpad as /devices/pci0000:00/0000:00:15.1/i2c_designware.1/i2c-2/i2c-MSFT0001:01/0018:06CB:CD5F.0003/input/input24
Mar 10 17:05:01 maverick kernel: [    9.665154] hid-multitouch 0018:06CB:CD5F.0003: input,hidraw2: I2C HID v1.00 Mouse [MSFT0001:01 06CB:CD5F] on i2c-MSFT0001:01
Mar 10 17:05:01 maverick kernel: [    9.669632] input: HDA NVidia HDMI/DP,pcm=3 as /devices/pci0000:00/0000:00:01.0/0000:01:00.1/sound/card1/input20
Mar 10 17:05:01 maverick kernel: [    9.669880] input: HDA NVidia HDMI/DP,pcm=7 as /devices/pci0000:00/0000:00:01.0/0000:01:00.1/sound/card1/input21
Mar 10 17:05:01 maverick kernel: [    9.669932] input: HDA NVidia HDMI/DP,pcm=8 as /devices/pci0000:00/0000:00:01.0/0000:01:00.1/sound/card1/input22
Mar 10 17:05:02 maverick kernel: [    9.767641] ACPI Warning: \_SB.PCI0.PEG0.PEGP._DSM: Argument #4 type mismatch - Found [Buffer], ACPI requires [Package] (20190703/nsarguments-66)
Mar 10 17:05:02 maverick kernel: [   10.035982] Generic Realtek PHY r8169-700:00: attached PHY driver [Generic Realtek PHY] (mii_bus:phy_addr=r8169-700:00, irq=IGNORE)
Mar 10 17:05:02 maverick kernel: [   10.149333] r8169 0000:07:00.0 enp7s0: Link is Down
Mar 10 17:05:02 maverick kernel: [   10.179246] iwlwifi 0000:00:14.3: Applying debug destination EXTERNAL_DRAM
Mar 10 17:05:02 maverick kernel: [   10.296096] iwlwifi 0000:00:14.3: Applying debug destination EXTERNAL_DRAM
Mar 10 17:05:02 maverick kernel: [   10.361833] iwlwifi 0000:00:14.3: FW already configured (0) - re-configuring
Mar 10 17:05:02 maverick kernel: [   10.374304] iwlwifi 0000:00:14.3: BIOS contains WGDS but no WRDS
Mar 10 17:05:02 maverick kernel: [   10.378535] Bluetooth: hci0: Waiting for firmware download to complete
Mar 10 17:05:02 maverick kernel: [   10.379322] Bluetooth: hci0: Firmware loaded in 1598306 usecs
Mar 10 17:05:02 maverick kernel: [   10.379451] Bluetooth: hci0: Waiting for device to boot
Mar 10 17:05:02 maverick kernel: [   10.392359] Bluetooth: hci0: Device booted in 12671 usecs
Mar 10 17:05:02 maverick kernel: [   10.395240] Bluetooth: hci0: Found Intel DDC parameters: intel/ibt-17-16-1.ddc
Mar 10 17:05:02 maverick kernel: [   10.398388] Bluetooth: hci0: Applying Intel DDC parameters completed
Mar 10 17:05:03 maverick kernel: [   11.148057] nvidia-uvm: Unloaded the UVM driver in 8 mode
Mar 10 17:05:03 maverick kernel: [   11.171826] nvidia-modeset: Unloading
Mar 10 17:05:03 maverick kernel: [   11.219065] nvidia-nvlink: Unregistered the Nvlink Core, major device number 237
Mar 10 17:05:04 maverick kernel: [   12.125832] nvidia-nvlink: Nvlink Core is being initialized, major device number 237
Mar 10 17:05:04 maverick kernel: [   12.127484] nvidia 0000:01:00.0: vgaarb: changed VGA decodes: olddecodes=none,decodes=none:owns=none
Mar 10 17:05:04 maverick kernel: [   12.175644] NVRM: loading NVIDIA UNIX x86_64 Kernel Module  430.50  Thu Sep  5 22:36:31 CDT 2019
Mar 10 17:05:05 maverick kernel: [   13.205291] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms  430.50  Thu Sep  5 22:39:50 CDT 2019
Mar 10 17:05:05 maverick kernel: [   13.250663] nvidia-uvm: Loaded the UVM driver in 8 mode, major device number 234
Mar 10 17:05:06 maverick kernel: [   13.986003] wlp0s20f3: authenticate with 58:c1:7a:1b:bd:d0
Mar 10 17:05:06 maverick kernel: [   13.994385] wlp0s20f3: send auth to 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:05:06 maverick kernel: [   14.047103] iwlwifi 0000:00:14.3: Unhandled alg: 0x707
Mar 10 17:05:06 maverick kernel: [   14.063692] wlp0s20f3: authenticated
Mar 10 17:05:06 maverick kernel: [   14.068040] wlp0s20f3: associate with 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:05:06 maverick kernel: [   14.097924] wlp0s20f3: RX AssocResp from 58:c1:7a:1b:bd:d0 (capab=0x431 status=0 aid=4)
Mar 10 17:05:06 maverick kernel: [   14.143288] iwlwifi 0000:00:14.3: Unhandled alg: 0x707
Mar 10 17:05:06 maverick kernel: [   14.177499] wlp0s20f3: associated
Mar 10 17:05:06 maverick kernel: [   14.296025] IPv6: ADDRCONF(NETDEV_CHANGE): wlp0s20f3: link becomes ready
Mar 10 17:05:08 maverick kernel: [   16.376337] bpfilter: Loaded bpfilter_umh pid 1511
Mar 10 17:05:18 maverick kernel: [   26.325876] Bluetooth: RFCOMM TTY layer initialized
Mar 10 17:05:18 maverick kernel: [   26.325884] Bluetooth: RFCOMM socket layer initialized
Mar 10 17:05:18 maverick kernel: [   26.325892] Bluetooth: RFCOMM ver 1.11
Mar 10 17:05:19 maverick kernel: [   27.169380] rfkill: input handler disabled
Mar 10 17:08:10 maverick kernel: [  198.039283] ucsi_ccg 0-0008: failed to reset PPM!
Mar 10 17:08:10 maverick kernel: [  198.039292] ucsi_ccg 0-0008: PPM init failed (-110)
Mar 10 17:10:11 maverick kernel: [  319.690728] mce: CPU11: Core temperature above threshold, cpu clock throttled (total events = 75)
Mar 10 17:10:11 maverick kernel: [  319.690729] mce: CPU5: Core temperature above threshold, cpu clock throttled (total events = 75)
Mar 10 17:10:11 maverick kernel: [  319.690730] mce: CPU11: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690730] mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690772] mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690773] mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690774] mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690775] mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690776] mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690777] mce: CPU9: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690778] mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690779] mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690780] mce: CPU10: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.690781] mce: CPU8: Package temperature above threshold, cpu clock throttled (total events = 290)
Mar 10 17:10:11 maverick kernel: [  319.691710] mce: CPU5: Core temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691713] mce: CPU11: Core temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691716] mce: CPU11: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691717] mce: CPU5: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691777] mce: CPU0: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691781] mce: CPU7: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691783] mce: CPU6: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691787] mce: CPU2: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691790] mce: CPU1: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691793] mce: CPU8: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691798] mce: CPU10: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691800] mce: CPU4: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691804] mce: CPU3: Package temperature/speed normal
Mar 10 17:10:11 maverick kernel: [  319.691807] mce: CPU9: Package temperature/speed normal
Mar 10 17:13:35 maverick kernel: [  523.048575] wlp0s20f3: authenticate with 58:c1:7a:1b:bd:d0
Mar 10 17:13:35 maverick kernel: [  523.055288] wlp0s20f3: send auth to 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:13:35 maverick kernel: [  523.097819] wlp0s20f3: authenticated
Mar 10 17:13:35 maverick kernel: [  523.099819] wlp0s20f3: associate with 58:c1:7a:1b:bd:d0 (try 1/3)
Mar 10 17:13:35 maverick kernel: [  523.107873] wlp0s20f3: RX AssocResp from 58:c1:7a:1b:bd:d0 (capab=0x431 status=0 aid=1)
Mar 10 17:13:35 maverick kernel: [  523.109523] iwlwifi 0000:00:14.3: Unhandled alg: 0x707
Mar 10 17:13:35 maverick kernel: [  523.110798] wlp0s20f3: associated
Mar 10 17:13:35 maverick kernel: [  523.119975] IPv6: ADDRCONF(NETDEV_CHANGE): wlp0s20f3: link becomes ready

كيف يمكنني منع هذا من الحدوث مرة أخرى أي. توقف عن تدريب pytorch ولا تحطم نظامي؟

@ theairbend3r لست متأكدًا مما إذا كنت تواجه نفس المشكلة التي تواجهها هنا. كما أفهمها ، عند بدء التدريب باستخدام الشعلة ، تتزايد وحدات معالجة الرسومات ووحدة المعالجة المركزية (CPU) بسرعة كبيرة بحيث يمكنها تجاوز سحب الطاقة العادي وتحفيز الحماية من الحمل الزائد على PSU. كنت دائمًا أعاني من هذا قبل انتهاء الحقبة الأولى.

آسف ليس لدي المزيد من الاقتراحات المفيدة لك.

عدة حلول ممكنة: (لست متأكدًا مما إذا كان بإمكان أي شخص حل المشكلة بشكل مستقل)

  • إصدار BIOS: لقد اتبعت المناقشة أعلاه لتحديث إصدار BIOS الخاص بي من 3501 إلى 4001 (Asus X99-E WS / USB3.1) ، تم حل المشكلة.
  • إعداد مروحة Nvidia GPU: لقد غيرت سرعة مروحة وحدة معالجة الرسومات لتقليل مخاطر درجات الحرارة المرتفعة التي قد تتسبب في حدوث إغلاق / إعادة تشغيل طارئ.
  • قم بتخفيض num_worker من 12 إلى 4 (الحد الأقصى #core على خادمي هو 12).
  • قوة غير كافية لمزود الطاقة.

يبدو أنه حتى مصدر الطاقة "البلاتيني" 1200 واط لا يكفي فقط 2X 1080Ti ، فإنه يعيد التشغيل من وقت لآخر.

واجهت هذه المشكلة مع 2x 2080ti على أجهزة كمبيوتر متعددة مع platiunum 1000W و 1200W. عملت بشكل جيد عند استخدام 1 GPU فقط ، ولكن ليس 2. تم حلها عن طريق ترقية PSU إلى 1600W.

واجهت نفس المشكلة مع 2080 Ti على 750W G2 Gold PSU. تم حلها بعد تغيير PSU إلى 1600W P2.

يحدث oot غالبًا عندما لا يتم تثبيت وتشغيل nvidia-persistenced.
الرابط: https://docs.nvidia.com/deploy/driver-persistance/in

لقد نجحت ، عندما استخدمت nvidia-المستمر. ولكن سيتم إعادة تشغيل الكمبيوتر بعد فترة.

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات