Mimic-code: تثبيت MIMIC-III في قاعدة بيانات Postgres المحلية بطيء

تم إنشاؤها على ٢٨ فبراير ٢٠١٧  ·  22تعليقات  ·  مصدر: MIT-LCP/mimic-code

أهلا !

أحاول تحميل بيانات MIMIC-III في قاعدة بيانات postgres محلية باتباع الإرشادات من هذا الرابط: https://mimic.physionet.org/tutorials/install-mimic-locally-ubuntu/

حتى الآن على الرغم من تركها بين عشية وضحاها ، فإنها معلقة باستمرار في هذه المرحلة:

$ psql -f postgres_load_data.sql -U mimic -v mimic_data_dir = '/ Documents / MIMIC_III /'
تعيين

نسخة 58976

نسخة 34499

نسخة 7567

إليك تكوين جهازي:
MacBook Air (13 بوصة ، أوائل 2014)
المعالج: 1.7 جيجا هرتز انتل كور i7
الذاكرة: 8 جيجا 1600 ميجاهرتز DDR3

كم من الوقت يجب أن يستغرق تحميل هذه البيانات على جهاز مع تهيئتي مبدئيًا؟ يذكر موقع الويب أن الأمر قد يستغرق عدة ساعات ، لكنني لم أجد أي معلومات قياس مرجعية صريحة.

هل يجب أن أحاول تحميل هذا المثيل المحلي باستخدام جهاز يتوفر به المزيد من ذاكرة الوصول العشوائي؟

إنني أتطلع إلى توجيهاتك في هذا الشأن. شكرا!

التعليق الأكثر فائدة

أنا أعمل على macOS Sierra على iMAC و Postgres 10. جديدًا إلى حد ما. ما أصلح البطء الشديد بالنسبة لي هو استخدام البرنامج النصي "postgres_create_tables_pg10.sql" لإنشاء الجداول بدلاً من البرنامج النصي postgres_create_tables.sql . منذ أن كنت أستخدم Makefile لبناء كل شيء ، قمت بتحرير الأسطر 75 و 115 في Makefile ، واستبدلت "postgres_create_tables_pg10.sql" بـ " postgres_create_tables.sql . ثم تم تشغيل برنامج التحميل الخاص بي في حوالي ساعتين!

ال 22 كومينتر

Mac OS - Sierra ، الإصدار 10.12.3

الإصدار MIMIC-III 1.4.0

يتم تحميل الجداول القليلة الأولى ، لذا فأنت تسير في الاتجاه الصحيح. قد يستغرق تحميل MIMIC بعض الوقت ، لا سيما جدول أحداث المخطط ، وهو النقطة التي ستصل إليها. هل أنت متأكد من أن لديك مساحة قرص كافية على جهاز Macbook Air؟ ستحتاج إلى حوالي 90 جيجابايت من المساحة الخالية لقاعدة البيانات.

نشكرك على إخباري أنني سأحتاج إلى توفير مساحة خالية تبلغ 90 جيجابايت لقاعدة البيانات. لدي 389 غيغابايت متوفرة ، لذا فإن المساحة ليست مشكلة.

عندما كنت تقوم بتحميله ، هل يمكن أن تخبرني من فضلك بتكوين جهازك وكم من الوقت استغرق تحميل MIMIC في postgres؟

لقد قمت بتحميله على عدة أجهزة مختلفة ، ولكن أقرب نظام لك هو معالج Intel Core i5 من Macbook Pro بسرعة 2.9 جيجاهرتز مع ذاكرة وصول عشوائي سعتها 16 جيجابايت وقرص صلب بسعة 1 تيرابايت. لا أتذكر بالضبط المدة التي يستغرقها البناء ، ولكن عادة ما تكون كافية بين عشية وضحاها.

نظرًا لأن نظامك منخفض المواصفات ، فقد تحتاج إلى تركه لفترة أطول قليلاً. بدلاً من ذلك ، حاول البناء على جهاز أعلى المواصفات أو إذا كنت تبحث فقط عن استكشاف البيانات ، فراجع أداة إنشاء استعلام MIMIC: https://mimic.physionet.org/gettingstarted/querybuilder/

مرحبًا Krupa ، نظرًا لأنك قمت بنشر السؤال على https://github.com/MIT-LCP/mimic-code/issues/182 ، أفترض أن هذه المشكلة قد تم حلها الآن.

فقط للإضافة إلى ذلك ، لقد قمت للتو ببناء MIMIC مع Postgres في منتصف عام 2012 من MacBook Pro مع 8 جيجابايت من ذاكرة الوصول العشوائي.

image

كان أطول أمر منفرد هو إدخال البيانات في أحداث المخطط ، والتي تستغرق ما يقرب من 4 ساعات. أتخيل أن البناء بأكمله لم يستغرق أكثر من 6 ساعات تقريبًا (قمت بتشغيله بين عشية وضحاها). أوصي بشدة بتعطيل أي إسبات / سكون يقوم به جهاز الكمبيوتر الخاص بك تلقائيًا لأن ذلك قد يقطع البناء. بالنسبة لنظام التشغيل Mac OS X ، فإن تطبيق "caffeine" القابل للتثبيت عبر Homebrew مفيد حقًا لهذا الغرض.

شكرا جزيلا على مساعدتك دكتور بولارد و اليستيروج!

alistairewjtompollard ربما يكون شيئًا كهذا مفيدًا: (https://github.com/ossc-db/pg_bulkload)

لدي نفس المشكلة - تم تشغيل postgres_load_data.sql لمدة يومين على التوالي! يتم ملء الجداول حيث كان لدي نفس النسخة المطبوعة مثل postgres-newbie أعلاه. لقد راجعت أيضًا داخل pgadmin4 ، وأرجع تحديد الحد بضعة صفوف من جداول عمليات القبول ، ووسائل الشرح ، ومقدمي الرعاية ، ولكن لا شيء لجدول الأحداث أو المخططات البيانية_ {N}.

عندما أوقفته في المرة الأولى (بدأت ذلك مرة أخرى) ، كان حوالي 40 مليون صف بعد يوم واحد ، مما يعني أن الأمر سيستغرق أسبوعًا لتحميل كل شيء! هل لديك أي اقتراحات أخرى لتحميل ملف CSV هذا في postgres؟ بالنسبة لعملي اليومي ، أستخدم إطارات بيانات شرارة ، والتي يمكنها بسهولة تحميل 1 مليار + صف csv في df ، لذا فهذه مهمة مفاجئة بالنسبة لي! نقدر أي وكل المساعدة التي يمكنك تقديمها!

هل تقوم بتحميله عبر واجهة المستخدم الرسومية أو قذيفة postgres؟

في 5 كانون الأول (ديسمبر) 2017 الساعة 10:47 مساءً ، كتب "breajoker" [email protected] :

لدي نفس المشكلة - تم تشغيل postgres_load_data.sql من أجل
يومين متتاليين! يتم ملء الجداول كما كان لدي نفس الشيء
نسخة مطبوعة باسم postgres-newbie أعلاه. لقد تحققت أيضًا من داخل pgadmin4 و
يؤدي تحديد الحد إلى إرجاع صفوف قليلة من عمليات القبول ، ووسائل الشرح ، ومقدمي الرعاية
الجداول ، ولكن لا شيء للمخططات أو الجداول _ {N} الجداول.

عندما أوقفته في المرة الأولى (بدأت تشغيله مرة أخرى) كان في الجوار
40 مليون صف بعد يوم واحد ، مما يعني أن تحميل ملف
الشئ كله! هل لديك أي اقتراحات أخرى لتحميل ملف CSV هذا
postgres؟ بالنسبة لعملي اليومي ، أستخدم إطارات بيانات شرارة ، والتي يمكن تحميلها بسهولة 1
مليار + صف csv إلى df ، لذا فهذه مهمة مفاجئة تمامًا بالنسبة لي!
نقدر أي وكل المساعدة التي يمكنك تقديمها!

-
أنت تتلقى هذا لأنه تم ذكرك.
قم بالرد على هذا البريد الإلكتروني مباشرة ، وقم بعرضه على GitHub
https://github.com/MIT-LCP/mimic-code/issues/181#issuecomment-349523656 ،
أو كتم الخيط
https://github.com/notifications/unsubscribe-auth/ABOSdA7ulZzfdDrf3nU7uDqR9dp7tnDrks5s9g5ngaJpZM4MOwWg
.

سطر الأوامر عبر:
psql 'dbname=mimic user=rohunkshirsagar options=--search_path=mimiciii' -f postgres_load_data.sql -v mimic_data_dir='/Users/rohunkshirsagar/Documents/mimic-iii/data_files'

على غرار وضعي ، قمت بتحميل البيانات إلى postgresql على windows10 لأكثر من 72 ساعة ، ووجدت أحداث المخطط وجدول فرعي مليء بالبيانات (330712483 صفًا) ، لكنني وجدت أن العملية عالقة لمدة يوم ، والجداول بعد الجدول chartevents فارغة ، وتحقق من أن خادم postgresql لا يعمل (حمل وحدة المعالجة المركزية قريب من 0 ، قبل حوالي 33 ٪) ، لا أعرف كيف أفعل ، هل أوقفه الأمر الذي استغرق مني عدة مرات؟

هناك عدد غير قليل من الأشياء التي يمكنك القيام بها لتسريع عملية الاستيراد ، لكنني أتحقق أولاً من أن جهاز الكمبيوتر الخاص بك لا يعمل في وضع السبات أو شيء مشابه. يستغرق الأمر 4 ساعات فقط على جهاز الكمبيوتر المحمول الخاص بي ، والذي يبلغ عمره الآن حوالي 5 سنوات. يبلغ عمر جهاز الكمبيوتر الخاص بي الذي يعمل بنظام Windows حوالي 3 سنوات واستغرق وقتًا مماثلًا.

إذا كنت لا تزال تواجه مشكلات ، فهناك الكثير من الاقتراحات التي يمكنك تنفيذها هنا: https://stackoverflow.com/questions/12206600/how-to-speed-up-insertion-performance-in-postgresql

لقد استغرق الأمر أكثر من 24 ساعة لتحميل البيانات إلى postgresql على macbook pro 2016 i5-8G Ram ، وهي عملية إرسال واحدة مع مؤشر ترابط واحد قيد التشغيل.
أتبع البرنامج التعليمي https://mimic.physionet.org/tutorials/install-mimic-locally-ubuntu/ وقم بتثبيت caffiene ، لماذا يستغرق كل من Windows 10 و macbook pro الكثير من الوقت؟ أي تكوين ل postgresql؟

أقوم بتثبيت postgresql 9.6.6 على macbook pro و windows10 بالتكوين الافتراضي.

أنا بصراحة لا أعرف ماذا أقول ، بصرف النظر عن "حسنًا ، إنه يعمل معي!". يبدو جهاز الكمبيوتر الخاص بك أكثر من قادر على استيراد البيانات ، لذلك لا أعتقد أن المشكلة تتعلق بالبرامج النصية هنا أو تتعلق بشكل خاص بـ MIMIC-III.

لدي نفس المشكلة في جهاز macbook pro الخاص بي. لكنني قمت ببناء قاعدة البيانات في جهاز الكمبيوتر الخاص بي. وكان الحل هو نسخ قاعدة البيانات احتياطيًا واستعادتها في MBP ، باستخدام "pg_dump dababase -U username -f dbdump.sql" و "psql -U username -d database -f dbdump.sql" في cmd والمحطة الطرفية على التوالي.

أنا أعمل على macOS Sierra على iMAC و Postgres 10. جديدًا إلى حد ما. ما أصلح البطء الشديد بالنسبة لي هو استخدام البرنامج النصي "postgres_create_tables_pg10.sql" لإنشاء الجداول بدلاً من البرنامج النصي postgres_create_tables.sql . منذ أن كنت أستخدم Makefile لبناء كل شيء ، قمت بتحرير الأسطر 75 و 115 في Makefile ، واستبدلت "postgres_create_tables_pg10.sql" بـ " postgres_create_tables.sql . ثم تم تشغيل برنامج التحميل الخاص بي في حوالي ساعتين!

مثير للانتباه. الاختلاف الوحيد هو بناء جملة التقسيم التعريفي في ملف
البرنامج النصي pg10 (الصفحة 10 فقط) مقابل المشغل عند الإدراج في النص الأقدم.

في 22 كانون الأول (ديسمبر) 2017 الساعة 10:44 صباحًا ، كتب "sanfordbaran" [email protected] :

أنا أعمل على macOS Sierra على iMAC و Postgres 10. جديدين إلى حد ما. ماذا
إصلاح البطء الشديد بالنسبة لي كان استخدام
البرنامج النصي "postgres_create_tables_pg10.sql" لإنشاء الجداول بدلاً من
البرنامج النصي postgres_create_tables.sql. منذ أن كنت أستخدم Makefile لـ
بناء كل شيء ، قمت بتحرير الأسطر 75 و 115 في ملف Makefile ، مع استبدالها
'postgres_create_tables_pg10.sql' لـ 'postgres_create_tables.sql. لي
ثم ركض تحميل البرنامج النصي في حوالي 2 ساعة!

-
أنت تتلقى هذا لأنه تم ذكرك.
قم بالرد على هذا البريد الإلكتروني مباشرة ، وقم بعرضه على GitHub
https://github.com/MIT-LCP/mimic-code/issues/181#issuecomment-353622522 ،
أو كتم الخيط
https://github.com/notifications/unsubscribe-auth/ABOSdEdkcKo55kz9nAfzc_m-keM4HRwbks5tC85lgaJpZM4MOwWg
.

أردت فقط أن يزن.

استغرق تشغيل setup.sh 29 ساعة داخل حاوية Docker. أظن أن السبب وراء استغراق هذا الوقت الطويل هو أن البيانات تمت كتابتها على محرك أقراص صلبة (يستهلك 71 جيجا بايت مع المؤشرات). أيضًا ، حقيقة أنني لم أتمكن من جعل Docker يستخدم أكثر من نواة واحدة لوحدة المعالجة المركزية (على i7 4770k) عند تشغيل أوامر COPY من postgres (أو أي شيء آخر يتعلق بهذا الأمر).

انظر # 362 حيث نناقش هذا لأنه من المحتمل أن يكون مرتبطًا بتغيير حديث حول تقسيم أحداث المخطط.

ما زلنا نختبر سرعة التصميم على الرغم من أنه سيكون من الرائع الحصول على أوقاتك.

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات