Mimic-code: مخاوف الخصوصية المتعلقة بالنماذج المدربة على MIMIC-III

تم إنشاؤها على ٢٨ نوفمبر ٢٠٢٠ · 4تعليقات · مصدر: MIT-LCP/mimic-code

المتطلبات الأساسية

[X] ضع علامة X بين قوسين على هذا السطر إذا كنت قد فعلت كل ما يلي:
- تحقق من الوثائق عبر الإنترنت: https://mimic.physionet.org/about/mimic/
- تم التحقق من أن مشكلتك لم تتم معالجتها بالفعل: https://github.com/MIT-LCP/mimic-code/issues؟utf8=٪E2٪9C٪93&q=

وصف

مرحبًا ، لدي بعض الأسئلة المتعلقة بنشر النماذج المدربة على MIMIC-III ، إذا كان بإمكانك إخباري بما هو مسموح به:

قم بتدريب نموذج word2vec واجعل أزواج الكلمات المتجهية متاحة للجمهور (أفهم أن نموذج النص السريع المدرب مسبقًا متاح ، ولكن تم إجراء القليل جدًا من المعالجة المسبقة وحفلات الزفاف كانت فوضوية بعض الشيء)؟
تدريب نموذج CUI2Vec (سيكون CUI هو معرف المرض من UMLS / SNOMED) وجعله عامًا؟ لن يحتوي هذا النموذج على أي نص / كلمات موجودة في MIMIC-III.
قم بتدريب نموذج BERT على MIMIC-III وجعله عامًا؟

مصدر

w-is-h

ال 4 كومينتر

من الصعب إعطاء إجابات محددة لأنها تعتمد على السياق المحدد ، ولكن بشكل عام:

إذا كان النموذج سيستخدم الملاحظات ، ولديه القدرة على إعادة إنتاج الملاحظات حرفياً (أو حفظها في الداخل) ، فإننا نعتبرها حساسة ونطلب مشاركة النموذج على PhysioNet تحت نفس قيود MIMIC . سيتمكن أي شخص لديه وصول إلى MIMIC من الوصول إلى النموذج أيضًا.
يمكن مشاركة نموذج عالي المستوى تم تدريبه باستخدام البيانات المنظمة فقط بشكل عام. أقول "مستوى عالٍ بشكل معقول" كما يمكنك أن تتخيل نموذجًا من نوع KNN يحتوي على مجموعة البيانات بأكملها. من الواضح أن مشاركة هذا النموذج ينتهك DUA. يوجد طيف هنا ونوصي بالسؤال عما إذا كنت غير متأكد.

قم بتدريب نموذج word2vec واجعل أزواج الكلمات المتجهية متاحة للجمهور (أفهم أن نموذج النص السريع المدرب مسبقًا متاح ، ولكن تم إجراء القليل جدًا من المعالجة المسبقة وحفلات الزفاف كانت فوضوية بعض الشيء)؟

يعتمد ذلك على المعالجة المسبقة ، حيث قد تحتوي على مفردات حساسة.

تدريب نموذج CUI2Vec (سيكون CUI هو معرف المرض من UMLS / SNOMED) وجعله عامًا؟ لن يحتوي هذا النموذج على أي نص / كلمات موجودة في MIMIC-III.

ربما يكون هذا على ما يرام.

قم بتدريب نموذج BERT على MIMIC-III وجعله عامًا؟

تم إجراء ذلك في الماضي عندما لم يتم إعادة تدريب تشفير زوج البايت على MIMIC. في حالة إعادة التدريب ودمج المفردات ، مرة أخرى ، يلزم إجراء بعض التدقيق فيما يتعلق بملاحظات حفظ النموذج.

alistairewj في ١ ديسمبر ٢٠٢٠

مرحبًا alistairewj ، شكرًا لك على الإجابة التي كانت مفيدة حقًا. شيء واحد فقط بخصوص نموذج word2vec:

يبدو أن المشكلة الرئيسية تكمن في المفردات ، لذا إذا كنت سأستخدم مثلاً نموذج word2vec تم تدريبه على ويكيبيديا (vocab مبنية على ويكيبيديا) ثم ضبطته على MIMIC ، أفترض أن هذا سيكون جيدًا؟ كل الكلمات في المفردات ، في هذه الحالة ، ستكون مأخوذة من ويكيبيديا ولا أرى طريقة لإعادة إنتاج الملاحظات مع إعطاء الزخارف المتجهية فقط.

الباقي واضح تماما ، شكرا.

w-is-h في ١ ديسمبر ٢٠٢٠

👍1

مرحبًا alistairewj ، شكرًا لك على الإجابة التي كانت مفيدة حقًا. شيء واحد فقط بخصوص نموذج word2vec:
يبدو أن المشكلة الرئيسية تكمن في المفردات ، لذا إذا كنت سأستخدم مثلاً نموذج word2vec تم تدريبه على ويكيبيديا (vocab مبنية على ويكيبيديا) ثم ضبطته على MIMIC ، أفترض أن هذا سيكون جيدًا؟ كل الكلمات في المفردات ، في هذه الحالة ، ستكون مأخوذة من ويكيبيديا ولا أرى طريقة لإعادة إنتاج الملاحظات مع إعطاء الزخارف المتجهية فقط.

نعم ، أوافق ، سيكون على ما يرام!

alistairewj في ١ ديسمبر ٢٠٢٠

👍1

نقطة واحدة يجب إضافتها هي أننا نشجع مشاركة النماذج الحساسة على PhysioNet. يوجد نوع بيانات "نموذج" يمكن تحديده أثناء الإرسال: https://physionet.org/about/publish/#guidelines

على سبيل المثال ، راجع المشروع التالي:

_Amin-Nejad، A.، Ive، J.، & Velupillai، S. (2020). تم تدريب نماذج المحولات على MIMIC-III لإنشاء ملاحظات المريض الاصطناعية (الإصدار 1.0.0). شبكة PhysioNet. https://doi.org/10.13026/m34x-fq90._