مرحبًا ، لدي بعض الأسئلة المتعلقة بنشر النماذج المدربة على MIMIC-III ، إذا كان بإمكانك إخباري بما هو مسموح به:
من الصعب إعطاء إجابات محددة لأنها تعتمد على السياق المحدد ، ولكن بشكل عام:
- قم بتدريب نموذج word2vec واجعل أزواج الكلمات المتجهية متاحة للجمهور (أفهم أن نموذج النص السريع المدرب مسبقًا متاح ، ولكن تم إجراء القليل جدًا من المعالجة المسبقة وحفلات الزفاف كانت فوضوية بعض الشيء)؟
يعتمد ذلك على المعالجة المسبقة ، حيث قد تحتوي على مفردات حساسة.
- تدريب نموذج CUI2Vec (سيكون CUI هو معرف المرض من UMLS / SNOMED) وجعله عامًا؟ لن يحتوي هذا النموذج على أي نص / كلمات موجودة في MIMIC-III.
ربما يكون هذا على ما يرام.
- قم بتدريب نموذج BERT على MIMIC-III وجعله عامًا؟
تم إجراء ذلك في الماضي عندما لم يتم إعادة تدريب تشفير زوج البايت على MIMIC. في حالة إعادة التدريب ودمج المفردات ، مرة أخرى ، يلزم إجراء بعض التدقيق فيما يتعلق بملاحظات حفظ النموذج.
مرحبًا alistairewj ، شكرًا لك على الإجابة التي كانت مفيدة حقًا. شيء واحد فقط بخصوص نموذج word2vec:
الباقي واضح تماما ، شكرا.
مرحبًا alistairewj ، شكرًا لك على الإجابة التي كانت مفيدة حقًا. شيء واحد فقط بخصوص نموذج word2vec:
- يبدو أن المشكلة الرئيسية تكمن في المفردات ، لذا إذا كنت سأستخدم مثلاً نموذج word2vec تم تدريبه على ويكيبيديا (vocab مبنية على ويكيبيديا) ثم ضبطته على MIMIC ، أفترض أن هذا سيكون جيدًا؟ كل الكلمات في المفردات ، في هذه الحالة ، ستكون مأخوذة من ويكيبيديا ولا أرى طريقة لإعادة إنتاج الملاحظات مع إعطاء الزخارف المتجهية فقط.
نعم ، أوافق ، سيكون على ما يرام!
نقطة واحدة يجب إضافتها هي أننا نشجع مشاركة النماذج الحساسة على PhysioNet. يوجد نوع بيانات "نموذج" يمكن تحديده أثناء الإرسال: https://physionet.org/about/publish/#guidelines
على سبيل المثال ، راجع المشروع التالي:
_Amin-Nejad، A.، Ive، J.، & Velupillai، S. (2020). تم تدريب نماذج المحولات على MIMIC-III لإنشاء ملاحظات المريض الاصطناعية (الإصدار 1.0.0). شبكة PhysioNet. https://doi.org/10.13026/m34x-fq90._