Bonjour, j'ai quelques questions concernant la publication de modèles entraînés sur MIMIC-III, si vous pouvez me faire savoir ce qui est autorisé :
Il est difficile de donner des réponses concrètes car cela dépend du contexte exact, mais en général :
- Entraîner un modèle word2vec et rendre les paires de mots vecteurs disponibles publiquement (je comprends qu'un modèle fasttext pré-entraîné est disponible, mais très peu de pré-traitement a été effectué et les intégrations sont un peu désordonnées) ?
Cela dépend du prétraitement, car celui-ci peut contenir du vocabulaire sensible.
- Former un modèle CUI2Vec (CUI serait l'identifiant de la maladie de l'UMLS/SNOMED) et le rendre public ? Ce modèle ne contiendrait aucun texte/mot trouvé dans MIMIC-III.
Ce serait probablement bien.
- Former un modèle de type BERT sur MIMIC-III et le rendre public ?
Cela a été fait dans le passé lorsque le codage de paires d'octets n'était pas recyclé sur MIMIC. En cas de recyclage et d'incorporation du vocabulaire, encore une fois, une vérification est nécessaire en ce qui concerne les notes de mémorisation du modèle.
Salut @alistairewj , merci pour la réponse qui m'a été très utile. Juste une dernière chose concernant le modèle word2vec :
Le reste est parfaitement clair, merci.
Salut @alistairewj , merci pour la réponse qui m'a été très utile. Juste une dernière chose concernant le modèle word2vec :
- Il semble que le problème principal soit le vocabulaire, donc si je devais utiliser par exemple un modèle word2vec formé sur Wikipedia (vocab construit sur Wikipedia) et le peaufiner sur MIMIC, je suppose que ce serait bien ? Tous les mots du vocabulaire, dans ce cas, proviendraient de Wikipédia et je ne vois pas de moyen de reproduire des notes à partir de plongements vectoriels uniquement.
Oui, je suis d'accord, ce serait bien !
Un point à ajouter est que nous encourageons le partage de modèles sensibles sur PhysioNet. Il existe un type de données « modèle » qui peut être sélectionné lors de la soumission : https://physionet.org/about/publish/#guidelines
Par exemple, voir le projet suivant :
_Amin-Nejad, A., Ive, J., & Velupillai, S. (2020). Modèles de transformateur entraînés sur MIMIC-III pour générer des notes synthétiques sur les patients (version 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._