Mimic-code: Problèmes de confidentialité concernant les modèles formés sur MIMIC-III

Créé le 28 nov. 2020  ·  4Commentaires  ·  Source: MIT-LCP/mimic-code

Conditions préalables

La description

Bonjour, j'ai quelques questions concernant la publication de modèles entraînés sur MIMIC-III, si vous pouvez me faire savoir ce qui est autorisé :

  • Entraîner un modèle word2vec et rendre les paires de mots vecteurs disponibles publiquement (je comprends qu'un modèle fasttext pré-entraîné est disponible, mais très peu de pré-traitement a été effectué et les intégrations sont un peu désordonnées) ?
  • Former un modèle CUI2Vec (CUI serait l'identifiant de la maladie de l'UMLS/SNOMED) et le rendre public ? Ce modèle ne contiendrait aucun texte/mot trouvé dans MIMIC-III.
  • Former un modèle de type BERT sur MIMIC-III et le rendre public ?

Tous les 4 commentaires

Il est difficile de donner des réponses concrètes car cela dépend du contexte exact, mais en général :

  • Si le modèle utilise des notes et a le potentiel de reproduire des notes textuelles (ou de les mémoriser à l'intérieur), nous le considérons comme sensible et demandons que le modèle soit partagé sur PhysioNet sous les mêmes restrictions que MIMIC . Toute personne ayant accès à MIMIC pourrait également accéder au modèle.
  • Un modèle de niveau raisonnablement élevé formé en utilisant uniquement les données structurées peut être partagé publiquement. Je dis "niveau raisonnablement élevé" car vous pouvez imaginer un modèle de type KNN qui contiendrait l'intégralité du jeu de données. Partager ce modèle violerait évidemment la DUA. Il y a un spectre ici et nous vous recommandons de demander si vous n'êtes pas sûr.
  • Entraîner un modèle word2vec et rendre les paires de mots vecteurs disponibles publiquement (je comprends qu'un modèle fasttext pré-entraîné est disponible, mais très peu de pré-traitement a été effectué et les intégrations sont un peu désordonnées) ?

Cela dépend du prétraitement, car celui-ci peut contenir du vocabulaire sensible.

  • Former un modèle CUI2Vec (CUI serait l'identifiant de la maladie de l'UMLS/SNOMED) et le rendre public ? Ce modèle ne contiendrait aucun texte/mot trouvé dans MIMIC-III.

Ce serait probablement bien.

  • Former un modèle de type BERT sur MIMIC-III et le rendre public ?

Cela a été fait dans le passé lorsque le codage de paires d'octets n'était pas recyclé sur MIMIC. En cas de recyclage et d'incorporation du vocabulaire, encore une fois, une vérification est nécessaire en ce qui concerne les notes de mémorisation du modèle.

Salut @alistairewj , merci pour la réponse qui m'a été très utile. Juste une dernière chose concernant le modèle word2vec :

  • Il semble que le problème principal soit le vocabulaire, donc si je devais utiliser par exemple un modèle word2vec formé sur Wikipedia (vocab construit sur Wikipedia) et le peaufiner sur MIMIC, je suppose que ce serait bien ? Tous les mots du vocabulaire, dans ce cas, proviendraient de Wikipédia et je ne vois pas de moyen de reproduire des notes à partir de plongements vectoriels uniquement.

Le reste est parfaitement clair, merci.

Salut @alistairewj , merci pour la réponse qui m'a été très utile. Juste une dernière chose concernant le modèle word2vec :

  • Il semble que le problème principal soit le vocabulaire, donc si je devais utiliser par exemple un modèle word2vec formé sur Wikipedia (vocab construit sur Wikipedia) et le peaufiner sur MIMIC, je suppose que ce serait bien ? Tous les mots du vocabulaire, dans ce cas, proviendraient de Wikipédia et je ne vois pas de moyen de reproduire des notes à partir de plongements vectoriels uniquement.

Oui, je suis d'accord, ce serait bien !

Un point à ajouter est que nous encourageons le partage de modèles sensibles sur PhysioNet. Il existe un type de données « modèle » qui peut être sélectionné lors de la soumission : https://physionet.org/about/publish/#guidelines

Par exemple, voir le projet suivant :

_Amin-Nejad, A., Ive, J., & Velupillai, S. (2020). Modèles de transformateur entraînés sur MIMIC-III pour générer des notes synthétiques sur les patients (version 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._

Cette page vous a été utile?
0 / 5 - 0 notes