Mimic-code: Problèmes de confidentialité concernant les modèles formés sur MIMIC-III

Créé le 28 nov. 2020 · 4Commentaires · Source: MIT-LCP/mimic-code

Conditions préalables

[X ] Mettez un X entre les crochets sur cette ligne si vous avez effectué toutes les opérations suivantes :
- Consulté la documentation en ligne : https://mimic.physionet.org/about/mimic/
- Vérifié que votre problème n'est pas déjà résolu : https://github.com/MIT-LCP/mimic-code/issues?utf8=%E2%9C%93&q=

La description

Bonjour, j'ai quelques questions concernant la publication de modèles entraînés sur MIMIC-III, si vous pouvez me faire savoir ce qui est autorisé :

Entraîner un modèle word2vec et rendre les paires de mots vecteurs disponibles publiquement (je comprends qu'un modèle fasttext pré-entraîné est disponible, mais très peu de pré-traitement a été effectué et les intégrations sont un peu désordonnées) ?
Former un modèle CUI2Vec (CUI serait l'identifiant de la maladie de l'UMLS/SNOMED) et le rendre public ? Ce modèle ne contiendrait aucun texte/mot trouvé dans MIMIC-III.
Former un modèle de type BERT sur MIMIC-III et le rendre public ?

Source

w-is-h

Tous les 4 commentaires

Il est difficile de donner des réponses concrètes car cela dépend du contexte exact, mais en général :

Si le modèle utilise des notes et a le potentiel de reproduire des notes textuelles (ou de les mémoriser à l'intérieur), nous le considérons comme sensible et demandons que le modèle soit partagé sur PhysioNet sous les mêmes restrictions que MIMIC . Toute personne ayant accès à MIMIC pourrait également accéder au modèle.
Un modèle de niveau raisonnablement élevé formé en utilisant uniquement les données structurées peut être partagé publiquement. Je dis "niveau raisonnablement élevé" car vous pouvez imaginer un modèle de type KNN qui contiendrait l'intégralité du jeu de données. Partager ce modèle violerait évidemment la DUA. Il y a un spectre ici et nous vous recommandons de demander si vous n'êtes pas sûr.

Entraîner un modèle word2vec et rendre les paires de mots vecteurs disponibles publiquement (je comprends qu'un modèle fasttext pré-entraîné est disponible, mais très peu de pré-traitement a été effectué et les intégrations sont un peu désordonnées) ?

Cela dépend du prétraitement, car celui-ci peut contenir du vocabulaire sensible.

Former un modèle CUI2Vec (CUI serait l'identifiant de la maladie de l'UMLS/SNOMED) et le rendre public ? Ce modèle ne contiendrait aucun texte/mot trouvé dans MIMIC-III.

Ce serait probablement bien.

Former un modèle de type BERT sur MIMIC-III et le rendre public ?

Cela a été fait dans le passé lorsque le codage de paires d'octets n'était pas recyclé sur MIMIC. En cas de recyclage et d'incorporation du vocabulaire, encore une fois, une vérification est nécessaire en ce qui concerne les notes de mémorisation du modèle.

alistairewj le 1 déc. 2020

Salut @alistairewj , merci pour la réponse qui m'a été très utile. Juste une dernière chose concernant le modèle word2vec :

Il semble que le problème principal soit le vocabulaire, donc si je devais utiliser par exemple un modèle word2vec formé sur Wikipedia (vocab construit sur Wikipedia) et le peaufiner sur MIMIC, je suppose que ce serait bien ? Tous les mots du vocabulaire, dans ce cas, proviendraient de Wikipédia et je ne vois pas de moyen de reproduire des notes à partir de plongements vectoriels uniquement.

Le reste est parfaitement clair, merci.

w-is-h le 1 déc. 2020

👍1

Salut @alistairewj , merci pour la réponse qui m'a été très utile. Juste une dernière chose concernant le modèle word2vec :
Il semble que le problème principal soit le vocabulaire, donc si je devais utiliser par exemple un modèle word2vec formé sur Wikipedia (vocab construit sur Wikipedia) et le peaufiner sur MIMIC, je suppose que ce serait bien ? Tous les mots du vocabulaire, dans ce cas, proviendraient de Wikipédia et je ne vois pas de moyen de reproduire des notes à partir de plongements vectoriels uniquement.

Oui, je suis d'accord, ce serait bien !

alistairewj le 1 déc. 2020

👍1

Un point à ajouter est que nous encourageons le partage de modèles sensibles sur PhysioNet. Il existe un type de données « modèle » qui peut être sélectionné lors de la soumission : https://physionet.org/about/publish/#guidelines

Par exemple, voir le projet suivant :

_Amin-Nejad, A., Ive, J., & Velupillai, S. (2020). Modèles de transformateur entraînés sur MIMIC-III pour générer des notes synthétiques sur les patients (version 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._

tompollard le 1 déc. 2020

👍1

Cette page vous a été utile?

0 / 5 - 0 notes

Questions connexes

comment exécuter le fichier .sh dans le dossier concepts pour créer la table appropriée ?

smartnikocj · 13Commentaires

L'installation de MIMIC-III dans une base de données Postgres locale est lente

postgres-newbie · 22Commentaires

Problème lors de la création de la base de données - échec de l'authentification par les pairs pour l'utilisateur "postgres"

AjayTalati · 11Commentaires

Difficulté à créer une base de données à l'aide de PostgreSQL

RJBeetel3 · 14Commentaires

Des conseils sur la façon d'exécuter des scripts SQL complexes transmis par d'autres projets/études ?

AjayTalati · 4Commentaires