Mimic-code: Problemas de privacidad con respecto a los modelos entrenados en MIMIC-III

Creado en 28 nov. 2020 · 4Comentarios · Fuente: MIT-LCP/mimic-code

Prerrequisitos

[X] Ponga una X entre los corchetes en esta línea si ha hecho todo lo siguiente:
- Verificó la documentación en línea: https://mimic.physionet.org/about/mimic/
- Verificó que su problema aún no se haya resuelto: https://github.com/MIT-LCP/mimic-code/issues?utf8=%E2%9C%93&q=

Descripción

Hola, tengo algunas preguntas relacionadas con la publicación de modelos entrenados en MIMIC-III, si puede, hágamelo saber qué de esto está permitido:

¿Entrenar un modelo word2vec y hacer que los pares vector-palabra estén disponibles públicamente (entiendo que hay disponible un modelo de texto rápido previamente entrenado, pero se hizo muy poco procesamiento previo y las incrustaciones son un poco desordenadas)?
¿Entrenar un modelo CUI2Vec (CUI sería un identificador de enfermedad de UMLS / SNOMED) y hacerlo público? Este modelo no contendría ningún texto / palabras que se encuentran en MIMIC-III.
¿Entrenar un modelo similar a BERT en MIMIC-III y hacerlo público?

Fuente

w-is-h

Todos 4 comentarios

Es difícil dar respuestas concretas ya que depende del contexto exacto, pero en general:

Si el modelo hará uso de notas y tiene el potencial de reproducir notas palabra por palabra (o memorizarlas), lo consideramos sensible y pedimos que el modelo se comparta en PhysioNet bajo las mismas restricciones que MIMIC . Cualquiera que tenga acceso a MIMIC también podrá acceder al modelo.
Un modelo de nivel razonablemente alto entrenado usando solo los datos estructurados se puede compartir públicamente. Digo "nivel razonablemente alto", ya que se puede imaginar un modelo de tipo KNN que contendría el conjunto de datos completo. Compartir este modelo obviamente violaría la DUA. Aquí hay un espectro y le recomendamos que pregunte si no está seguro.

¿Entrenar un modelo word2vec y hacer que los pares vector-palabra estén disponibles públicamente (entiendo que hay disponible un modelo de texto rápido previamente entrenado, pero se hizo muy poco procesamiento previo y las incrustaciones son un poco desordenadas)?

Depende del preprocesamiento, ya que puede contener vocabulario delicado.

¿Entrenar un modelo CUI2Vec (CUI sería un identificador de enfermedad de UMLS / SNOMED) y hacerlo público? Este modelo no contendría ningún texto / palabras que se encuentran en MIMIC-III.

Probablemente esto estaría bien.

¿Entrenar un modelo similar a BERT en MIMIC-III y hacerlo público?

Esto se ha hecho en el pasado cuando la codificación del par de bytes no se reeducó en MIMIC. Si se vuelve a entrenar e incorporar el vocabulario, nuevamente se necesita cierta verificación con respecto al modelo de memorización de notas.

alistairewj en 1 dic. 2020

Hola @alistairewj , gracias por la respuesta, esto fue realmente útil. Solo una cosa más con respecto al modelo word2vec:

Parece que el problema principal es el vocabulario, así que si tuviera que usar, por ejemplo, un modelo de word2vec entrenado en Wikipedia (vocabulario construido en Wikipedia) y luego ajustarlo en MIMIC, ¿supongo que esto estaría bien? Todas las palabras en el vocabulario, en este caso, serían de Wikipedia y no veo una forma de reproducir notas dadas solo incrustaciones vectoriales.

El resto está perfectamente claro, gracias.

w-is-h en 1 dic. 2020

👍1

Hola @alistairewj , gracias por la respuesta, esto fue realmente útil. Solo una cosa más con respecto al modelo word2vec:
Parece que el problema principal es el vocabulario, así que si tuviera que usar, por ejemplo, un modelo de word2vec entrenado en Wikipedia (vocabulario construido en Wikipedia) y luego ajustarlo en MIMIC, ¿supongo que esto estaría bien? Todas las palabras en el vocabulario, en este caso, serían de Wikipedia y no veo una forma de reproducir notas dadas solo incrustaciones vectoriales.

Sí, estoy de acuerdo, ¡estaría bien!

alistairewj en 1 dic. 2020

👍1

Un punto a agregar es que alentamos el intercambio de modelos sensibles en PhysioNet. Hay un tipo de datos de "modelo" que se puede seleccionar durante el envío: https://physionet.org/about/publish/#guidelines

Por ejemplo, vea el siguiente proyecto:

_Amin-Nejad, A., Ive, J. y Velupillai, S. (2020). Modelos de transformadores entrenados en MIMIC-III para generar notas sintéticas de pacientes (versión 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._