Hola, tengo algunas preguntas relacionadas con la publicación de modelos entrenados en MIMIC-III, si puede, hágamelo saber qué de esto está permitido:
Es difícil dar respuestas concretas ya que depende del contexto exacto, pero en general:
- ¿Entrenar un modelo word2vec y hacer que los pares vector-palabra estén disponibles públicamente (entiendo que hay disponible un modelo de texto rápido previamente entrenado, pero se hizo muy poco procesamiento previo y las incrustaciones son un poco desordenadas)?
Depende del preprocesamiento, ya que puede contener vocabulario delicado.
- ¿Entrenar un modelo CUI2Vec (CUI sería un identificador de enfermedad de UMLS / SNOMED) y hacerlo público? Este modelo no contendría ningún texto / palabras que se encuentran en MIMIC-III.
Probablemente esto estaría bien.
- ¿Entrenar un modelo similar a BERT en MIMIC-III y hacerlo público?
Esto se ha hecho en el pasado cuando la codificación del par de bytes no se reeducó en MIMIC. Si se vuelve a entrenar e incorporar el vocabulario, nuevamente se necesita cierta verificación con respecto al modelo de memorización de notas.
Hola @alistairewj , gracias por la respuesta, esto fue realmente útil. Solo una cosa más con respecto al modelo word2vec:
El resto está perfectamente claro, gracias.
Hola @alistairewj , gracias por la respuesta, esto fue realmente útil. Solo una cosa más con respecto al modelo word2vec:
- Parece que el problema principal es el vocabulario, así que si tuviera que usar, por ejemplo, un modelo de word2vec entrenado en Wikipedia (vocabulario construido en Wikipedia) y luego ajustarlo en MIMIC, ¿supongo que esto estaría bien? Todas las palabras en el vocabulario, en este caso, serían de Wikipedia y no veo una forma de reproducir notas dadas solo incrustaciones vectoriales.
Sí, estoy de acuerdo, ¡estaría bien!
Un punto a agregar es que alentamos el intercambio de modelos sensibles en PhysioNet. Hay un tipo de datos de "modelo" que se puede seleccionar durante el envío: https://physionet.org/about/publish/#guidelines
Por ejemplo, vea el siguiente proyecto:
_Amin-Nejad, A., Ive, J. y Velupillai, S. (2020). Modelos de transformadores entrenados en MIMIC-III para generar notas sintéticas de pacientes (versión 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._