Mimic-code: Preocupações com a privacidade em relação aos modelos treinados em MIMIC-III

Criado em 28 nov. 2020 · 4Comentários · Fonte: MIT-LCP/mimic-code

Pré-requisitos

[X] Coloque um X entre os colchetes nesta linha se você fez tudo a seguir:
- Verificada a documentação online: https://mimic.physionet.org/about/mimic/
- Verificou se seu problema ainda não foi resolvido: https://github.com/MIT-LCP/mimic-code/issues?utf8=%E2%9C%93&q=

Descrição

Olá, tenho algumas dúvidas relacionadas à publicação de modelos treinados em MIMIC-III, por favor, me diga o que é permitido:

Treine um modelo word2vec e torne os pares vetor-palavra disponíveis publicamente (eu entendo que um modelo de texto rápido pré-treinado está disponível, mas muito pouco pré-processamento foi feito e os embeddings são um pouco confusos)?
Treinar um modelo CUI2Vec (CUI seria o identificador de doença do UMLS / SNOMED) e torná-lo público? Este modelo não conteria nenhum texto / palavra encontrado no MIMIC-III.
Treinar um modelo como o BERT no MIMIC-III e torná-lo público?

Fonte

w-is-h

Todos 4 comentários

É difícil dar respostas concretas, pois depende do contexto exato, mas em geral:

Se o modelo fizer uso de notas e tiver potencial para reproduzir notas literalmente (ou memorizá-las dentro), consideramos sensível e solicitamos que o modelo seja compartilhado no PhysioNet sob as mesmas restrições do MIMIC . Qualquer pessoa com acesso ao MIMIC também poderá acessar o modelo.
Um modelo de nível razoavelmente alto treinado usando apenas os dados estruturados pode ser compartilhado publicamente. Eu digo "nível razoavelmente alto", pois você pode imaginar um modelo do tipo KNN que conteria o conjunto de dados inteiro. Compartilhar este modelo obviamente violaria o DUA. Há um espectro aqui e recomendamos que pergunte se você não tiver certeza.

Treine um modelo word2vec e torne os pares vetor-palavra disponíveis publicamente (eu entendo que um modelo de texto rápido pré-treinado está disponível, mas muito pouco pré-processamento foi feito e os embeddings são um pouco confusos)?

Depende do pré-processamento, pois pode conter vocabulário sensível.

Treinar um modelo CUI2Vec (CUI seria o identificador de doença do UMLS / SNOMED) e torná-lo público? Este modelo não conteria nenhum texto / palavra encontrado no MIMIC-III.

Isso provavelmente seria bom.

Treinar um modelo como o BERT no MIMIC-III e torná-lo público?

Isso foi feito no passado, quando a codificação do par de bytes não era retreinada no MIMIC. Se for retreinar e incorporar o vocabulário, novamente alguma verificação é necessária em relação às notas de memorização do modelo.

alistairewj em 1 dez. 2020

Olá @alistairewj , obrigado pela resposta. Isso foi realmente útil. Só mais uma coisa em relação ao modelo word2vec:

Parece que o principal problema é o vocabulário, então, se eu fosse usar, por exemplo, um modelo word2vec treinado na Wikipedia (vocabulário criado na Wikipedia) e, em seguida, ajustá-lo no MIMIC, presumo que isso seria adequado. Todas as palavras do vocabulário, neste caso, seriam da Wikipedia e não vejo uma maneira de reproduzir notas dadas apenas embeddings vetoriais.

O resto está perfeitamente claro, obrigado.

w-is-h em 1 dez. 2020

👍1

Olá @alistairewj , obrigado pela resposta. Isso foi realmente útil. Só mais uma coisa em relação ao modelo word2vec:
Parece que o principal problema é o vocabulário, então, se eu fosse usar, por exemplo, um modelo word2vec treinado na Wikipedia (vocabulário criado na Wikipedia) e, em seguida, ajustá-lo no MIMIC, presumo que isso seria adequado. Todas as palavras do vocabulário, neste caso, seriam da Wikipedia e não vejo uma maneira de reproduzir notas dadas apenas embeddings vetoriais.

Sim, concordo, ficaria bem!

alistairewj em 1 dez. 2020

👍1

Um ponto a acrescentar é que encorajamos o compartilhamento de modelos sensíveis no PhysioNet. Existe um tipo de dados de "modelo" que pode ser selecionado durante o envio: https://physionet.org/about/publish/#guidelines

Por exemplo, consulte o seguinte projeto:

_Amin-Nejad, A., Ive, J., & Velupillai, S. (2020). Modelos de transformador treinados em MIMIC-III para gerar anotações sintéticas do paciente (versão 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._