Olá, tenho algumas dúvidas relacionadas à publicação de modelos treinados em MIMIC-III, por favor, me diga o que é permitido:
É difícil dar respostas concretas, pois depende do contexto exato, mas em geral:
- Treine um modelo word2vec e torne os pares vetor-palavra disponíveis publicamente (eu entendo que um modelo de texto rápido pré-treinado está disponível, mas muito pouco pré-processamento foi feito e os embeddings são um pouco confusos)?
Depende do pré-processamento, pois pode conter vocabulário sensível.
- Treinar um modelo CUI2Vec (CUI seria o identificador de doença do UMLS / SNOMED) e torná-lo público? Este modelo não conteria nenhum texto / palavra encontrado no MIMIC-III.
Isso provavelmente seria bom.
- Treinar um modelo como o BERT no MIMIC-III e torná-lo público?
Isso foi feito no passado, quando a codificação do par de bytes não era retreinada no MIMIC. Se for retreinar e incorporar o vocabulário, novamente alguma verificação é necessária em relação às notas de memorização do modelo.
Olá @alistairewj , obrigado pela resposta. Isso foi realmente útil. Só mais uma coisa em relação ao modelo word2vec:
O resto está perfeitamente claro, obrigado.
Olá @alistairewj , obrigado pela resposta. Isso foi realmente útil. Só mais uma coisa em relação ao modelo word2vec:
- Parece que o principal problema é o vocabulário, então, se eu fosse usar, por exemplo, um modelo word2vec treinado na Wikipedia (vocabulário criado na Wikipedia) e, em seguida, ajustá-lo no MIMIC, presumo que isso seria adequado. Todas as palavras do vocabulário, neste caso, seriam da Wikipedia e não vejo uma maneira de reproduzir notas dadas apenas embeddings vetoriais.
Sim, concordo, ficaria bem!
Um ponto a acrescentar é que encorajamos o compartilhamento de modelos sensíveis no PhysioNet. Existe um tipo de dados de "modelo" que pode ser selecionado durante o envio: https://physionet.org/about/publish/#guidelines
Por exemplo, consulte o seguinte projeto:
_Amin-Nejad, A., Ive, J., & Velupillai, S. (2020). Modelos de transformador treinados em MIMIC-III para gerar anotações sintéticas do paciente (versão 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._