Mimic-code: 关于在 MIMIC-III 上训练的模型的隐私问题

创建于 2020-11-28  ·  4评论  ·  资料来源: MIT-LCP/mimic-code

先决条件

  • [X ] 如果您已完成以下所有操作,请在此行的括号之间添加 X:

    • 查看在线文档: https :

    • 检查您的问题是否尚未解决: https :

描述

您好,我有一些与发布在 MIMIC-III 上训练的模型相关的问题,如果可以,请告诉我哪些是允许的:

  • 训练 word2vec 模型并使向量-词对公开可用(我确实知道可以使用预先训练的 fasttext 模型,但很少进行预处理并且嵌入有点混乱)?
  • 训练一个 CUI2Vec 模型(CUI 将是来自 UMLS/SNOMED 的疾病标识符)并将其公开? 该模型将不包含 MIMIC-III 中的任何文本/单词。
  • 在 MIMIC-III 上训练一个类似 BERT 的模型并将其公开?

所有4条评论

很难给出具体的答案,因为这取决于具体的上下文,但总的来说:

  • 如果模型将使用笔记,并有可能逐字复制笔记(或在其中记住它们),我们认为它是敏感的,并要求在与 MIMIC 相同的限制下在 PhysioNet
  • 仅使用结构化数据训练的合理高级模型可以公开共享。 我说“相当高的水平”,因为您可以想象一个包含整个数据集的 KNN 类型模型。 共享此模型显然会违反 DUA。 这里有一个范围,如果您不确定,我们建议询问。
  • 训练 word2vec 模型并使向量-词对公开可用(我确实知道可以使用预先训练的 fasttext 模型,但很少进行预处理并且嵌入有点混乱)?

这取决于预处理,因为这可能包含敏感词汇。

  • 训练一个 CUI2Vec 模型(CUI 将是来自 UMLS/SNOMED 的疾病标识符)并将其公开? 该模型将不包含 MIMIC-III 中的任何文本/单词。

这应该没问题。

  • 在 MIMIC-III 上训练一个类似 BERT 的模型并将其公开?

过去当字节对编码没有在 MIMIC 上重新训练时,这已经完成了。 如果重新训练和合并词汇,再次需要对模型记忆笔记进行一些检查。

@alistairewj ,感谢您的回答,这真的很有帮助。 关于 word2vec 模型还有一件事:

  • 似乎主要问题是词汇,所以如果我使用例如在维基百科上训练的 word2vec 模型(建立在维基百科上的词汇),然后在 MIMIC 上对其进行微调,我认为这会好吗? 在这种情况下,词汇表中的所有单词都来自维基百科,我看不到仅在向量嵌入的情况下重现笔记的方法。

其余的很清楚,谢谢。

@alistairewj ,感谢您的回答,这真的很有帮助。 关于 word2vec 模型还有一件事:

  • 似乎主要问题是词汇,所以如果我使用例如在维基百科上训练的 word2vec 模型(建立在维基百科上的词汇),然后在 MIMIC 上对其进行微调,我认为这会好吗? 在这种情况下,词汇表中的所有单词都来自维基百科,我看不到仅在向量嵌入的情况下重现笔记的方法。

是的,我同意,这样就好了!

要补充的一点是,我们鼓励在 PhysioNet 上共享敏感模型。 提交时可以选择“模型”数据类型: https :

例如,请参阅以下项目:

_Amin-Nejad, A.、Ive, J. 和 Velupillai, S.(2020 年)。 在 MIMIC-III 上训练的 Transformer 模型生成合成患者笔记(版本 1.0.0)。 物理网。 https://doi.org/10.13026/m34x-fq90._

此页面是否有帮助?
0 / 5 - 0 等级

相关问题

jeblundell picture jeblundell  ·  30评论

Lejla1979 picture Lejla1979  ·  25评论

smartnikocj picture smartnikocj  ·  13评论

joel1391 picture joel1391  ·  13评论

AjayTalati picture AjayTalati  ·  11评论