Mimic-code: 关于在 MIMIC-III 上训练的模型的隐私问题

创建于 2020-11-28 · 4评论 · 资料来源: MIT-LCP/mimic-code

先决条件

[X ] 如果您已完成以下所有操作，请在此行的括号之间添加 X：
- 查看在线文档： https :
- 检查您的问题是否尚未解决： https :

描述

您好，我有一些与发布在 MIMIC-III 上训练的模型相关的问题，如果可以，请告诉我哪些是允许的：

训练 word2vec 模型并使向量-词对公开可用（我确实知道可以使用预先训练的 fasttext 模型，但很少进行预处理并且嵌入有点混乱）？
训练一个 CUI2Vec 模型（CUI 将是来自 UMLS/SNOMED 的疾病标识符）并将其公开？该模型将不包含 MIMIC-III 中的任何文本/单词。
在 MIMIC-III 上训练一个类似 BERT 的模型并将其公开？

资料来源

w-is-h

所有4条评论

很难给出具体的答案，因为这取决于具体的上下文，但总的来说：

如果模型将使用笔记，并有可能逐字复制笔记（或在其中记住它们），我们认为它是敏感的，并要求在与 MIMIC 相同的限制下在 PhysioNet上
仅使用结构化数据训练的合理高级模型可以公开共享。我说“相当高的水平”，因为您可以想象一个包含整个数据集的 KNN 类型模型。共享此模型显然会违反 DUA。这里有一个范围，如果您不确定，我们建议询问。

训练 word2vec 模型并使向量-词对公开可用（我确实知道可以使用预先训练的 fasttext 模型，但很少进行预处理并且嵌入有点混乱）？

这取决于预处理，因为这可能包含敏感词汇。

训练一个 CUI2Vec 模型（CUI 将是来自 UMLS/SNOMED 的疾病标识符）并将其公开？该模型将不包含 MIMIC-III 中的任何文本/单词。

这应该没问题。

在 MIMIC-III 上训练一个类似 BERT 的模型并将其公开？

过去当字节对编码没有在 MIMIC 上重新训练时，这已经完成了。如果重新训练和合并词汇，再次需要对模型记忆笔记进行一些检查。

alistairewj 于 2020-12-01

嗨@alistairewj ，感谢您的回答，这真的很有帮助。关于 word2vec 模型还有一件事：

似乎主要问题是词汇，所以如果我使用例如在维基百科上训练的 word2vec 模型（建立在维基百科上的词汇），然后在 MIMIC 上对其进行微调，我认为这会好吗？在这种情况下，词汇表中的所有单词都来自维基百科，我看不到仅在向量嵌入的情况下重现笔记的方法。

其余的很清楚，谢谢。

w-is-h 于 2020-12-01

👍1

嗨@alistairewj ，感谢您的回答，这真的很有帮助。关于 word2vec 模型还有一件事：
似乎主要问题是词汇，所以如果我使用例如在维基百科上训练的 word2vec 模型（建立在维基百科上的词汇），然后在 MIMIC 上对其进行微调，我认为这会好吗？在这种情况下，词汇表中的所有单词都来自维基百科，我看不到仅在向量嵌入的情况下重现笔记的方法。

是的，我同意，这样就好了！

alistairewj 于 2020-12-01

👍1

要补充的一点是，我们鼓励在 PhysioNet 上共享敏感模型。提交时可以选择“模型”数据类型： https :

例如，请参阅以下项目：

_Amin-Nejad, A.、Ive, J. 和 Velupillai, S.（2020 年）。在 MIMIC-III 上训练的 Transformer 模型生成合成患者笔记（版本 1.0.0）。物理网。 https://doi.org/10.13026/m34x-fq90._

tompollard 于 2020-12-01

👍1

此页面是否有帮助？

0 / 5 - 0 等级

Mimic-code: 关于在 MIMIC-III 上训练的模型的隐私问题

先决条件

描述

所有4条评论

相关问题