您好,我有一些与发布在 MIMIC-III 上训练的模型相关的问题,如果可以,请告诉我哪些是允许的:
很难给出具体的答案,因为这取决于具体的上下文,但总的来说:
- 训练 word2vec 模型并使向量-词对公开可用(我确实知道可以使用预先训练的 fasttext 模型,但很少进行预处理并且嵌入有点混乱)?
这取决于预处理,因为这可能包含敏感词汇。
- 训练一个 CUI2Vec 模型(CUI 将是来自 UMLS/SNOMED 的疾病标识符)并将其公开? 该模型将不包含 MIMIC-III 中的任何文本/单词。
这应该没问题。
- 在 MIMIC-III 上训练一个类似 BERT 的模型并将其公开?
过去当字节对编码没有在 MIMIC 上重新训练时,这已经完成了。 如果重新训练和合并词汇,再次需要对模型记忆笔记进行一些检查。
嗨@alistairewj ,感谢您的回答,这真的很有帮助。 关于 word2vec 模型还有一件事:
其余的很清楚,谢谢。
嗨@alistairewj ,感谢您的回答,这真的很有帮助。 关于 word2vec 模型还有一件事:
- 似乎主要问题是词汇,所以如果我使用例如在维基百科上训练的 word2vec 模型(建立在维基百科上的词汇),然后在 MIMIC 上对其进行微调,我认为这会好吗? 在这种情况下,词汇表中的所有单词都来自维基百科,我看不到仅在向量嵌入的情况下重现笔记的方法。
是的,我同意,这样就好了!
要补充的一点是,我们鼓励在 PhysioNet 上共享敏感模型。 提交时可以选择“模型”数据类型: https :
例如,请参阅以下项目:
_Amin-Nejad, A.、Ive, J. 和 Velupillai, S.(2020 年)。 在 MIMIC-III 上训练的 Transformer 模型生成合成患者笔记(版本 1.0.0)。 物理网。 https://doi.org/10.13026/m34x-fq90._