Mimic-code: Masalah privasi terkait model yang dilatih di MIMIC-III

Dibuat pada 28 Nov 2020 · 4Komentar · Sumber: MIT-LCP/mimic-code

Prasyarat

[X ] Beri tanda X di antara tanda kurung pada baris ini jika Anda telah melakukan semua hal berikut:
- Memeriksa dokumentasi online: https://mimic.physionet.org/about/mimic/
- Memeriksa apakah masalah Anda belum ditangani: https://github.com/MIT-LCP/mimic-code/issues?utf8=%E2%9C%93&q=

Keterangan

Halo, Saya memiliki beberapa pertanyaan terkait dengan model penerbitan yang dilatih tentang MIMIC-III, jika Anda dapat memberi tahu saya apa yang diperbolehkan:

Latih model word2vec dan buat pasangan kata-vektor tersedia untuk umum (saya mengerti bahwa model teks cepat yang telah dilatih sebelumnya tersedia, tetapi sangat sedikit pra-pemrosesan yang dilakukan dan penyematan agak berantakan)?
Latih model CUI2Vec (CUI akan menjadi pengidentifikasi penyakit dari UMLS/SNOMED) dan publikasikan? Model ini tidak akan berisi teks/kata yang ditemukan di MIMIC-III.
Latih model seperti BERT di MIMIC-III dan umumkan?

Sumber

w-is-h

Semua 4 komentar

Sulit untuk memberikan jawaban konkret karena tergantung pada konteks yang tepat, tetapi secara umum:

Jika model akan menggunakan catatan, dan memiliki potensi untuk mereproduksi catatan kata demi kata (atau menghafalkannya di dalam), kami menganggapnya sensitif dan meminta agar model tersebut dibagikan di PhysioNet di bawah batasan yang sama seperti MIMIC . Siapa pun yang memiliki akses ke MIMIC akan dapat mengakses model juga.
Model tingkat yang cukup tinggi yang dilatih hanya menggunakan data terstruktur dapat dibagikan secara publik. Saya mengatakan "tingkat yang cukup tinggi" karena Anda dapat membayangkan model tipe KNN yang akan berisi seluruh dataset. Berbagi model ini jelas akan melanggar DUA. Ada spektrum di sini dan kami sarankan untuk bertanya jika Anda tidak yakin.

Latih model word2vec dan buat pasangan kata-vektor tersedia untuk umum (saya mengerti bahwa model teks cepat yang telah dilatih sebelumnya tersedia, tetapi sangat sedikit pra-pemrosesan yang dilakukan dan penyematan agak berantakan)?

Itu tergantung pada pemrosesan awal, karena ini mungkin mengandung kosakata yang sensitif.

Latih model CUI2Vec (CUI akan menjadi pengidentifikasi penyakit dari UMLS/SNOMED) dan publikasikan? Model ini tidak akan berisi teks/kata yang ditemukan di MIMIC-III.

Ini mungkin akan baik-baik saja.

Latih model seperti BERT di MIMIC-III dan umumkan?

Ini telah dilakukan di masa lalu ketika pengkodean pasangan byte tidak dilatih ulang pada MIMIC. Jika melatih ulang dan memasukkan kosakata, sekali lagi diperlukan beberapa pemeriksaan terkait dengan catatan menghafal model.

alistairewj pada 1 Des 2020

Hai @alistairewj , terima kasih atas jawabannya ini sangat membantu. Hanya satu hal lagi mengenai model word2vec:

Tampaknya masalah utama adalah kosa kata, jadi jika saya menggunakan misalnya model word2vec yang dilatih di Wikipedia (vocab dibangun di Wikipedia) dan kemudian menyempurnakannya di MIMIC, saya berasumsi ini akan baik-baik saja? Semua kata dalam kosa kata, dalam hal ini, akan berasal dari Wikipedia dan saya tidak melihat cara untuk mereproduksi catatan yang diberikan hanya penyematan vektor.

Sisanya sangat jelas, terima kasih.

w-is-h pada 1 Des 2020

👍1

Hai @alistairewj , terima kasih atas jawabannya ini sangat membantu. Hanya satu hal lagi mengenai model word2vec:
Tampaknya masalah utama adalah kosa kata, jadi jika saya menggunakan misalnya model word2vec yang dilatih di Wikipedia (vocab dibangun di Wikipedia) dan kemudian menyempurnakannya di MIMIC, saya berasumsi ini akan baik-baik saja? Semua kata dalam kosa kata, dalam hal ini, akan berasal dari Wikipedia dan saya tidak melihat cara untuk mereproduksi catatan yang diberikan hanya penyematan vektor.

Ya, saya setuju, itu akan baik-baik saja!

alistairewj pada 1 Des 2020

👍1

Satu hal yang perlu ditambahkan adalah kami mendorong berbagi model sensitif di PhysioNet. Ada tipe data "model' yang dapat dipilih saat pengiriman: https://physionet.org/about/publish/#guidelines

Misalnya, lihat proyek berikut:

_Amin-Nejad, A., Ive, J., & Velupillai, S. (2020). Model transformator dilatih pada MIMIC-III untuk menghasilkan catatan pasien sintetis (versi 1.0.0). PhysioNet. https://doi.org/10.13026/m34x-fq90._