Scikit-learn: Menerapkan Koefisien Kesamaan Gower

Dibuat pada 19 Nov 2015 · 51Komentar · Sumber: scikit-learn/scikit-learn

Seperti yang disarankan oleh @lesshaste

Makalah - http://cbio.ensmp.fr/~jvert/svn/bibli/local/Gower1971general.pdf

Saya dapat menerapkan ini jika ada minat yang cukup?

@jnothman @amueller @agramfort

New Feature

Sumber

raghavrv

👍3

Komentar yang paling membantu

Hai,

Untuk berkontribusi entah bagaimana, saya menerapkan fungsi Gower, menurut makalah asli, dan penyesuaian masing-masing yang diperlukan dalam modul pdist, karena secara internal pdist membuat beberapa transformasi numerik yang akan gagal jika Anda menggunakan matriks dengan data campuran.

Hasil yang saya peroleh sejauh ini sama dari fungsi daisy R´s.

Kode sumber tersedia di notebook jupyter ini: https://sourceforge.net/projects/gower-distance-4python/files/

Jangan ragu untuk menggunakannya

marcelobeckmann pada 17 Jan 2017

👍17

Semua 51 komentar

Terima kasih.

Dokumentasi untuk daisy dari R ini mungkin relevan juga https://stat.ethz.ch/R-manual/R-devel/library/cluster/html/daisy.html karena ini adalah kasus penggunaan yang populer untuk koefisien Gower.

lesshaste pada 19 Nov 2015

menyarankan di mana? dalam konteks apa?

agramfort pada 19 Nov 2015

@agramfort saya menyarankannya di gitter. Kepentingan utama untuk koefisien ini adalah ketika variabel memiliki tipe campuran (yaitu kategorikal, numerik, ordinal) . Satu kasus penggunaan yang populer adalah dalam paket R daisy() disebutkan sebelumnya ketika mengelompokkan data dengan tipe campuran (lihat halaman 27 dari https://cran.r-project.org/web/packages/cluster/cluster.pdf ) . Secara lebih umum http://www.clustan.talktalk.net/gower_similarity.html mengklaim "Koefisien Kesamaan Umum Gower adalah salah satu ukuran kedekatan yang paling populer untuk tipe data campuran." yang tampaknya seperti klaim yang masuk akal.

lesshaste pada 19 Nov 2015

apakah ada patokan atau contoh meyakinkan yang akan memotivasi ini?

agramfort pada 19 Nov 2015

@agramfort Saya pikir ini lebih karena kami tidak memiliki cara lain untuk menghitung koefisien ketidaksamaan untuk tipe data campuran saat ini dan ini tampaknya menjadi yang standar. Saya dapat menemukan banyak contoh dan pertanyaan/jawaban online di mana orang menjelaskan apa itu koefisien Gower atau menyarankan penggunaannya untuk tipe data campuran tetapi belum ada yang bisa saya sebut sebagai patokan. Makalah asli telah dikutip 2298 kali menurut sarjana Google.

lesshaste pada 19 Nov 2015

oke saya yakin :)

agramfort pada 19 Nov 2015

@agramfort Hebat! Perubahan ini akan melengkapi https://github.com/scikit-learn/scikit-learn/pull/4899 dengan baik yang memperkenalkan dukungan variabel kategorikal asli untuk pohon.

Karena itu, saya sekarang menyadari bahwa scikit-learn tidak memiliki dukungan asli untuk ordinal sama sekali saat ini sehingga bagian dari saran saya ini akan sedikit lebih maju dari waktunya. Saya kira orang dapat menganggapnya secara positif sebagai langkah pertama dalam mendukung fitur ordinal.

lesshaste pada 19 Nov 2015

@amueller Untuk ditandai dengan [New Feature] ...

raghavrv pada 20 Nov 2015

Hai,

Hasil yang saya peroleh sejauh ini sama dari fungsi daisy R´s.

Kode sumber tersedia di notebook jupyter ini: https://sourceforge.net/projects/gower-distance-4python/files/

Jangan ragu untuk menggunakannya

marcelobeckmann pada 17 Jan 2017

👍17

Saya hanya ingin tahu apakah ada pembaruan tentang ini? Plus, apakah masalah yang dicatat oleh @marcelobeckmann masih relevan?

ashimb9 pada 16 Jul 2017

@ashimb9 sepertinya kita membutuhkan seseorang untuk mengintegrasikan kode dari @marcelobeckmann

agramfort pada 16 Jul 2017

@agramfort Hmm, kalau begitu saya akan pergi ketika saya punya waktu luang. Omong-omong, apakah Anda mengetahui sesuatu tentang status masalah saat ini yang disebutkan di atas: "dalam modul pdist, karena secara internal pdist membuat beberapa transformasi numerik yang akan gagal jika Anda menggunakan matriks dengan data campuran"

ashimb9 pada 16 Jul 2017

Hai, ada beberapa fungsi pribadi (misalnya, _convert_to_double, _copy_array_if_base_present) di pdist yang menganggap data yang mendasarinya sepenuhnya numerik, yang tidak benar ketika Anda memiliki Dataframe dengan data kategorikal.

Saya secara sukarela mengintegrasikan kode ini dan membuatnya tersedia dalam fork, Anda dapat memberikan tiket ini kepada saya.

marcelobeckmann pada 17 Jul 2017

👍1

Fitur penetapan github hanya berfungsi untuk anggota tim

Pada 17 Juli 2017 19:32, "marcelobeckmann" [email protected] menulis:

Hai, ada beberapa fungsi pribadi (misalnya, _convert_to_double,
_copy_array_if_base_present) di pdist yang menganggap data dasarnya adalah
sepenuhnya numerik, yang tidak benar ketika Anda memiliki Dataframe dengan
Kategori data.
Saya secara sukarela mengintegrasikan kode ini dan membuatnya tersedia di garpu, Anda
dapat memberikan tiket ini kepada saya.
—
Anda menerima ini karena Anda disebutkan.
Balas email ini secara langsung, lihat di GitHub
https://github.com/scikit-learn/scikit-learn/issues/5884#issuecomment-315707830 ,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/AAEz62L3HHzGsSerW5G3n-Z8rrNoV6mwks5sOyoTgaJpZM4Glm0p
.

jnothman pada 17 Jul 2017

Jangan khawatir, saya akan membayarnya dan Anda bisa mendapatkan kode getnya nanti. Bagi saya yang penting adalah berkontribusi. Saya akan memberi tahu Anda jika sudah selesai.

marcelobeckmann pada 17 Jul 2017

Terima kasih @marcelobeckmann untuk mengambil ini. Saat Anda melakukannya (dan apakah itu layak untuk Anda), saya bertanya-tanya apakah Anda akan mempertimbangkan untuk menambahkan dukungan untuk perhitungan gower pada data dengan nilai NaN juga, seperti yang diterapkan dalam paket daisy di R (yang juga telah Anda rujuk di atas) ?

ashimb9 pada 17 Jul 2017

Saya menyelesaikan integrasi Gower ke sklearn.metrics.pairwise (juga mengamati perlakuan nilai NaN). Saya akan menyiapkan beberapa unit test sebelum mengirimkan kode bercabang saya.

marcelobeckmann pada 9 Agu 2017

🎉8

@marcelobeckmann Hebat! Terima kasih banyak, terutama karena menyertakan dukungan NaN! :)

PS: Jika saya boleh menyarankan, Anda mungkin ingin mempertimbangkan untuk memulai permintaan tarik sehingga pengulas dapat mulai melihat kode Anda saat Anda mengerjakan unit test dan sebagainya.

ashimb9 pada 9 Agu 2017

Saya membuat permintaan tarik beberapa hari yang lalu, b5884.

marcelobeckmann pada 17 Agu 2017

Ya, sedang dalam antrean untuk ditinjau.

Pada tanggal 17 Agustus 2017 23:40, Marcelo Beckmann [email protected]
menulis:

Saya membuat permintaan tarik beberapa hari yang lalu, b5884.
—
Anda menerima ini karena Anda disebutkan.
Balas email ini secara langsung, lihat di GitHub
https://github.com/scikit-learn/scikit-learn/issues/5884#issuecomment-323076581 ,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/AAEz69uMu0XsoAUfvwWikkadjGCk5yvKks5sZELKgaJpZM4Glm0p
.

jnothman pada 17 Agu 2017

Saya membuat perubahan yang diperlukan oleh CI, dan semua pemeriksaan telah berlalu.

marcelobeckmann pada 3 Okt 2017

👍3

@marcelobeckmann kerja bagus! anda mungkin ingin mengubah baris 659 menjadi sesuatu seperti:
ranges_of_numeric[col] = (1 - min / max, 0)[max == 0] if (max!=0) else 0.0

Saya mendapatkan pembagian dengan peringatan nol dalam kasus uji kedua Anda sebaliknya.

pierrewessman pada 12 Okt 2017

Hai, saya mengubah kode untuk menghindari peringatan seperti yang diusulkan oleh Pierre Wessman, dan CI berwarna hijau. Saya membutuhkan seseorang untuk meninjau kode saya.

marcelobeckmann pada 10 Nov 2017

@marcelobeckmann dan kemungkinan lainnya.

Hai Marcelo (atau mungkin yang lain), dapatkan beberapa pertanyaan singkat sehubungan dengan penerapan koefisien gower Anda yang telah Anda tempatkan di sini: https://sourceforge.net/projects/gower-distance-4python/files/.

Apakah saya memerlukan dataFrame panda untuk memasukkan data asli ke dalam fungsi atau dapatkah saya menggunakan array numpy juga?
Saya mengimpor data saya ke dalam array numpy. Semua kolom adalah bilangan real numerik selain dari kolom pertama yang merupakan ID unik. Saya mendapatkan dua masalah,

pertama, ketika saya menjalankan fungsinya, ia mengembalikan Peringatan Konversi Data yang mengatakan bahwa dtype U7 telah dikonversi menjadi objek !!. Saya berasumsi itu karena entri array untuk beberapa alasan muncul dalam tanda kutip dan karenanya adalah string. Jadi saya memasukkan jenis entri array ke int32 misalnya dan masih memberikan kesalahan konversi yang mengatakan int32 telah dikonversi ke objek
Kedua, dan mungkin terkait dengan di atas, setiap kali saya menjalankan fungsi dan memplot hasilnya, saya menerima visualisasi yang berbeda (penyebaran poin yang berbeda).

Bisakah Anda memberi saya saran tentang hal di atas?

Terima kasih banyak

Ali-ry pada 30 Nov 2017

Hai Ali,

Terima kasih atas minat Anda pada penerapan jarak Gower ini.

Sementara kode yang saya buat permintaan tarik tidak disetujui oleh scikit learn commiters (CI berwarna hijau dan hanya menunggu ulasan), saya mendorong implementasi terbaru dan stabil ini ke: https://sourceforge.net/projects/gower-distance -4python/files/gower_function-v3.ipynb/download

Mari kita pergi untuk pertanyaan Anda:

Apakah saya memerlukan Panda DataFrame untuk memasukkan data asli ke dalam fungsi atau dapatkah saya menggunakan array numpy juga?

Jawaban: Anda dapat menggunakan DataFrame atau Numpy di versi baru ini 3. Matriks jarang juga didukung.

. Saya mengimpor data saya ke dalam array numpy. Semua kolom adalah bilangan real numerik selain dari kolom pertama yang merupakan ID unik. Saya mendapatkan dua masalah,

pertama, ketika saya menjalankan fungsinya, ia mengembalikan Peringatan Konversi Data yang mengatakan bahwa dtype U7 telah dikonversi menjadi objek !!. Saya berasumsi itu karena entri array untuk beberapa alasan muncul dalam tanda kutip dan karenanya adalah string. Jadi saya memasukkan jenis entri array ke int32 misalnya dan masih memberikan kesalahan konversi yang mengatakan int32 telah dikonversi ke objek

Jawaban: Versi baru ini mendukung atribut kategorikal numerik, ada parameter tambahan categorical_features, yang dapat Anda atur array dengan false (untuk atribut numerik) atau true (untuk yang kategoris)

Kedua, dan mungkin terkait dengan di atas, setiap kali saya menjalankan fungsi dan memplot hasilnya, saya menerima visualisasi yang berbeda (penyebaran poin yang berbeda).

Jawaban: Versi baru yang saya dorong memecahkan masalah ini.

marcelobeckmann pada 1 Des 2017

perhatikan bahwa saya berniat untuk meninjau PR ini, tetapi tidak terlalu tinggi
atm prioritas

jnothman pada 2 Des 2017

👍3 👎1

Hai Ali,

Yang terbaru adalah gower_function-v3.ipynb, dan ya itu berhubungan dengan nan
perambatan
Anda dapat menggunakan gower_distance(X) saja, jika atribut kategorikal Anda tidak
numerik, atau gower_distance(X, categorical_features=[Salah, Benar,
Salah,...]), jika attr kucing Anda direpresentasikan sebagai numerik.

Beri tahu saya secara pribadi jika Anda memiliki masalah, karena implementasi ini
Saya mendorong ke internet seharusnya tidak menjadi perhatian scikit belajar, mereka memiliki
banyak yang harus dilakukan, dan di sini bukan tempat terbaik untuk membahas ini.

Pada 30 Nov 2017 11:51, "Ali-ry" [email protected] menulis:

@marcelobeckmann https://github.com/marcelobeckmann

Hai Marcelo (atau mungkin yang lain), ada pertanyaan singkat terkait dengan Anda
implementasi koefisien gower yang telah Anda tempatkan di sini:
https://sourceforge.net/projects/gower-distance-4python/files/

Apakah gower_single_function-v2.ipynb versi final dan berhubungan dengan
NaN juga?
2.

yang lebih penting, apakah implementasi ini memungkinkan Anda untuk mendapatkan
kesamaan dalam satu data sampel tunggal? karena dalam banyak kasus apa yang Anda
perlu mendapatkan jarak gower antara setiap pasangan pengamatan dalam
satu sampel data tunggal sebagai lawan membandingkan dua data sampel yang berbeda.

Terima kasih banyak

—
Anda menerima ini karena Anda disebutkan.
Balas email ini secara langsung, lihat di GitHub
https://github.com/scikit-learn/scikit-learn/issues/5884#issuecomment-348166596 ,
atau matikan utasnya
https://github.com/notifications/unsubscribe-auth/AA3G79jWVbpBNdAFOAim7wJS92-QGl0dks5s7pa8gaJpZM4Glm0p
.

marcelobeckmann pada 2 Des 2017

👍1

Hai Ali,

Yang terbaru adalah gower_function-v3.ipynb, dan ini adalah salinan dari yang saya dorong untuk belajar scikit, dan ya, ini berhubungan dengan propagasi nan
Anda dapat menggunakan gower_distance(X) saja, jika atribut kategorikal Anda bukan numerik, atau gower_distance(X, categorical_features=[False, True, False,...]), jika atribut kategorikal Anda direpresentasikan sebagai numerik.

Tolong beri tahu saya secara pribadi jika Anda memiliki masalah, karena implementasi yang saya dorong ke internet ini seharusnya tidak menjadi perhatian scikit belajar, mereka memiliki banyak hal untuk dilakukan, dan di sini bukan tempat terbaik untuk membahas sesuatu yang berada di luar scikit belajar proyek.

marcelobeckmann pada 2 Des 2017

@marcelobeckmann Halo Marcelo,
Haruskah nilai parameter categorical_features menjadi True atau False jika kita memiliki variabel kategori yang dikodekan ke dalam format numerik?

Saya juga mendapatkan kesalahan berikut:
ValueError: Ditemukan array dengan 0 sampel (shape=(0, 0)) sementara minimal 1 diperlukan oleh check_pairwise_arrays.

Ini berhasil berhasil dalam data yang sama sebelumnya, tetapi sekarang memberikan kesalahan seperti itu. Kenapa bisa?

bendiste pada 1 Jun 2018

Hai @bendiste ,

Jika Anda mewakili Benar dan Salah sebagai 1 dan 0 Anda akan mendapatkan hasil yang sama.

Apakah Anda menggunakan notebook terbaru gower_function-v6.4.ipynb di
https://sourceforge.net/projects/gower-distance-4python/files/
?

Saya sedang menyelesaikan menulis artikel, mudah-mudahan bulan ini saya akan membuat perubahan yang diminta untuk membuat implementasi saya diterima di master scikit-learn.

marcelobeckmann pada 2 Jun 2018

🎉2

Hai @marcelobeckmann , terima kasih atas balasan Anda. Dan ya, saya menggunakan versi terbaru yang Anda sebutkan. Ketika saya mengunduh ulang, itu berhasil. Saya ingin menanyakan beberapa hal karena saya seorang pemula dalam Pembelajaran Mesin:
1- Dapatkah saya menggunakan KPCA untuk mengurangi dimensi sebagai input ke algoritma pengelompokan hierarkis?
2- Atau apakah saya harus menggunakan seluruh dataset dengan dimensi tinggi sebagai input untuk pengelompokan hierarkis?

bendiste pada 2 Jun 2018

Hai @marcelobeckmann ,
terima kasih atas implementasi ini!

Saya telah mencoba versi gower_function-v6.4.
Saya dapat melihat bahwa jarak dalam pengujian unit Anda sama, tidak peduli apakah Anda menentukan kolom kategoris atau tidak. Saya juga sudah mencoba dengan data saya sendiri, di mana itu juga tidak mempengaruhi hasilnya.

Apakah ini benar?

Terima kasih!

annelaura pada 19 Jun 2018

Hai @annelaura ,

Maaf atas keterlambatan membalas. Ya itu benar, tes itu hanya untuk memeriksa apakah parameter categorical_features=[0, 1] tidak akan mempengaruhi hasil, jika kolom non numerik juga dapat diidentifikasi sebagai objek. Data inputnya sama, jadi, hasilnya harus sama.

Setelah saya menyelesaikan beberapa makalah, saya kembali bekerja untuk akhirnya mengusulkan implementasi saya ke cabang master scikit! :)

marcelobeckmann pada 28 Jun 2018

🎉4

@marcelobeckmann ada berita tentang ini? :)

alexHeu pada 21 Jan 2019

Hai Alex, Saya telah menyelesaikan semua modifikasi yang diminta pengulas sejauh ini dalam permintaan tarik, dan CI berwarna hijau. Saya juga melakukan ping kepada pengulas untuk memeriksa apakah mereka senang, lalu kami dapat menutup permintaan tarik ini dan mendorong ini untuk dirilis.

marcelobeckmann pada 22 Jan 2019

🎉9

Ada pembaruan? @marcelobeckmann

erickalfaro pada 16 Mar 2019

Pekerjaan sedang berlangsung setelah peninjauan.

marcelobeckmann pada 16 Mar 2019

👀4 👍2

Apakah PR sudah disetujui? @marcelobeckmann

lsabi pada 10 Mei 2019

Belum, pekerjaan sedang berlangsung setelah beberapa tinjauan kode baru-baru ini.

marcelobeckmann pada 11 Mei 2019

Sayang sekali saya membutuhkannya.

Apakah hanya fungsi yang tersedia di suatu tempat? Jadi saya bisa menggunakannya sendiri (untuk tujuan penelitian)

Terima kasih

lsabi pada 11 Mei 2019

Anda dapat mengambil komit terbaru dari fungsi ini di PR ini:
https://github.com/scikit-learn/scikit-learn/pull/9555

marcelobeckmann pada 13 Mei 2019

Saya berhasil membuatnya bekerja secara lokal. Terima kasih!

lsabi pada 13 Mei 2019

Hanya +1 cepat pada tiket ini! Terima kasih untuk semua pekerjaan ini.

PhysB pada 30 Mei 2019

👍3

Menabrak. Ini akan menjadi tambahan yang bagus. Saya tidak percaya butuh 4 tahun untuk perhitungan yang relatif sederhana untuk membuatnya menjadi sklearn!!

willbarnett pada 13 Nov 2019

👍1

Atau Anda bisa mengatakan: terima kasih atas dedikasi Anda selama empat tahun
usaha sukarela!

jnothman pada 13 Nov 2019

Atau Anda bisa mengatakan: terima kasih atas dedikasi Anda selama empat tahun upaya sukarela!

Anda benar, maaf. Saya tidak bermaksud untuk tampil kasar. Saya sangat menghargai usahanya. Saya telah menggunakan ini secara lokal untuk sementara waktu sekarang, dan akan sangat bagus untuk melihatnya ditambahkan. Ini satu-satunya metrik jarak yang saya ketahui untuk tipe data campuran.

willbarnett pada 13 Nov 2019

Selain dari upaya sukarela, dan yang belum dipertimbangkan oleh para pengembang inti
urgen ini, memang ada tantangan seputar bagaimana menangani tipe campuran,
dan seputar cara melakukan penskalaan dalam penyiapan uji-latihan.

jnothman pada 13 Nov 2019

Menantikannya di sklearn.

mohyneenm pada 14 Nov 2019

👍6

Seseorang yang mengaku telah " meminjam ide " dari utas ini telah merilis paket di github untuk menghitung jarak Gower (kesamaan, secara teknis). Soal jarak dan kesamaan, contohnya identik dengan yang dari @marcelobeckmann. Saya hanya melihat kodenya sejauh ini, tapi ini sekilas:

Dari buku catatan @marcelobeckmann :

    # This is to normalize the numeric values between 0 and 1.
    X_num = np.divide(X_num ,max_of_numeric,out=np.zeros_like(X_num), where=max_of_numeric!=0)

Dari "Michael Yan":

    # This is to normalize the numeric values between 0 and 1.
    Z_num = np.divide(Z_num ,num_max,out=np.zeros_like(Z_num), where=num_max!=0)

bzip2 pada 23 Jan 2020

👀2

Hi guys, terima kasih untuk mengawasi ini.

Saya senang orang-orang mengambil kode dan mencoba memperbaikinya, itulah tujuan menjadi open source, meskipun beberapa kredit dihargai.

Semoga kode ini menjadi bagian dari scikit-learn, jika PR #9555 ini diterima.

Salam,

Marcelo Beckmann

marcelobeckmann pada 25 Jan 2020

🎉2

Selamat berproses!!

Bortrex pada 25 Mar 2020

Apakah halaman ini membantu?

0 / 5 - 0 peringkat

Masalah terkait

min_weight_fraction_leaf perbaikan yang disarankan

ben519 · 3Komentar

ValueError: format berkelanjutan tidak didukung di RidgeClassifierCV

yandrieiev · 3Komentar

Kesalahan muncul selama pencarian grid pada pipa dengan Tidak ada untuk langkah transformator

jrbourbeau · 3Komentar

Tambahkan lencana saluran pipa biru ke readme?

amueller · 3Komentar

warnings.filterwarnings -- tolong jangan lakukan ini. itu perilaku buruk.

dfee · 3Komentar