Evalml: API Pemeriksaan Data

Dibuat pada 9 Sep 2019 · 11Komentar · Sumber: alteryx/evalml

https://alteryx.quip.com/GgtAAtfgbDKf/Data-Checks-API-Design

epic new feature

Sumber

kmax12

Semua 11 komentar

mendeteksi outlier (dan mungkin secara opsional menghapus?)

kmax12 pada 17 Sep 2019

Selimut yang menerapkan rel pelindung vs. model atau rel pelindung khusus masalah?

jeremyliweishih pada 29 Okt 2019

Saya menggunakan kembali epik ini untuk merujuk ke proyek Data Check API (sebelumnya dikenal sebagai "Guard Rails API").

@angela97lin , @kmax12 dan saya baru saja bertemu untuk membahas apa yang harus dilakukan dengan proyek ini. Kami memutuskan:

Ubah cakupan proyek
- Rancang API untuk menentukan pemeriksaan data, yang menghasilkan kesalahan/peringatan
- Mengambil tindakan berdasarkan kesalahan/peringatan itu di luar jangkauan untuk saat ini, dan kemungkinan akan menjadi proyek di masa depan
Ubah nama dari "Guard Rails" menjadi "Data Check", karena kami merasa itu lebih deskriptif
@angela97lin akan mengarsipkan dokumen desain rel penjaga lama , dan membuat yang baru dengan cakupan baru

dsherry pada 10 Feb 2020

👍1

@ angela97lin Saya baru saja selesai membaca dokumen desain baru . Barang bagus! Ini terlihat luar biasa.

Saya meninggalkan beberapa komentar dan saran, tetapi dari sudut pandang saya, ini siap untuk diimplementasikan! Menyenangkan

Saya pikir begitu Anda memiliki kesempatan untuk meninjau komentar saya, langkah selanjutnya adalah membuat masalah untuk setiap tugas dalam rencana implementasi dan melampirkannya ke epik ini. Mari kita juga membersihkan masalah yang ada saat ini di epik ini. Sekilas saya pikir kita bisa memindahkannya ke lemari es atau menutupnya.

dsherry pada 12 Feb 2020

@ angela97lin dan saya baru saja meninjau dokumen desain baru sekali lagi dan menyelesaikan beberapa detail desain. Sama seperti sebelumnya: langkah selanjutnya adalah membuat masalah dan melampirkannya ke epik ini. Sangat keren!

dsherry pada 14 Feb 2020

👍1

Dari #509:

Kami tidak ingin orang menggunakan "mean"/"median" sebagai impute_strategy untuk tipe string. Mungkinkah lebih baik menambahkan semacam pemeriksaan data ke akun untuk ini?

angela97lin pada 24 Mar 2020

👍1

Dari #504: pindahkan _check_multiclass ke pemeriksaan data :)

angela97lin pada 26 Mar 2020

@ angela97lin dan saya baru saja meninjau desainnya lagi dan membuat beberapa penyesuaian terakhir. Kami memperbarui rencana implementasi (saat ini mencakup total 4 minggu) dan mengajukan masalah yang dilampirkan pada epik ini.

Proyek ini siap untuk diimplementasikan!

@ angela97lin akan memulai proyek ini pada hari Senin. Tanggal penyelesaian target kami adalah Senin, 25 Mei, tepat pada waktunya untuk rilis Mei 2020!

Kami juga membersihkan masalah lama pada epik ini. Beberapa di-boot ke kotak es sebagai fitur masa depan, dan yang lainnya (bug yang akan diperbaiki dengan pemeriksaan data) ditandai sebagai diblokir pada epik ini.

dsherry pada 24 Apr 2020

👍1

@ angela97lin dan saya baru saja membahas: kami tidak menyertakan dalam desain cara apa pun untuk mendapatkan hasil pemeriksaan data kepada pengguna yang menggunakan pencarian automl secara langsung (dengan python).

Kami membahas dua opsi untuk itu:
1) Minta AutoSearchBase.search mengembalikan sesuatu seperti {'status': 'complete'} , kemudian jika pemeriksaan data gagal, kami dapat menyertakan {'status': 'error', 'data_checks': [..]}
2) Minta AutoSearchBase.search menyimpan hasil secara internal dan mengekspos pengambil latest_data_check_results (tidak dimaksudkan sebagai nama akhir) untuk mendapatkannya. Kemudian ajukan pengecualian untuk memberi sinyal jelas bahwa ada masalah.

Kami lebih menyukai opsi kedua, jadi kami akan melakukannya. Rasanya lebih sesuai dengan pola desain kami yang ada dari a) pengecualian atas kode kesalahan dan b) memiliki objek AutoSearchBase menjadi wadah untuk status daripada objek penggunaan satu kali.

Berikut beberapa kode yang kami tiru saat panggilan, dimaksudkan untuk masuk AutoSearchBase.search tepat sebelum loop while yang menjalankan pencarian sebenarnya:

        data_check_results = checks.validate(X, y)
        # option 1
        if len(data_check_results) > 0:
            logger.error('Data checks found problems')
            return {'status': 'error', 'data_check_results': data_check_results}
        # option 2
        if len(data_check_results) > 0:
            logger.error('Data checks found problems')
            self._latest_data_check_results = data_check_results
            raise SearchException('One or more data checks failed. Look at latest_data_check_results')

        <strong i="20">@property</strong>
        def latest_data_check_results(self):
            return self._latest_data_check_results

dsherry pada 13 Mei 2020

@ angela97lin : rencana kami saat ini adalah melakukan rilis Mei seminggu dari hari ini. Apakah Anda pikir kami akan dapat menggabungkan #709 dan #370 tepat waktu untuk itu? Jika tidak, menurut Anda berapa lama waktu yang dibutuhkan? Kita dapat dengan mudah memasukkan #710 ke rilis berikutnya.

dsherry pada 20 Mei 2020

@angela97lin menggabungkan sebagian besar dari ini dalam rilis Mei! Satu-satunya masalah yang tersisa adalah #710. Jadi, menutup epik ini

dsherry pada 29 Mei 2020

Apakah halaman ini membantu?

0 / 5 - 0 peringkat

Masalah terkait

Stacked ensembler: gunakan pembagi data CV yang sama dengan automl lainnya

dsherry · 4Komentar

Perbarui pipa dan komponen untuk mengembalikan struktur data Woodwork

angela97lin · 5Komentar

Kesalahan saat menggunakan penarikan sebagai tujuan automl utama

npapan69 · 4Komentar

Izinkan komponen yang bukan anak "daun" dalam hierarki kelas

angela97lin · 4Komentar

Imputer tidak bisa muat ketika tidak ada dalam kolom kategoris atau boolean

freddyaboulton · 3Komentar