Tsfresh: Izinkan nilai NaN atau None untuk diteruskan, dan diabaikan secara diam-diam

Dibuat pada 2 Des 2016  ·  3Komentar  ·  Sumber: blue-yonder/tsfresh

Di DataFrames saya, saya sering merasa sangat masuk akal untuk memiliki beberapa nilai NaN atau None.

Untuk menjalankan tsfresh, saya hanya mengatur semua nilai itu ke 0, yang ... tidak ideal. Bahkan memasukkan nilai yang hilang tidak akan berfungsi dengan baik untuk beberapa kasus penggunaan saya.

Namun, tampaknya (dari sudut pandang orang luar yang sangat naif), penyaringan seperti ini dapat dilakukan sendiri oleh tsfresh dengan relatif mudah.

Saat mengambil setiap time_series, ia dapat dengan mudah menghapus atau mengabaikan NaN/None secara kategoris, dan menghitung fitur pada nilai yang memang ada. Ini membuat hidup saya lebih mudah ketika, katakanlah, satu pelanggan mendaftar sebulan setelah pelanggan lain, dan dengan demikian memiliki nilai yang hilang untuk bulan itu.

Sekali lagi, perspektif orang luar yang super naif di sini, saya tahu ini mungkin mustahil. Tetapi jika memungkinkan, saya ingin menambahkan sedikit pemfilteran itu!

Komentar yang paling membantu

Ini adalah keputusan desain. tsfresh tidak akan mengotak-atik data deret waktu input dengan misalnya memasukkan nilai atau menjatuhkan NA.

Dalam banyak kasus, bukankah masuk akal untuk memperlakukan nan sebagai nan, daripada membutuhkan imputasi? Misalnya, fitur seperti mean, max, dan min lebih informatif jika nans diabaikan begitu saja saat menghitung nilainya.

Semua 3 komentar

Anda dapat menyelesaikan ini dengan memanggil df.dropna(axis=1, inplace=True) pada kerangka data yang berisi deret waktu dalam format tsfresh

Setelah itu, Anda bisa meneruskan df ke tsfresh

Ini adalah keputusan desain. tsfresh tidak akan mengotak-atik data deret waktu input dengan misalnya memasukkan nilai atau menjatuhkan NA.

Alasan di balik ini: Dalam proyek ilmu data, NA harus ditangani dengan sangat hati-hati, seringkali berisi banyak informasi. Kami tidak ingin paket kami menghapus informasi tersebut secara diam-diam dengan menghapusnya. Ini adalah cara kita tidak memasukkan data input.

Ini adalah keputusan desain. tsfresh tidak akan mengotak-atik data deret waktu input dengan misalnya memasukkan nilai atau menjatuhkan NA.

Dalam banyak kasus, bukankah masuk akal untuk memperlakukan nan sebagai nan, daripada membutuhkan imputasi? Misalnya, fitur seperti mean, max, dan min lebih informatif jika nans diabaikan begitu saja saat menghitung nilainya.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat