Akan lebih baik jika streaming HDF5 (yang diperlukan dalam situasi di luar inti) akan diimplementasikan di Tensorflow.
Permintaan fitur ini sangat luas, dan kemungkinan besar kami tidak akan mengerjakannya di masa mendatang. Untuk menjaga pelacak masalah tetap fokus, saya akan menutup masalah ini.
Nah, yang sebenarnya saya minta adalah sesuatu yang sejalan dengan tf.TextLineReader
yang mendukung streaming/akses acak. Permintaan muncul sebelumnya misalnya di #2089 . Masalah dengan selalu menutup permintaan fitur ini adalah bahwa orang yang mencari kontribusi baru yang mudah mungkin tidak melihatnya, meskipun itu mungkin merupakan langkah pertama yang baik ke dalam basis kode TF.
+1. Untuk referensi, di https://www.tensorflow.org/api_guides/python/reading_data , format file yang didukung hanya csv, biner, dan tfrecord. Tapi hdf5 adalah format yang cukup umum. Untuk dataset besar, tidak mungkin memuat seluruh dataset dengan format .hdf5 sekali seperti contoh ini. https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/learn/hdf5_classification.py. Sebagai gantinya, kami menggunakan file hdf5 kecil untuk setiap sampel.
Satu-satunya cara yang layak untuk mengatasinya adalah dengan mentransfer file hdf5 ke tfrecord atau file biner terlebih dahulu.
Komentar yang paling membantu
Nah, yang sebenarnya saya minta adalah sesuatu yang sejalan dengan
tf.TextLineReader
yang mendukung streaming/akses acak. Permintaan muncul sebelumnya misalnya di #2089 . Masalah dengan selalu menutup permintaan fitur ini adalah bahwa orang yang mencari kontribusi baru yang mudah mungkin tidak melihatnya, meskipun itu mungkin merupakan langkah pertama yang baik ke dalam basis kode TF.