Seria bom se o streaming de HDF5 (que é necessário em situações fora do núcleo) fosse implementado no Tensorflow.
Esta solicitação de recurso é muito ampla e provavelmente não trabalharemos nela em um futuro próximo. Para manter o foco do rastreador de problemas, encerrarei este problema.
Bem, o que estou realmente pedindo é algo parecido com tf.TextLineReader
que suporte tanto streaming como acesso aleatório. A solicitação surgiu antes, por exemplo, em # 2089. O problema de sempre fechar essas solicitações de recursos é que as pessoas que procuram novas contribuições fáceis podem não vê-las, embora possam ser um bom primeiro passo para a base de código do TF.
+1. Para referência, em https://www.tensorflow.org/api_guides/python/reading_data , os formatos de arquivo suportados são apenas csv, binary e tfrecord. Mas hdf5 é um formato bastante comum. Para grandes conjuntos de dados, não é possível carregar um conjunto de dados inteiro com o formato .hdf5 como neste exemplo. https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/learn/hdf5_classification.py. Em vez disso, usamos pequenos arquivos hdf5 para cada amostra.
A única maneira viável de lidar com isso é primeiro transferir o arquivo hdf5 para o tfrecord ou o arquivo binário.
Comentários muito úteis
Bem, o que estou realmente pedindo é algo parecido com
tf.TextLineReader
que suporte tanto streaming como acesso aleatório. A solicitação surgiu antes, por exemplo, em # 2089. O problema de sempre fechar essas solicitações de recursos é que as pessoas que procuram novas contribuições fáceis podem não vê-las, embora possam ser um bom primeiro passo para a base de código do TF.