Tensorflow: Cómo compilar tensorflow usando SSE4.1, SSE4.2 y AVX.

Creado en 3 mar. 2017  ·  44Comentarios  ·  Fuente: tensorflow/tensorflow

Acabo de ejecutar Tensorflow. Ahora me encuentro con este error.

Actualmente usando Mac Yosemite, descargué tensorflow usando pip3 a través de anaconda, usando python 3.5.

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.

Entonces, dado que anaconda tiene un conjunto especial de comandos, ¿cómo se logra que tensorflow se ejecute en SSE4.1, SSE4.2 y AVX a través del sistema de comandos de anaconda? Estoy realmente confundido sobre cómo hacer esto.

Comentario más útil

Esto no es un error, solo advertencias que dicen que si compila TensorFlow desde la fuente, puede ser más rápido en su máquina.

SO pregunta sobre esto: http://stackoverflow.com/questions/41293077/how-to-compile-tensorflow-with-sse4-2-and-avx-instructions
Guía de TensorFlow para compilar desde la fuente: https://www.tensorflow.org/install/install_sources

Todos 44 comentarios

Esto no es un error, solo advertencias que dicen que si compila TensorFlow desde la fuente, puede ser más rápido en su máquina.

SO pregunta sobre esto: http://stackoverflow.com/questions/41293077/how-to-compile-tensorflow-with-sse4-2-and-avx-instructions
Guía de TensorFlow para compilar desde la fuente: https://www.tensorflow.org/install/install_sources

Tal como dijo @Carmezim , estos son simplemente mensajes de advertencia.
Para cada uno de sus programas, solo los verá una vez.
Y tal como dicen las advertencias, solo debe compilar TF con estas banderas si necesita hacer que TF sea más rápido.

Puede seguir nuestra guía para instalar TensorFlow desde las fuentes para compilar TF con soporte para conjuntos de instrucciones SIMD.

OK gracias. Lo entiendo.

¿Hay alguna manera de silenciar esto?

La única forma de silenciar estos mensajes de advertencia es compilar a partir de fuentes, usando la opción --config opt .

Una especie de "solución alternativa" (aunque imperfecta) que redirige los mensajes en Unix / Linux / OSX:
python myscript.py 2> / dev / null

@CGTheLegend @ocampesato puedes usar la variable de entorno TF TF_CPP_MIN_LOG_LEVEL y funciona de la siguiente manera:

  • Su valor predeterminado es 0 , mostrando todos los registros.
  • Para filtrar registros de INFO configúrelo en 1
  • WARNINGS adicionalmente, 2
  • y para filtrar adicionalmente registros de ERROR configúrelo en 3

Entonces puede hacer lo siguiente para silenciar las advertencias:

import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
import tensorflow as tf

@gunan @mrry He visto a muchas personas interesadas en silenciar las advertencias, ¿estaría interesado en agregar este tipo de información a los documentos?

Instalo desde la guía de instalación de tensorflow, también recibí esta advertencia.

pip3 install --upgrade tensorflow

@jadeydi En lugar de compilar desde el código fuente, "pip" simplemente instala el binario también, para que

Acabo de compilar tensorflow con soporte para SSE4.1 SSE4.2 AVX AVX2 y FMA. La compilación está disponible aquí: https://github.com/lakshayg/tensorflow-build . Espero que esto sea útil.

Hola @lakshayg , gracias por compartir. Es posible que desee consultar https://github.com/yaroslavvb/tensorflow-community-wheels

¿Aproximadamente mucho más rápido es la compilación en comparación con el estándar pip install tensorflow-gpu en Ubuntu? ¿Es solo más rápido para los cálculos de la CPU o hay algún beneficio para los cálculos de la GPU?

http://www.anandtech.com/show/2362/5

Esto apareció en Google y tiene algunos detalles técnicos decentes.

La prueba es una codificación DivX usando VirtualDub 1.7.6 y DivX 6.7. SSE4 aparece si elige habilitar un nuevo algoritmo de búsqueda completo para la estimación de movimiento, que se acelera mediante dos instrucciones SSE4: MPSADBW y PHMINPOSUW . La idea es que la estimación del movimiento (averiguar qué sucederá en los siguientes fotogramas de video) requiere mucho cálculo de sumas de diferencias absolutas, así como encontrar los valores mínimos de los resultados de esos cálculos. La instrucción SSE2 PSADBW puede calcular dos sumas de diferencias de un par de 16B enteros sin signo; la instrucción SSE4 MPSADBW puede hacer ocho.

...

En nuestro QX9650, la búsqueda completa con SSE4 habilitado se ejecuta aproximadamente un 45% más rápido que solo con SSE2

Ahora seguro qué funciones está usando tensorflow, pero podría valer la pena el esfuerzo.

Lo siento, pero es ridículo tener salida en todos los scripts TF de forma predeterminada. La mayoría de la gente probablemente no esté compilando TF desde la fuente ni quiera hacerlo.

@ TomAshley303 , ¡esta es una información increíble! No planeo volver a compilar desde la fuente. No quiero. Pero la información me dice qué hacer si mi modelo se vuelve grande y lento y necesita un aumento de rendimiento. Por lo general, es más barato recompilar con extensiones que comprar hardware nuevo, dado que tener buenos recorridos (que tenemos) minimiza el costo laboral de la recompilación (el tiempo de la CPU no importa, puede ejecutarse de la noche a la mañana).

Pasé por el proceso ... Fue sencillo y no tomó nada de tiempo. No es tu habitual cmake C ++ como una pesadilla.

Tengo un pequeño script bash para compilar TF en MacOS / Linux. Calcula dinámicamente las características de la CPU y las coloca como parámetros de compilación. Estaba pensando en crear un PR pero no encontré una carpeta con scripts (ayudantes) para compilaciones locales, solo ci_build. Si tiene sentido lo haré

esencia
https://gist.github.com/venik/9ba962c8b301b0e21f99884cbd35082f

Una nota para @gunan

Encontré este problema cuando estaba instalando TensorFlow por primera vez. Ahora tengo que averiguar cómo resolverlo nuevamente porque estoy instalando TensorFlow en una nueva máquina. Es un dolor de cabeza y la documentación que ha proporcionado no es clara en absoluto.

El hecho de que tenga que hacerlo por mi parte es ridículo y exasperante. No es bueno hacer que algo esté disponible desde pip / pip3 si luego te lanza advertencias todo el día.

Como mínimo, debe editar https://www.tensorflow.org/install/install_sources y explicar explícitamente cómo compilarlo con SSE / AVX

La solución que funcionó para mí: ingrese "-mavx -msse4.1 -msse4.2" cuando se le solicite durante el proceso de configuración (cuando ejecuta ./configure).

¿Es tan difícil agregar esto a sus instrucciones de instalación?

Gracias, de acuerdo con la respuesta de @Carmezim , obtengo la versión de aceleración de la CPU basada en avx y sse. Probé más rápido-rcnn (resnet-101) en Intel. El tiempo de coste se acelera alrededor del 30%, es realmente útil.

Puede silenciar las advertencias.
Simplemente agregue estos códigos en la parte superior.
importar sistema operativo
os.environ ['TF_CPP_MIN_LOG_LEVEL'] = '2'
importar tensorflow como tf
Como se menciona aquí: https://stackoverflow.com/a/44984610

podría agregar fácilmente una variable de usuario en Variable de entorno del sistema:
TF_CPP_MIN_LOG_LEVEL, valor = 2. Luego reinicia tu IDE

No se pueden esperar mejoras de @mikalyoung para los cálculos de GPU, ya que esas instrucciones establecidas son solo para CPU y permiten operaciones vectorizadas.
Entonces, si compara dos códigos que se ejecutan (idealmente) al 100% en GPU, uno en una instancia de Tensorflow compilada con soporte SIMD y otro sin él, debería obtener los mismos resultados en términos de velocidad (y con suerte también numéricamente).

IC: \ tf_jenkinshome \ workspace \ rel-win \ M \ windows \ PY \ 36 \ tensorflow \ core \ platform \ cpu_feature_guard.cc: 137] Su CPU admite instrucciones para las que este binario de TensorFlow no se compiló para usar: AVX AVX2

Como puede ver, la advertencia también está en mi sistema, pero en eso, no puedo entender 'yo' al comienzo de la advertencia, por lo que alguien puede ayudarme en ese caso.

"Yo" sólo hay una abreviatura de "INFO". Las otras letras que puede ver son E para error o F para fatal.

Entonces lo instalé usando conda. Si ahora deseo compilar desde la fuente para aprovechar cualquier aumento de velocidad, ¿necesito hacer algo para eliminar mi instalación conda de tensorflow? ¿O está en su propio pequeño contenedor y puedo compilarlo por separado desde la fuente?

Había instalado DeepSpeech y también un servidor DeepSpeech. Fui a iniciar el servidor y recibí un mensaje de error: "2018-01-17 08: 21: 49.120154: F tensorflow / core / platform / cpu_feature_guard.cc: 35] La biblioteca de TensorFlow se compiló para usar las instrucciones AVX2, pero estas no son ' t disponible en su máquina.
Abortado (núcleo volcado) "

Aparentemente necesito compilar TensorFlow en la misma computadora. ¿Hay una lista en algún lugar que coincida con Kubuntu 17.10.1 y un HP Probook 4330S, por favor?

¿Por qué no hay compilaciones de Windows? Tengo los mismos problemas, pero en lugar de silenciar las advertencias, me gustaría usar mi GPU, también tengo una tarjeta gráfica y y no Nvidia, ¿qué debo hacer?

* No tengo una tarjeta gráfica Nvidia, tengo una y una ¿qué hago?

* Tarjeta gráfica AMD .. autocorrección

Estas no son meras advertencias, ya que matan el proceso en mis cajas de prueba. Como también uso GPU AMD, activé una caja de flujo tensorial Digital Ocean para probar esto, pero parece que tampoco hay soporte para GPU allí, y está fallando miserablemente.

`# Id. De trabajo 0

Cargando hparams desde / home / science / tf-demo / models / nmt-chatbot / model / hparams

guardando hparams en / home / science / tf-demo / models / nmt-chatbot / model / hparams
guardando hparams en / home / science / tf-demo / models / nmt-chatbot / model / best_bleu / hparams
atención = scaled_luong
atención_arquitectura = estándar
tamaño_lote = 128
ancho de haz = 10
best_bleu = 0
best_bleu_dir = / inicio / ciencia / tf-demo / models / nmt-chatbot / model / best_bleu
check_special_token = Verdadero
colocate_gradients_with_ops = Verdadero
decay_factor = 1.0
pasos_de_decaimiento = 10000
dev_prefix = / inicio / ciencia / tf-demo / models / nmt-chatbot / data / tst2012
deserción = 0.2
encoder_type = bi
eos =
epoch_step = 0
olvidar_bias = 1.0
infer_batch_size = 32
init_op = uniforme
init_weight = 0.1
tasa_de_aprendizaje = 0.001
learning_rate_decay_scheme =
length_penalty_weight = 1.0
log_device_placement = Falso
max_gradient_norm = 5.0
max_train = 0
métricas = ['bleu']
num_buckets = 5
num_embeddings_partitions = 0
num_gpus = 1
num_layers = 2
num_residual_layers = 0
num_train_steps = 500000
num_translations_per_input = 10
num_units = 512
optimizador = adam
out_dir = / inicio / ciencia / tf-demo / models / nmt-chatbot / model
output_attention = Verdadero
override_loaded_hparams = Verdadero
pass_hidden_state = Verdadero
random_seed = Ninguno
residual = Falso
share_vocab = Falso
sos =
source_reverse = Falso
src = de
src_max_len = 50
src_max_len_infer = Ninguno
src_vocab_file = / home / science / tf-demo / models / nmt-chatbot / data / vocab.from
src_vocab_size = 15003
start_decay_step = 0
steps_per_external_eval = Ninguno
steps_per_stats = 100
subword_option =
test_prefix = / inicio / ciencia / tf-demo / models / nmt-chatbot / data / tst2013
tgt = a
tgt_max_len = 50
tgt_max_len_infer = Ninguno
tgt_vocab_file = / home / science / tf-demo / models / nmt-chatbot / data / vocab.to
tgt_vocab_size = 15003
time_major = Verdadero
train_prefix = / inicio / ciencia / tf-demo / models / nmt-chatbot / data / train
unit_type = lstm
vocab_prefix = / home / science / tf-demo / models / nmt-chatbot / data / vocab
warmup_scheme = t2t
pasos_de_calentamiento = 0

creando gráfico de tren ...

num_bi_layers = 1, num_bi_residual_layers = 0
celda 0 LSTM, olvide_bias = 1 DropoutWrapper, dropout = 0.2 DeviceWrapper, dispositivo = / gpu: 0
celda 0 LSTM, olvide_bias = 1 DropoutWrapper, dropout = 0.2 DeviceWrapper, dispositivo = / gpu: 0
celda 0 LSTM, olvide_bias = 1 DropoutWrapper, dropout = 0.2 DeviceWrapper, dispositivo = / gpu: 0
celda 1 LSTM, olvide_bias = 1 DropoutWrapper, dropout = 0.2 DeviceWrapper, dispositivo = / gpu: 0
tasa_de_aprendizaje = 0.001, pasos_de_calentamiento = 0, esquema_de_calentamiento = t2t
decay_scheme =, start_decay_step = 0, decay_steps 10000, decay_factor 1

Variables entrenables

incrustaciones / codificador / incrustación_ codificador: 0 , (15003, 512),
embeddings / decodificador / embedding_ decoder: 0 , (15003, 512),
dynamic_seq2seq / encoder / bidirectional_rnn / fw / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / fw / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / bw / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / bw / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decoder / memory_layer / kernel: 0 , (1024, 512),
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_0 / basic_lstm_cell / kernel: 0 , (1536, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_0 / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_1 / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_1 / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decodificador / atencion / luong_attención / atencion_g: 0, (), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / capa_atención / kernel: 0 , (1536, 512), / dispositivo: GPU : 0
dynamic_seq2seq / decoder / output_projection / kernel: 0 , (512, 15003), / device: GPU : 0

creando gráfico de evaluación ...

num_bi_layers = 1, num_bi_residual_layers = 0
celda 0 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0
celda 0 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0
celda 0 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0
celda 1 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0

Variables entrenables

incrustaciones / codificador / incrustación_ codificador: 0 , (15003, 512),
embeddings / decodificador / embedding_ decoder: 0 , (15003, 512),
dynamic_seq2seq / encoder / bidirectional_rnn / fw / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / fw / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / bw / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / bw / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decoder / memory_layer / kernel: 0 , (1024, 512),
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_0 / basic_lstm_cell / kernel: 0 , (1536, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_0 / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_1 / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_1 / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decodificador / atencion / luong_attención / atencion_g: 0, (), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / capa_atención / kernel: 0 , (1536, 512), / dispositivo: GPU : 0
dynamic_seq2seq / decoder / output_projection / kernel: 0 , (512, 15003), / device: GPU : 0

creando inferir gráfico ...

num_bi_layers = 1, num_bi_residual_layers = 0
celda 0 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0
celda 0 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0
celda 0 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0
celda 1 LSTM, olvide_bias = 1 DeviceWrapper, dispositivo = / gpu: 0

Variables entrenables

incrustaciones / codificador / incrustación_ codificador: 0 , (15003, 512),
embeddings / decodificador / embedding_ decoder: 0 , (15003, 512),
dynamic_seq2seq / encoder / bidirectional_rnn / fw / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / fw / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / bw / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / encoder / bidirectional_rnn / bw / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decoder / memory_layer / kernel: 0 , (1024, 512),
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_0 / basic_lstm_cell / kernel: 0 , (1536, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_0 / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_1 / basic_lstm_cell / kernel: 0 , (1024, 2048), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / multi_rnn_cell / cell_1 / basic_lstm_cell / bias: 0 , (2048,), / device: GPU : 0
dynamic_seq2seq / decodificador / atencion / luong_attención / atencion_g: 0, (), / dispositivo: GPU : 0
dynamic_seq2seq / decodificador / atención / capa_atención / kernel: 0 , (1536, 512), / dispositivo: GPU : 0
dynamic_seq2seq / decoder / output_projection / kernel: 0 , (512, 15003),

log_file = / inicio / ciencia / tf-demo / models / nmt-chatbot / model / log_1519669184

2018-02-26 18: 19: 44.862736: I tensorflow / core / platform / cpu_feature_guard.cc: 137] Su CPU admite instrucciones para las que este binario de TensorFlow no se compiló para usar: SSE4.1 SSE4.2 AVX AVX2 FMA
Asesinado`

qué comando debe ejecutarse y dónde ejecutar estos comandos y cómo, por favor, dígalo. Necesito ayuda desesperadamente.

¿Pero significa que el sistema no está usando GPU para el proceso?

Bueno, debe resolver esto si está creando tensorflow en un entorno de aceleración, como usar k-fold en KerasClassifier.
Para resolver esto, deberá crear tensorflow desde la fuente tal como todos recomiendan.
Para construir tensorflow desde la fuente, necesitará tener la siguiente herramienta

  1. Instale git en su máquina si aún no lo ha hecho; en la máquina ubuntu simplemente escriba "sudo apt-get install git
  2. Deberá instalar bazel. Se recomienda encarecidamente utilizar el repositorio APT personalizado. Siga las instrucciones de este enlace para instalar bazel https://docs.bazel.build/versions/master/install-ubuntu.html.
  3. Necesita las siguientes dependencias de Python ... usando el comando a continuación
    numpy, dev y wheel
    sudo apt-get install python-numpy python-dev python-pip python-wheel
    4.Una vez que tenga todas las dependencias instaladas, clone el github de tensorflow en su unidad local
    clon de git https://github.com/tensorflow/tensorflow
  4. Vaya a la ubicación para clonar tensorflow y cd al archivo tensorflow y ejecute el archivo de configuración
    cd tensor
    ./configure

Simplemente siga las instrucciones en la pantalla para completar la instalación de tensorflow.
Recomiendo encarecidamente actualizar su máquina una vez que tensorflow esté instalado
sudo apt-get update

Buena suerte y disfruta ...

Simplemente repitiendo en este hilo que no debes simplemente silenciar estas advertencias: estoy obteniendo un tiempo de entrenamiento un 43% más rápido al construir desde la fuente, creo que vale la pena el esfuerzo.

  • Las instrucciones de Tensorflow
  • ... pero en realidad no explican cómo activar SSE / AVX / FMA, etc., así que use este hilo para tener una idea de cómo configurar sus banderas de compilación de Bazel

cómo instalar tensorflow usando este archivo "tensorflow-1.6.0-cp36-cp36m-win_amd64.whl"

@anozele pip3 install --upgrade *path to wheel file*

@gunan --config = opt no es suficiente, también debe agregar, por ejemplo, --copt = "- msse4.2", cuando compila TensorFlow desde la fuente.

Según Intel, https://software.intel.com/en-us/articles/intel-optimization-for-tensorflow-installation-guide , si usa Tensorflow construido por Intel, puede ignorar esas advertencias ya que todo el conjunto de instrucciones disponible ser utilizado por el backend MKL. ¿Alguien de Tensorflow puede confirmar esto?

Esto no es un error, solo advertencias que dicen que si compila TensorFlow desde la fuente, puede ser más rápido en su máquina.

SO pregunta sobre esto: http://stackoverflow.com/questions/41293077/how-to-compile-tensorflow-with-sse4-2-and-avx-instructions
Guía de TensorFlow para compilar desde la fuente: https://www.tensorflow.org/install/install_sources

Sin embargo, no es más rápido que no uso -FMA -AVX -SSE https://stackoverflow.com/questions/57197854/fma-avx-sse-flags-did-not-bring-me-good-performance

Hola. Lo siento si estoy golpeando a un caballo muerto. Me pregunto por qué la rueda de pip predeterminada no son los binarios compilados con instrucciones avanzadas.

Hola. Lo siento si estoy golpeando a un caballo muerto. Me pregunto por qué la rueda de pip predeterminada no son los binarios compilados con instrucciones avanzadas.

Esto se debe a que las arquitecturas de CPU antiguas no admiten el conjunto de instrucciones avanzadas. Consulte la wiki para obtener una lista detallada de cpus compatibles con AVX, AVX2 o AVX512. Si el binario pip predeterminado se compila con estos conjuntos de instrucciones, tensorflow no puede funcionar en CPU antiguas.

¿Pero significa que el sistema no está usando GPU para el proceso?

No, se muestra incluso si está usando GPU, si no ha silenciado los mensajes, también debería ver a Tensorflor cargando su dispositivo GPU en el símbolo del sistema.

Si consulta con este repositorio:
Por favor revise el código a continuación:

https://github.com/fo40225/tensorflow-windows-wheel

Ha compilado casi todas las versiones de TF con SSE y AVX
¡Ha compilado casi todas las versiones de TF!

Este artículo fue un buen tutorial sobre cómo compilar desde la fuente, incluidas las banderas
https://medium.com/@pierreontech/setup -a-high-performance-conda-tensorflow-environment-976995158cb1

intente forzar la inclusión de las extensiones apropiadas usando opciones de bazel adicionales como --copt=-mavx --copt=-msse4.1 --copt=-msse4.2

¿Fue útil esta página
0 / 5 - 0 calificaciones