Por algum motivo, hoje, quando lancei uma nova versão para uma de nossas implantações, o pod travou em ContainerCreating com estes eventos de erro:
1h 1m 37 some-api-2275263275-01pq7 Pod Warning FailedMount {kubelet gke-cluster-1-default-pool-4399eaa3-os4v} Unable to mount volumes for pod "some-api-2275263275-01pq7_default(afc5ae68-5b5e-11e6-afbb-42010a800105)": timeout expired waiting for volumes to attach/mount for pod "some-api-2275263275-01pq7"/"default". list of unattached/unmounted volumes=[default-token-880jy]
1h 1m 37 some-api-2275263275-01pq7 Pod Warning FailedSync {kubelet gke-cluster-1-default-pool-4399eaa3-os4v} Error syncing pod, skipping: timeout expired waiting for volumes to attach/mount for pod "some-api-2275263275-01pq7"/"default". list of unattached/unmounted volumes=[default-token-880jy]
Em seguida, tentei dimensionar o cluster e mais de 75% dos pods em execução anteriormente mudaram para ContainerCreating e também ficaram presos lá. Isso causou uma falha generalizada em nosso sistema e tive que criar rapidamente um novo cluster.
Estamos usando o mecanismo de contêiner da plataforma em nuvem do Google e a versão do cluster é 1.3.2.
@montanaflynn Havia vários problemas relacionados ao armazenamento com a v1.3.2 que foram corrigidos com a v1.3.4 . Você provavelmente acertou um desses.
Se você compartilhar o /var/log/kubelet log
completo de um nó com uma implantação paralisada, posso dar uma olhada e confirmar se é um problema conhecido ou não. Eu também precisaria do nome do projeto / nome do cluster / zona do GKE para obter seus registros mestres. Sinta-se à vontade para me enviar um e-mail se não quiser compartilhar publicamente.
Eu vi um problema semelhante com a v1.3.3, mas no meu caso, a causa raiz era muito mais prosaica. Minha implantação requer um volume de segredos e eu tinha esquecido de criar o segredo associado para o cluster no qual estava tentando realizar a nova implantação. Não vi erros ao usar kubectl describe
ou kubectl logs
mas finalmente percebi que a implantação ficava travada no estado ContainerCreating
(sem registros afaict) se um volume do qual dependia estivesse faltando.
Este problema está obsoleto. Fechando.
Comentários muito úteis
Eu vi um problema semelhante com a v1.3.3, mas no meu caso, a causa raiz era muito mais prosaica. Minha implantação requer um volume de segredos e eu tinha esquecido de criar o segredo associado para o cluster no qual estava tentando realizar a nova implantação. Não vi erros ao usar
kubectl describe
oukubectl logs
mas finalmente percebi que a implantação ficava travada no estadoContainerCreating
(sem registros afaict) se um volume do qual dependia estivesse faltando.