出于某种原因,今天当我向我们的部署之一推出新版本时,pod 卡在 ContainerCreating 中,并出现以下错误事件:
1h 1m 37 some-api-2275263275-01pq7 Pod Warning FailedMount {kubelet gke-cluster-1-default-pool-4399eaa3-os4v} Unable to mount volumes for pod "some-api-2275263275-01pq7_default(afc5ae68-5b5e-11e6-afbb-42010a800105)": timeout expired waiting for volumes to attach/mount for pod "some-api-2275263275-01pq7"/"default". list of unattached/unmounted volumes=[default-token-880jy]
1h 1m 37 some-api-2275263275-01pq7 Pod Warning FailedSync {kubelet gke-cluster-1-default-pool-4399eaa3-os4v} Error syncing pod, skipping: timeout expired waiting for volumes to attach/mount for pod "some-api-2275263275-01pq7"/"default". list of unattached/unmounted volumes=[default-token-880jy]
然后我尝试扩展集群,并且超过 75% 的先前运行的 pod 切换到 ContainerCreating 并且也卡在那里。 这导致了我们系统的广泛故障,我不得不快速创建一个新集群。
我们使用的是谷歌云平台的容器引擎,集群版本为1.3.2。
@montanaflynn v1.3.2存在许多与存储相关的问题,这些问题已通过 v1.3.4 修复。 你可能击中了其中之一。
如果您从部署卡住的节点共享完整的/var/log/kubelet log
,我可以查看并确认它是否是已知问题。 我还需要您的 GKE 项目名称/集群名称/区域来获取您的主日志。 如果您不想公开分享,请随时给我发电子邮件。
我在 v1.3.3 中看到了类似的问题,但在我的情况下,根本原因是更多的行人。 我的部署需要一个机密卷,但我忘记为我尝试执行新部署的集群创建关联的机密。 我在使用kubectl describe
或kubectl logs
时没有看到任何错误,但最终意识到如果它依赖的卷丢失,部署会停留在ContainerCreating
状态(没有日志 afaict)。
这个问题很陈旧。 关闭。
最有用的评论
我在 v1.3.3 中看到了类似的问题,但在我的情况下,根本原因是更多的行人。 我的部署需要一个机密卷,但我忘记为我尝试执行新部署的集群创建关联的机密。 我在使用
kubectl describe
或kubectl logs
时没有看到任何错误,但最终意识到如果它依赖的卷丢失,部署会停留在ContainerCreating
状态(没有日志 afaict)。