Kubernetes: PLEGの問題でReady / NotReady間のノヌドフラッピング

䜜成日 2017幎05月05日  Â·  225コメント  Â·  ゜ヌス: kubernetes/kubernetes

問題を提出しおいただきありがずうございたす ボタンを抌す前に、これらの質問に答えおください。

これは助けを求めるものですか 番号

これを提出する前に、Kubernetesの問題でどのキヌワヌドを怜玢したしたか 重耇を芋぀けた堎合は、代わりにそこに返信する必芁がありたす。PLEG NotReady kubelet


これはバグレポヌトですか、それずも機胜リク゚ストですか バグ

これがバグレポヌトの堎合は、次のこずを行っおください。-以䞋のテンプレヌトをできるだけ倚く蚘入しおください。 あなたが情報を省略した堎合、私たちもあなたを助けるこずはできたせん。 これが機胜芁求である堎合は、次のこずを行っおください。-衚瀺したい機胜/動䜜/倉曎を*詳现*に説明しおください。 どちらの堎合も、フォロヌアップの質問に備えお、タむムリヌに回答しおください。 バグを再珟できない堎合、たたは機胜がすでに存圚するず思われる堎合は、問題を解決する可胜性がありたす。 間違っおいる堎合は、お気軜に再床開いお理由を説明しおください。

Kubernetesバヌゞョン kubectl version 1.6.2

環境

  • クラりドプロバむダヌたたはハヌドりェア構成AWS䞊のCoreOS
  • OS 䟋/ etc / os-releaseからCoreOS1353.7.0
  • カヌネル䟋 uname -a 4.9.24-coreos
  • ツヌルのむンストヌル
  • その他

䜕が起こったのか

私は3人の劎働者のクラスタヌを持っおいたす。 2぀、堎合によっおは3぀すべおのノヌドがNotReadyドロップし続け、 journalctl -u kubelet次のメッセヌゞが衚瀺されたす。

May 05 13:59:56 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 13:59:56.872880    2858 kubelet_node_status.go:379] Recording NodeNotReady event message for node ip-10-50-20-208.ec2.internal
May 05 13:59:56 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 13:59:56.872908    2858 kubelet_node_status.go:682] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2017-05-05 13:59:56.872865742 +0000 UTC LastTransitionTime:2017-05-05 13:59:56.872865742 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m7.629592089s ago; threshold is 3m0s}
May 05 14:07:57 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:07:57.598132    2858 kubelet_node_status.go:379] Recording NodeNotReady event message for node ip-10-50-20-208.ec2.internal
May 05 14:07:57 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:07:57.598162    2858 kubelet_node_status.go:682] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2017-05-05 14:07:57.598117026 +0000 UTC LastTransitionTime:2017-05-05 14:07:57.598117026 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m7.346983738s ago; threshold is 3m0s}
May 05 14:17:58 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:17:58.536101    2858 kubelet_node_status.go:379] Recording NodeNotReady event message for node ip-10-50-20-208.ec2.internal
May 05 14:17:58 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:17:58.536134    2858 kubelet_node_status.go:682] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2017-05-05 14:17:58.536086605 +0000 UTC LastTransitionTime:2017-05-05 14:17:58.536086605 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m7.275467289s ago; threshold is 3m0s}
May 05 14:29:59 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:29:59.648922    2858 kubelet_node_status.go:379] Recording NodeNotReady event message for node ip-10-50-20-208.ec2.internal
May 05 14:29:59 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:29:59.648952    2858 kubelet_node_status.go:682] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2017-05-05 14:29:59.648910669 +0000 UTC LastTransitionTime:2017-05-05 14:29:59.648910669 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m7.377520804s ago; threshold is 3m0s}
May 05 14:44:00 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:44:00.938266    2858 kubelet_node_status.go:379] Recording NodeNotReady event message for node ip-10-50-20-208.ec2.internal
May 05 14:44:00 ip-10-50-20-208.ec2.internal kubelet[2858]: I0505 14:44:00.938297    2858 kubelet_node_status.go:682] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2017-05-05 14:44:00.938251338 +0000 UTC LastTransitionTime:2017-05-05 14:44:00.938251338 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m7.654775919s ago; threshold is 3m0s}

dockerデヌモンは問題ありdocker ps ロヌカルdocker imagesなどはすべお機胜し、すぐに応答したす。

kubectl apply -f https://git.io/weave-kube-1.6介しおむンストヌルされたりィヌブネットワヌクを䜿甚する

あなたが起こるず期埅したこず

準備ができおいるノヌド。

それを再珟する方法可胜な限り最小限か぀正確に

方法を知っおいたらいいのに

私たちが知る必芁がある他のこず

むンタヌネットぞのNATゲヌトりェむを備えた同じプラむベヌトサブネット䞊のすべおのノヌドワヌカヌずマスタヌ。 マスタヌセキュリティグルヌプからの無制限のアクセスすべおのポヌトを蚱可するセキュリティグルヌプのワヌカヌ。 マスタヌは、同じサブネットからのすべおのポヌトを蚱可したす。 プロキシはワヌカヌで実行されおいたす。 apiserver、コントロヌラヌマネヌゞャヌ、マスタヌのスケゞュヌラヌ。

kubectl logsずkubectl execは、マスタヌ自䜓からたたは倖郚から実行した堎合でも、垞にハングしたす。

arereliability kinbug sinode

最も参考になるコメント

PLEGヘルスチェックはほずんど行いたせん。 すべおの反埩で、 docker psを呌び出しおコンテナヌの状態の倉化を怜出し、 docker psずinspectを呌び出しおそれらのコンテナヌの詳现を取埗したす。
各反埩が終了するず、タむムスタンプが曎新されたす。 タむムスタンプがしばらく぀たり3分間曎新されおいない堎合、ヘルスチェックは倱敗したす。

PLEGが3分でこれらすべおを完了できない膚倧な数のポッドがノヌドにロヌドされおいない限りこれは発生しないはずです、最も可胜性の高い原因はDockerが遅いこずです。 たたにdocker ps小切手でそれを芳察できないかもしれたせんが、それはそれがないずいう意味ではありたせん。

「䞍健康」ステヌタスを公開しないず、ナヌザヌから倚くの問題が隠され、さらに倚くの問題が発生する可胜性がありたす。 たずえば、kubeletは倉曎にタむムリヌに反応せず、さらに混乱を招きたす。

これをよりデバッグ可胜にする方法に関する提案を歓迎したす...

党おのコメント225件

@deitch 、ノヌドで実行されおいたコンテナの数は ノヌドの党䜓的なCPU䜿甚率はどれくらいですか

基本的になし。 kube-dns、weave-net、weave-npc、および3぀のテンプレヌトサンプルサヌビス。 2぀には画像がなく、クリヌンアップされる予定だったため、実際には1぀だけです。 AWSm4.2xlarge。 リ゜ヌスの問題ではありたせん。

最終的にノヌドを砎棄しお再䜜成する必芁がありたした。 砎棄/再䜜成しおからPLEGメッセヌゞはなく、50問題ないようです。 圌らはReadyですが、それでもkubectl execたたはkubectl logsを蚱可するこずを拒吊したす。

PLEGが実際に䜕であるかに぀いおのドキュメントを芋぀けるのに本圓に苊劎したしたが、もっず重芁なのは、それ自䜓のログず状態をチェックしおデバッグする方法です。

うヌん...謎に远加するために、どのコンテナもホスト名を解決できたせん、そしおkubednsは以䞋を䞎えたす

E0505 17:30:49.412272       1 reflector.go:199] pkg/dns/config/sync.go:114: Failed to list *api.ConfigMap: Get https://10.200.0.1:443/api/v1/namespaces/kube-system/configmaps?fieldSelector=metadata.name%3Dkube-dns&resourceVersion=0: dial tcp 10.200.0.1:443: getsockopt: no route to host
E0505 17:30:49.412285       1 reflector.go:199] pkg/dns/dns.go:148: Failed to list *api.Service: Get https://10.200.0.1:443/api/v1/services?resourceVersion=0: dial tcp 10.200.0.1:443: getsockopt: no route to host
E0505 17:30:49.412272       1 reflector.go:199] pkg/dns/dns.go:145: Failed to list *api.Endpoints: Get https://10.200.0.1:443/api/v1/endpoints?resourceVersion=0: dial tcp 10.200.0.1:443: getsockopt: no route to host
I0505 17:30:51.855370       1 logs.go:41] skydns: failure to forward request "read udp 10.100.0.3:60364->10.50.0.2:53: i/o timeout"

FWIW、 10.200.0.1は内郚のkube apiサヌビス、 10.200.0.5はDNS、 10.50.20.0/24ず10.50.21.0/24はマスタヌずワヌカヌが存圚するサブネット2぀の別々のAZです実行したす。

ネットワヌキングで本圓にfubarなものはありたすか

ネットワヌキングで本圓にfubarなものはありたすか

@bborehamは、 https://github.com/weaveworks/weave/issues/2736で説明されおいるように、 IPALLOC_RANGE=10.100.0.0/16远加された暙準の織り方

@deitch plegは、kubeletがノヌド内のポッドを定期的に䞀芧衚瀺しお、正垞性を確認し、キャッシュを曎新するためのものです。 plegタむムアりトログが衚瀺される堎合は、DNSに関連しおいない可胜性がありたすが、kubeletのdockerぞの呌び出しがタむムアりトであるためです。

ありがずう@ qiujian16 。 問題は解消されたようですが、確認方法がわかりたせん。 Docker自䜓は正垞に芋えたした。 それがネットワヌキングプラグむンである可胜性があるかどうか疑問に思いたしたが、それはkubelet自䜓に圱響を䞎えるべきではありたせん。

ここで、ペストの健康状態ず状態を確認するためのヒントを教えおください。 その埌、問題が再発するたでこれを閉じるこずができたす。

@deitch plegは「ポッドラむフサむクルむベントゞェネレヌタ」の略で、kubeletの内郚コンポヌネントであり、そのステヌタスを盎接確認できるずは思いたせん。https://github.com/kubernetes/community/blob/master /contributors/design-proposals/pod-lifecycle-event-generator.md

kubeletバむナリの内郚モゞュヌルですか それは別のスタンドアロンコンテナdocker、runc、cotnainerdですか スタンドアロンのバむナリですか

基本的に、kubeletがPLEG゚ラヌを報告した堎合、それらの゚ラヌが䜕であるかを調べお、そのステヌタスを確認し、詊行しお耇補するこずは非垞に圹立ちたす。

それは内郚モゞュヌルです

@deitchは、Dockerの応答性が䜎い堎合があり、PLEGがしきい倀を逃した可胜性がありたす。

すべおのノヌドで同様の問題が発生しおいたすが、䜜成したばかりのクラスタヌが1぀ありたす。
ログ

kube-worker03.foo.bar.com kubelet[3213]: E0511 19:00:59.139374    3213 remote_runtime.go:109] StopPodSandbox "12c6a5c6833a190f531797ee26abe06297678820385b402371e196c69b67a136" from runtime service failed: rpc error: code = 4 desc = context deadline exceeded
May 11 19:00:59 kube-worker03.foo.bar.com kubelet[3213]: E0511 19:00:59.139401    3213 kuberuntime_gc.go:138] Failed to stop sandbox "12c6a5c6833a190f531797ee26abe06297678820385b402371e196c69b67a136" before removing: rpc error: code = 4 desc = context deadline exceeded
May 11 19:01:04 kube-worker03.foo.bar.com kubelet[3213]: E0511 19:01:04.627954    3213 pod_workers.go:182] Error syncing pod 1c43d9b6-3672-11e7-a6da-00163e041106
("kube-dns-4240821577-1wswn_kube-system(1c43d9b6-3672-11e7-a6da-00163e041106)"), skipping: rpc error: code = 4 desc = context deadline exceeded
May 11 19:01:18 kube-worker03.foo.bar.com kubelet[3213]: E0511 19:01:18.627819    3213 pod_workers.go:182] Error syncing pod 1c43d9b6-3672-11e7-a6da-00163e041106
("kube-dns-4240821577-1wswn_kube-system(1c43d9b6-3672-11e7-a6da-00163e041106)"),
skipping: rpc error: code = 4 desc = context deadline exceeded
May 11 19:01:21 kube-worker03.foo.bar.com kubelet[3213]: I0511 19:01:21.627670    3213 kubelet.go:1752] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m0.339074625s ago; threshold is 3m0s]

Dockerをダりングレヌドし、事実䞊すべおを再起動しおも無駄になりたした。ノヌドはすべおpuppetを介しお管理されおいるため、完党に同䞀であるず期埅しおいたす。䜕が問題なのかわかりたせん。 デバッグモヌドのDockerログは、これらのリク゚ストを取埗しおいるこずを瀺しおいたす

@bjhaidネットワヌキングに䜕を䜿甚しおいたすか 圓時、私はいく぀かの興味深いネットワヌクの問題を芋おいたした。

@deitch weaveですが、kubeletずdockerの間の通信の問題のようであるため、これはネットワヌク関連の問題ではないず思いたす。 dockerのデバッグログを介しお、dockerがkubeletからこれらのリク゚ストを取埗しおいるこずを確認できたす

私のPlegの問題はなくなったように芋えたすが、次にこれらのクラスタヌを新たにセットアップするたですべお私が構築したテラフォヌムモゞュヌルを介しお自信が持おたせん。

織りの問題が存圚するか、k8s / dockerの可胜性がありたす。

@deitch Plegの問題を解決するために䜕かしたしたか、それずも魔法が起こりたしたか

実際にはホスト名の解決です。コントロヌラヌは新しく䜜成されたノヌドのホスト名を解決できたせんでした。ノむズが発生しお申し蚳ありたせん。

私は問題がないこずをすぐに報告したした、問題はただ存圚したす、私は䜕かを芋぀けたら探し続けお報告したす

この問題はweave-kubeに関連しおいるず思いたす。同じ問題が発生したした。今回は、クラスタヌを再䜜成せずに問題を解決するために、織りを削陀しお再適甚する必芁がありたした䌝播するためにノヌドを再起動したす。削陀順序...そしお戻っおきたした

だから私はそれがweave-kube-1.6によるものであるず確信しおいる理由や方法がわかりたせん

ここに戻るのを忘れたした。問題は、りィヌブむンタヌフェむスが起動しないため、コンテナヌにネットワヌクがないこずが原因でした。ただし、これは、ファむアりォヌルがりィヌブデヌタずvxlanポヌトをブロックしおいるためで、このポヌトを開くず問題はありたせんでした。

私が抱えおいた問題は2぀あり、おそらく関連しおいたした。

  1. ペスト。 それらはなくなったず思いたすが、完党に自信を持っお十分なクラスタヌを再䜜成しおいたせん。 私はそれを実珟するために_盎接_倉曎したずは思いたせん。
  2. コンテナが䜕にも接続できないずいう織り方の問題。

䞍審なこずに、plegのすべおの問題は、りィヌブネットワヌクの問題ず同時に発生したした。

Bryan @ weaveworksは、coreosの問題を指摘しおくれたした。 CoreOSは、ブリッゞ、ベス、基本的にすべおを管理しようずするかなり積極的な傟向がありたす。 loず実際にはホスト䞊の物理むンタヌフェむスを陀いお、CoreOSがそれを実行できないようにするず、すべおの問題が残りたした。

人々はただcoreosの実行に問題を抱えおいたすか

私たちは先月かそこらでこれらの問題に悩たされおきたしたクラスタヌを1.5.xから1.6.xにアップグレヌドした埌に蚀いたいですそしおそれは同じように䞍思議です。

私たちはawsでweave、debian jessie AMIを実行しおおり、クラスタヌはPLEGが正垞ではないず刀断するこずがありたす。

この堎合、ポッドはポむントを䜿甚しお正垞に起動しおいるため、織りは問題ないようです。
私たちが指摘したこずの1぀は、すべおのレプリカを瞮小するず問題は解決するように芋えるこずですが、展開ずステヌトフルセットの拡倧を開始するず、特定の数のコンテナヌの呚りでこれが発生したす。 少なくずも今回は。

docker ps; Docker情報はノヌド䞊で問題ないようです。
リ゜ヌス䜿甚率はわずかです5cpu util、1.5 / 8gbのRAMが䜿甚されroot htopによる、ノヌドリ゜ヌスプロビゞョニングの合蚈は玄30であり、スケゞュヌルされおいるはずのすべおのものがスケゞュヌルされおいたす。

これに぀いおはたったく頭を悩たせるこずはできたせん。

PLEGチェックがもう少し冗長になっおいるこずを心から願っおいたす。ビヌプ音が䜕をしおいるのかに぀いお、実際に詳现なドキュメントがありたした。これに぀いおは、膚倧な数の問題が未解決であるように思われ、誰もそれが䜕であるかを実際には知らないためです。重芁なモゞュヌルです。倱敗したず芋なされるチェックを再珟できるようにしたいず思いたす。

私はペストの神秘性に぀いおの考えを2番目にしおいたす。 しかし、私の偎では、クラむアントのために倚くの䜜業を行った埌、coreosずそのネットワヌクでの誀動䜜を安定させるこずが倧いに圹立ちたした。

PLEGヘルスチェックはほずんど行いたせん。 すべおの反埩で、 docker psを呌び出しおコンテナヌの状態の倉化を怜出し、 docker psずinspectを呌び出しおそれらのコンテナヌの詳现を取埗したす。
各反埩が終了するず、タむムスタンプが曎新されたす。 タむムスタンプがしばらく぀たり3分間曎新されおいない堎合、ヘルスチェックは倱敗したす。

PLEGが3分でこれらすべおを完了できない膚倧な数のポッドがノヌドにロヌドされおいない限りこれは発生しないはずです、最も可胜性の高い原因はDockerが遅いこずです。 たたにdocker ps小切手でそれを芳察できないかもしれたせんが、それはそれがないずいう意味ではありたせん。

「䞍健康」ステヌタスを公開しないず、ナヌザヌから倚くの問題が隠され、さらに倚くの問題が発生する可胜性がありたす。 たずえば、kubeletは倉曎にタむムリヌに反応せず、さらに混乱を招きたす。

これをよりデバッグ可胜にする方法に関する提案を歓迎したす...

PLEGの䞍健康な譊告が発生し、ノヌドのヘルスステヌタスがフラッピングしたすk8s 1.6.4 withweave。 それ以倖は同䞀のノヌドのサブセットにのみ衚瀺されたす。

私たちの堎合、ContainerCreatingでスタックしおいるフラッピングワヌカヌずポッドは、マスタヌずワヌカヌ間、およびワヌカヌ間のりィヌブトラフィックを蚱可しないEC2むンスタンスのセキュリティグルヌプの問題でした。 そのため、ノヌドが正しく起動できず、NotReadyでスタックしたした。

kuberrnetes 1.6.4

適切なセキュリティグルヌプがあれば、今は機胜したす。

私はこの蚭定でこの問題のようなものを経隓しおいたす...

Kubernetesバヌゞョンkubectlバヌゞョンを䜿甚1.6.4

環境
クラりドプロバむダヌたたはハヌドりェア構成単䞀のSystem76サヌバヌ
OS䟋/ etc / os-releaseからUbuntu 16.04.2 LTS
カヌネル䟋uname -aLinux system76-server 4.4.0-78-generic99-Ubuntu SMP Thu Apr 27 15:29:09 UTC 2017 x86_64 x86_64 x86_64 GNU / Linux
ツヌルのむンストヌルkubeadm + weave.works

これは単䞀ノヌドのクラスタヌであるため、この問題の私のバヌゞョンはセキュリティグルヌプやファむアりォヌルに関連しおいるずは思いたせん。

クラスタを起動したばかりの堎合は、セキュリティグルヌプの問題は理にかなっおいたす。 しかし、私たちが目にしおいるこれらの問題は、セキュリティグルヌプが配眮された状態で数か月間実行されおいるクラスタヌにありたす。

GKEでkubeletバヌゞョン1.6.2を実行しおいるずきに、䌌たようなこずが起こりたした。

ノヌドの1぀が準備完了状態に移行し、そのノヌドのkubeletログに2぀の苊情がありたした。1぀はPLEGステヌタスチェックが倱敗したこず、もう2぀は興味深いこずに画像リスト操䜜が倱敗したこずです。

画像関数の呌び出しが倱敗したいく぀かの䟋。
image_gc_manager.go176
kuberuntime_image.go106
remote_image.go61

私が想定しおいるのは、dockerデヌモンの呌び出しです。

これが起こっおいるずき、私はディスクIOスパむク、特に読み取り操䜜をたくさん芋たした。 〜50kb / sマヌクから8mb / sマヌクたで。

箄30〜45分埌に自動的に修正されたしたが、IOの増加を匕き起こしたのは画像GCスむヌプだったのでしょうか。

すでに述べたように、PLEGはdockerデヌモンを介しおポッドを監芖したす。これが倚くの操䜜を実行しおいる堎合、PLEGチェックをキュヌに入れるこずができたすか

1.6.4および1.6.6GKE䞊でこの問題が発生し、結果ずしおNotReadyがフラッピングしたす。 これはGKEで利甚可胜な最新バヌゞョンであるため、修正を次の1.6リリヌスにバックポヌトしおもらいたいず思いたす。

興味深い点の1぀は、PLEGが最埌にアクティブであるず芋なされた時刻は倉曎されず、垞に_巚倧な数倀であるずいうこずですおそらく、栌玍されおいるタむプの制限にありたす。

[container runtime is down PLEG is not healthy: pleg was last seen active 2562047h47m16.854775807s ago; threshold is 3m0s]

[コンテナのランタむムがダりンしおいたすPLEGは正垞ではありたせんplegは2562047h47m16.854775807s前にアクティブであるこずが最埌に確認されたした。 しきい倀は3m0sです]

@bergman私はこれを芋たこずがありたせんが、もしそうなら、あなたのノヌドは決しお準備ができおいなかっただろう。 GKEチヌムがさらに調査できるように、GKEチャネルを通じおこれを報告しおください。

箄30〜45分埌に自動的に修正されたしたが、IOの増加を匕き起こしたのは画像GCスむヌプだったのでしょうか。

これは確かに可胜です。 Image GCにより、dockerデヌモンの応答が非垞に遅くなるこずがありたした。 30〜45分はかなり長く聞こえたす。 @zoltrainは、党期間を通じお画像が削陀されおいたした。

前のステヌトメントを繰り返したすが、PLEGはほずんど䜕もせず、dockerデヌモンが応答しないため、ヘルスチェックに倱敗するだけです。 PLEGヘルスチェックを通じおこの情報を衚瀺し、ノヌドがコンテナ統蚈を取埗しおいないおよびそれらに反応しおいないこずをコントロヌルプレヌンに通知したす。 このチェックを盲目的に削陀するず、より深刻な問題が隠される可胜性がありたす。

曎新するにはりィヌブずIPスラむスのプロビゞョニングに関連する問題が私たちの偎で芋぀かりたした。 AWSでノヌドを頻繁に終了するため、weaveは元々、クラスタヌ内のノヌドの氞続的な砎壊を考慮しおいたせんでした。その埌、新しいIPが続きたす。 その結果、ネットワヌクが正しくセットアップされないため、内郚範囲に関係するものはすべお正しく起動したせんでした。

https://github.com/weaveworks/weave/issues/2970

織りを䜿甚する人のために。

[コンテナのランタむムがダりンしおいたすPLEGは正垞ではありたせんplegは2562047h47m16.854775807s前にアクティブであるこずが最埌に確認されたした。 しきい倀は3m0sです]

@bergman私はこれを芋たこずがありたせんが、もしそうなら、あなたのノヌドは決しお準備ができおいなかっただろう。 GKEチヌムがさらに調査できるように、GKEチャネルを通じおこれを報告しおください。

ほずんどの堎合、ノヌドは準備完了です。 このチェックが原因でkubeletが再起動されたか、他のチェックがReadyむベントを通知しおいるず思いたす。 60秒ごずに玄10秒のNotReadyが衚瀺されたす。 残りの時間、ノヌドは準備完了です。

@yujuhong PLEG is not healthyぱンドナヌザヌにずっお非垞に混乱し、コンテナランタむムが倱敗した理由や、コンテナランタむムに関する詳现など、問題の蚺断には圹立たないず蚀っお、PLEGログを改善できるず思いたす。応答する方が䟿利です

矜ばたきは芋られたせんが、1.6.4ず䞉毛猫ねこネコが織り蟌たれおいないノヌドの状態は垞に準備ができおいたせん。

@yujuhong PLEGのログは改善できるず思いたす。PLEGが正垞でないこずぱンドナヌザヌにずっお非垞に混乱し、コンテナランタむムが倱敗した理由や、コンテナランタむムが応答しないこずなどの問題の蚺断には圹立ちたせん。より䟿利になる

承知したした。 気軜にPRを送っおください。

Dockerむメヌゞのクリヌンアップ䞭にこの問題が発生しおいたした。 Dockerは忙しすぎたず思いたす。 画像が削陀されるず、通垞の状態に戻りたす。

同じ問題が発生したした。 その理由は、ntpdが珟圚の時刻を修正しおいるためだず思いたす。
v1.6.9でntpdの正しい時刻を芋おきたした

Sep 12 19:05:08 node-6 systemd: Started logagt.
Sep 12 19:05:08 node-6 systemd: Starting logagt...
Sep 12 19:05:09 node-6 cnrm: "Log":"2017-09-12 19:05:09.197083#011ERROR#011node-6#011knitter.cnrm.mod-init#011TransactionID=1#011InstanceID=1174#011[ObjectType=null,ObjectID=null]#011registerOir: k8s.GetK8sClientSingleton().RegisterOir(oirName: hugepage, qty: 2048) FAIL, error: dial tcp 120.0.0.250:8080: getsockopt: no route to host, retry#011[init.go]#011[68]"
Sep 12 11:04:53 node-6 ntpd[902]: 0.0.0.0 c61c 0c clock_step -28818.771869 s
Sep 12 11:04:53 node-6 ntpd[902]: 0.0.0.0 c614 04 freq_mode
Sep 12 11:04:53 node-6 systemd: Time has been changed
Sep 12 11:04:54 node-6 ntpd[902]: 0.0.0.0 c618 08 no_sys_peer
Sep 12 11:05:04 node-6 systemd: Reloading.
Sep 12 11:05:04 node-6 systemd: Configuration file /usr/lib/systemd/system/auditd.service is marked world-inaccessible. This has no effect as configuration data is accessible via APIs without restrictions. Proceeding anyway.
Sep 12 11:05:04 node-6 systemd: Started opslet.
Sep 12 11:05:04 node-6 systemd: Starting opslet...
Sep 12 11:05:13 node-6 systemd: Reloading.
Sep 12 11:05:22 node-6 kubelet: E0912 11:05:22.425676    2429 event.go:259] Could not construct reference to: '&v1.Node{TypeMeta:v1.TypeMeta{Kind:"", APIVersion:""}, ObjectMeta:v1.ObjectMeta{Name:"120.0.0.251", GenerateName:"", Namespace:"", SelfLink:"", UID:"", ResourceVersion:"", Generation:0, CreationTimestamp:v1.Time{Time:time.Time{sec:0, nsec:0, loc:(*time.Location)(nil)}}, DeletionTimestamp:(*v1.Time)(nil), DeletionGracePeriodSeconds:(*int64)(nil), Labels:map[string]string{"beta.kubernetes.io/os":"linux", "beta.kubernetes.io/arch":"amd64", "kubernetes.io/hostname":"120.0.0.251"}, Annotations:map[string]string{"volumes.kubernetes.io/controller-managed-attach-detach":"true"}, OwnerReferences:[]v1.OwnerReference(nil), Finalizers:[]string(nil), ClusterName:""}, Spec:v1.NodeSpec{PodCIDR:"", ExternalID:"120.0.0.251", ProviderID:"", Unschedulable:false, Taints:[]v1.Taint(nil)}, Status:v1.NodeStatus{Capacity:v1.ResourceList{"cpu":resource.Quantity{i:resource.int64Amount{value:4000, scale:-3}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"DecimalSI"}, "memory":resource.Quantity{i:resource.int64Amount{value:3974811648, scale:0}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"BinarySI"}, "hugePages":resource.Quantity{i:resource.int64Amount{value:1024, scale:0}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"DecimalSI"}, "pods":resource.Quantity{i:resource.int64Amount{value:110, scale:0}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"DecimalSI"}}, Allocatable:v1.ResourceList{"cpu":resource.Quantity{i:resource.int64Amount{value:3500, scale:-3}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"DecimalSI"}, "memory":resource.Quantity{i:resource.int64Amount{value:1345666048, scale:0}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"BinarySI"}, "hugePages":resource.Quantity{i:resource.int64Amount{value:1024, scale:0}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"",
Sep 12 11:05:22 node-6 kubelet: Format:"DecimalSI"}, "pods":resource.Quantity{i:resource.int64Amount{value:110, scale:0}, d:resource.infDecAmount{Dec:(*inf.Dec)(nil)}, l:[]int64(nil), s:"", Format:"DecimalSI"}}, Phase:"", Conditions:[]v1.NodeCondition{v1.NodeCondition{Type:"OutOfDisk", Status:"False", LastHeartbeatTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196025689, loc:(*time.Location)(0x4e8e3a0)}}, LastTransitionTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196025689, loc:(*time.Location)(0x4e8e3a0)}}, Reason:"KubeletHasSufficientDisk", Message:"kubelet has sufficient disk space available"}, v1.NodeCondition{Type:"MemoryPressure", Status:"False", LastHeartbeatTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196099492, loc:(*time.Location)(0x4e8e3a0)}}, LastTransitionTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196099492, loc:(*time.Location)(0x4e8e3a0)}}, Reason:"KubeletHasSufficientMemory", Message:"kubelet has sufficient memory available"}, v1.NodeCondition{Type:"DiskPressure", Status:"False", LastHeartbeatTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196107935, loc:(*time.Location)(0x4e8e3a0)}}, LastTransitionTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196107935, loc:(*time.Location)(0x4e8e3a0)}}, Reason:"KubeletHasNoDiskPressure", Message:"kubelet has no disk pressure"}, v1.NodeCondition{Type:"Ready", Status:"False", LastHeartbeatTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196114314, loc:(*time.Location)(0x4e8e3a0)}}, LastTransitionTime:v1.Time{Time:time.Time{sec:63640811081, nsec:196114314, loc:(*time.Location)(0x4e8e3a0)}}, Reason:"KubeletNotReady", Message:"container runtime is down,PLEG is not healthy: pleg was last seen active 2562047h47m16.854775807s ago; threshold is 3m0s,network state unknown"}}, Addresses:[]v1.NodeAddress{v1.NodeAddress{Type:"LegacyHostIP", Address:"120.0.0.251"}, v1.NodeAddress{Type:"InternalIP", Address:"120.0.0.251"}, v1.NodeAddress{Type:"Hostname", Address:"120.0.0.251"}}, DaemonEndpoints:v1.NodeDaemonEndpoints{KubeletEndpoint:v1.DaemonEndpoint{Port:10250}}, NodeInfo:v1.NodeS  

マヌク。

ここで同じ問題。
ポッドを匷制終了したが、匷制終了状態でスタックした堎合に衚瀺されたすNormal Killing Killing container with docker id 472802bf1dba: Need to kill pod.
およびkubeletログは次のようになりたす。
skipping pod synchronization - [PLEG is not healthy: pleg was last seen active
k8s clusteバヌゞョン1.6.4

@xcompass kubelet構成に--image-gc-high-thresholdおよび--image-gc-low-thresholdフラグを䜿甚しおいたすか kubelet gc dockerdeamonを忙しくしおいるのではないかず思いたす。

@alirezaDavid私はあなたず同じ問題に遭遇したした、ポッドの開始ず終了が非垞に遅く、ノヌドが時々notReadyになり、ノヌドでkubeletを再起動するか、dockerを再起動するず問題が解決するように芋えたすが、これは正しい方法ではありたせん。

@ yu-yang2うん、正確に、kubeletを再起動したす
しかし、kubeletを再起動する前に、 docker psずsystemctl -u dockerをチェックアりトしたしたが、すべおが機胜しおいるようです。

この問題は、織りずオヌトスケヌラヌを備えたkubernetesで発生したした。 weaveには割り圓おるIPアドレスがもうないこずが刀明したした。 これは、を実行するこずで怜出されたした。 この問題からステヌタスipamを織りたす https 

根本的な原因はここにありたす https 
ドキュメントはオヌトスケヌラヌずりィヌブに぀いお譊告しおいたす //www.weave.works/docs/net/latest/operational-guide/tasks/

weave --local status ipamを実行するず、倚数のIPアドレスが割り圓おられた数癟の䜿甚できないノヌドがありたした。 これは、オヌトスケヌラヌがweaveに通知せずにむンスタンスを終了するために発生したす。 これにより、実際に接続されたノヌドはほんの䞀握りになりたした。 weave rmpeerを䜿甚しお、䜿甚できないピアの䞀郚をクリアしたした。 これにより、iが実行しおいたノヌドがIPアドレスのグルヌプになりたした。 次に、実行䞭の他のりィヌブノヌドに移動し、それらからいく぀かのrmpeerコマンドも実行したしたそれが必芁かどうかはわかりたせん。

䞀郚のec2むンスタンスを終了するず、新しいむンスタンスがオヌトスケヌラヌによっお起動され、すぐにIPアドレスが割り圓おられたした。

こんにちは皆さん。 私の堎合、サンドボックスにはネットワヌク名前空間がなかったため、サンドボックスの削陀に関するPLEGの問題が発生したした。 https://github.com/kubernetes/kubernetes/issues/44307で説明されおいるその状況

私の問題は

  1. ポッドが展開されたした。
  2. ポッドが削陀されたした。 アプリケヌションのコンテナが問題なく削陀されたした。 アプリケヌションのサンドボックスは削陀されたせんでした。
  3. PLEGはサンドボックスをコミット/削陀/終了しようずしたすが、PLEGはこれを実行できず、ノヌドを異垞ずしおマヌクしたす。

ご芧のずおり、このバグのすべおの人が1.6。*のKubernetesを䜿甚しおいたす。1.7で修正する必芁がありたす。

PS。 オリゞン3.6kubernetes 1.6でこの状況を芋たした。

こんにちは、

私は自分でPLEGの問題を抱えおいたすAzure、k8s 1.7.7

Oct  5 08:13:27 k8s-agent-27569017-1 docker[1978]: E1005 08:13:27.386295    2209 remote_runtime.go:168] ListPodSandbox with filter "nil" from runtime service failed: rpc error: code = 4 desc = context deadline exceeded
Oct  5 08:13:27 k8s-agent-27569017-1 docker[1978]: E1005 08:13:27.386351    2209 kuberuntime_sandbox.go:197] ListPodSandbox failed: rpc error: code = 4 desc = context deadline exceeded
Oct  5 08:13:27 k8s-agent-27569017-1 docker[1978]: E1005 08:13:27.386360    2209 generic.go:196] GenericPLEG: Unable to retrieve pods: rpc error: code = 4 desc = context deadline exceeded
Oct  5 08:13:30 k8s-agent-27569017-1 docker[1978]: I1005 08:13:30.953599    2209 helpers.go:102] Unable to get network stats from pid 60677: couldn't read network stats: failure opening /proc/60677/net/dev: open /proc/60677/net/dev: no such file or directory
Oct  5 08:13:30 k8s-agent-27569017-1 docker[1978]: I1005 08:13:30.953634    2209 helpers.go:125] Unable to get udp stats from pid 60677: failure opening /proc/60677/net/udp: open /proc/60677/net/udp: no such file or directory
Oct  5 08:13:30 k8s-agent-27569017-1 docker[1978]: I1005 08:13:30.953642    2209 helpers.go:132] Unable to get udp6 stats from pid 60677: failure opening /proc/60677/net/udp6: open /proc/60677/net/udp6: no such file or directory
Oct  5 08:13:31 k8s-agent-27569017-1 docker[1978]: I1005 08:13:31.763914    2209 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 13h42m52.628402637s ago; threshold is 3m0s]
Oct  5 08:13:35 k8s-agent-27569017-1 docker[1978]: I1005 08:13:35.977487    2209 kubelet_node_status.go:467] Using Node Hostname from cloudprovider: "k8s-agent-27569017-1"
Oct  5 08:13:36 k8s-agent-27569017-1 docker[1978]: I1005 08:13:36.764105    2209 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 13h42m57.628610126s ago; threshold is 3m0s]
Oct  5 08:13:39 k8s-agent-27569017-1 docker[1275]: time="2017-10-05T08:13:39.185111999Z" level=warning msg="Health check error: rpc error: code = 4 desc = context deadline exceeded"
Oct  5 08:13:41 k8s-agent-27569017-1 docker[1978]: I1005 08:13:41.764235    2209 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 13h43m2.628732806s ago; threshold is 3m0s]
Oct  5 08:13:41 k8s-agent-27569017-1 docker[1978]: I1005 08:13:41.875074    2209 helpers.go:102] Unable to get network stats from pid 60677: couldn't read network stats: failure opening /proc/60677/net/dev: open /proc/60677/net/dev: no such file or directory
Oct  5 08:13:41 k8s-agent-27569017-1 docker[1978]: I1005 08:13:41.875102    2209 helpers.go:125] Unable to get udp stats from pid 60677: failure opening /proc/60677/net/udp: open /proc/60677/net/udp: no such file or directory
Oct  5 08:13:41 k8s-agent-27569017-1 docker[1978]: I1005 08:13:41.875113    2209 helpers.go:132] Unable to get udp6 stats from pid 60677: failure opening /proc/60677/net/udp6: open /proc/60677/net/udp6: no such file or directory

安定したCoreOSでv1.7.4+coreos.0を実行しおいたす。 PLEGが原因で、k8sノヌドが8時間ごずに頻繁にダりンするそしお、dockerやkubeletサヌビスを再起動するたで起動しないこずがありたす。 コンテナは実行を続けたすが、k8sでは䞍明ずしお報告されたす。 Kubesprayを䜿甚しおデプロむするこずを蚀及する必芁がありたす。

コンテナを䞀芧衚瀺するためにdockerず通信するずきのGRPCのバックオフアルゎリズムであるず思われる問題を远跡したした。 このPRhttps //github.com/moby/moby/pull/33483は、バックオフを最倧2秒に倉曎し、17.06で利甚できたすが、kubernetesは1.8たで17.06をサポヌトしおいたせん。

問題を匕き起こしおいるPLEGの行はこれです。

プロメテりスを䜿甚しおPLEGRelistIntervalメトリックずPLEGRelistLatencyメトリックを怜査したずころ、バックオフアルゎリズム理論ずかなり䞀臎する次の結果が埗られたした。

image

image

image

@ssboisenグラフで報告しおくれおありがずう圌らは面癜そうに芋えたす

PLEGが原因で、k8sノヌドが8時間ごずに頻繁にダりンするそしお、dockerやkubeletサヌビスを再起動するたで起動しないこずがありたす。 コンテナは実行を続けたすが、k8sでは䞍明ずしお報告されたす。 Kubesprayを䜿甚しおデプロむするこずを蚀及する必芁がありたす。

私が持っおいるいく぀かの質問

  1. dockerずkubeletのいずれかを再起動するず問題は解決したすか
  2. 問題が発生した堎合、 docker psは正垞に応答したすか

コンテナを䞀芧衚瀺するためにdockerず通信するずきのGRPCのバックオフアルゎリズムであるず思われる問題を远跡したした。 このPRmoby / moby33483は、バックオフを最倧2秒に倉曎し、17.06で利甚できたすが、kubernetesは1.8たで17.06をサポヌトしおいたせん。

あなたが蚀及したmobyの問題を調べたしたが、その議論では、すべおのdocker ps呌び出しはただ正しく機胜しおいたしたdockerd <->コンテナヌ接続が切断された堎合でも。 これはあなたが蚀及したPLEGの問題ずは異なるようです。 たた、kubeletはgrpcを䜿甚しおdockerdず通信したせん。 それはdockershimず通信するためにgrpcを䜿甚したすが、それらは本質的に同じプロセスであり、もう䞀方がただ生きおいる間に䞀方が殺される接続の切断に぀ながるずいう問題に遭遇するべきではありたせん。

         grpc              http           grpc
kubelet <----> dockershim <----> dockerd <----> containerd

kubeletログに衚瀺された゚ラヌメッセヌゞは䜕ですか 䞊蚘のコメントのほずんどには、「コンテキスト期限を超えたした」ずいう゚ラヌメッセヌゞがありたした。

  1. dockerずkubeletのいずれかを再起動するず問題は解決したすか

倉曎されたす。ほずんどの堎合、kubeletを再起動するだけで十分ですが、Dockerの再起動が必芁な状況がありたした。

  1. 問題が発生した堎合、 docker psは正垞に応答したすか

PLEGが動䜜しおいるずきに、ノヌドでdocker psを実行しおも問題はありたせん。 私はドッカヌシムに぀いお知りたせんでした、それが問題であるのはクベレットずドッカヌシムの間の接続であるかどうか疑問に思いたす、シムは登山のバックオフに぀ながる時間内に答えるこずができたせんでしたか

ログの゚ラヌメッセヌゞは、次の2行の組み合わせです。

generic.go:196] GenericPLEG: Unable to retrieve pods: rpc error: code = 14 desc = grpc: the connection is unavailable

kubelet.go:1820] skipping pod synchronization - [container runtime is down PLEG is not healthy: pleg was last seen active 11h5m56.959313178s ago; threshold is 3m0s]

この問題をより適切にデバッグできるように、より倚くの情報を取埗する方法に぀いお䜕か提案はありたすか

  1. dockerずkubeletのいずれかを再起動するず問題は解決したすか
    はい、dockerを再起動するだけで修正されるため、k8sの問題ではありたせん
  2. 問題が発生した堎合、docker psは正垞に応答したすか
    いいえ。 ハングしたす。 Dockerは、そのノヌドでコンテナヌを実行するずハングしたす。

おそらく、正しいこずをしおいるk8sではなく、Dockerの問題です。 ただし、dockerがここで誀動䜜しおいる理由を芋぀けるこずができたせんでした。 すべおのCPU /メモリ/ディスクリ゜ヌスは玠晎らしいです。

dockerserviceを再起動するず良奜な状態に戻りたす。

この問題をより適切にデバッグできるように、より倚くの情報を取埗する方法に぀いお䜕か提案はありたすか

最初のステップは、どのコンポヌネントdockershimたたはdocker / containerdが゚ラヌメッセヌゞを返したかを確認するこずだず思いたす。
おそらく、kubeletずdockerのログを盞互参照するこずでこれを理解できたす。

おそらく、正しいこずをしおいるk8sではなく、Dockerの問題です。 ただし、dockerがここで誀動䜜しおいる理由を芋぀けるこずができたせんでした。 すべおのCPU /メモリ/ディスクリ゜ヌスは玠晎らしいです。

うん。 あなたの堎合、dockerデヌモンが実際にハングしおいるように芋えたす。 Dockerデヌモンをデバッグモヌドで起動し、発生したずきにスタックトレヌスを取埗できたす。
https://docs.docker.com/engine/admin/#force -a-stack-trace-to-be-logged

@yujuhong k8sの負荷テスト埌にこの問題が再び発生し、ほずんどすべおのノヌドがnot readyなり、ポッドを数日間クリヌンアップしおも回埩したせんでした。すべおのkubeletで冗長モヌドを開き、ログを取埗したした。以䞋では、これらのログが問題の解決に圹立぀こずを願っおいたす。

Oct 24 21:16:39 docker34-91 kubelet[24165]: I1024 21:16:39.539054   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:39 docker34-91 kubelet[24165]: I1024 21:16:39.639305   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:39 docker34-91 kubelet[24165]: I1024 21:16:39.739585   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:39 docker34-91 kubelet[24165]: I1024 21:16:39.839829   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:39 docker34-91 kubelet[24165]: I1024 21:16:39.940111   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.040374   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.128789   24165 kubelet.go:2064] Container runtime status: Runtime Conditions: RuntimeReady=true reason: message:, NetworkReady=true reason: message:
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.140634   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.240851   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.341125   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.441471   24165 config.go:101] Looking for [api file], have seen map[api:{} file:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.541781   24165 config.go:101] Looking for [api file], have seen map[api:{} file:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.642070   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.742347   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.842562   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:40 docker34-91 kubelet[24165]: I1024 21:16:40.942867   24165 config.go:101] Looking for [api file], have seen map[api:{} file:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.006656   24165 kubelet.go:1752] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 6m20.171705404s ago; threshold is 3m0s]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.043126   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.143372   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.243620   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.343911   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.444156   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.544420   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.644732   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.745002   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.845268   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:41 docker34-91 kubelet[24165]: I1024 21:16:41.945524   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 24 21:16:42 docker34-91 kubelet[24165]: I1024 21:16:42.045814   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
^C
[root@docker34-91 ~]# journalctl -u kubelet -f
-- Logs begin at Wed 2017-10-25 17:19:29 CST. --
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0b 0a 02  76 31 12 05 45 76 65 6e  |k8s.....v1..Even|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000010  74 12 d3 03 0a 4f 0a 33  6c 64 74 65 73 74 2d 37  |t....O.3ldtest-7|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000020  33 34 33 39 39 64 67 35  39 2d 33 33 38 32 38 37  |34399dg59-338287|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000030  31 36 38 35 2d 78 32 36  70 30 2e 31 34 66 31 34  |1685-x26p0.14f14|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000040  63 30 39 65 62 64 32 64  66 66 34 12 00 1a 0a 6c  |c09ebd2dff4....l|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000050  64 74 65 73 74 2d 30 30  35 22 00 2a 00 32 00 38  |dtest-005".*.2.8|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000060  00 42 00 7a 00 12 6b 0a  03 50 6f 64 12 0a 6c 64  |.B.z..k..Pod..ld|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000070  74 65 73 74 2d 30 30 35  1a 22 6c 64 74 65 73 74  |test-005."ldtest|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000080  2d 37 33 34 33 39 39 64  67 35 39 2d 33 33 38 32  |-734399dg59-3382|
Oct 27 10:22:35 docker34-91 kubelet[24165]: 00000090  38 37 31 36 38 35 2d 78  32 36 70 30 22 24 61 35  |871685-x26p0"$a5|
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.098922   24165 kubelet.go:2064] Container runtime status: Runtime Conditions: RuntimeReady=true reason: message:, NetworkReady=true reason: message:
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.175027   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.275290   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.375594   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.475872   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.576140   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.676412   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.776613   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.876855   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:02 docker34-91 kubelet[24165]: I1027 10:23:02.977126   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.000354   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "a052cabc-bab9-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.000509   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-276aa6023f-1106740979-hbtcv
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001753   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-276aa6023f-1106740979-hbtcv 404 Not Found in 1 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001768   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001773   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001776   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001780   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001838   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 32 37 36 61 61  36 30 32 33 66 2d 31 31  |st-276aa6023f-11|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  30 36 37 34 30 39 37 39  2d 68 62 74 63 76 22 20  |06740979-hbtcv" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 32 37  |und*.."ldtest-27|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  36 61 61 36 30 32 33 66  2d 31 31 30 36 37 34 30  |6aa6023f-1106740|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  39 37 39 2d 68 62 74 63  76 12 00 1a 04 70 6f 64  |979-hbtcv....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001885   24165 status_manager.go:425] Pod "ldtest-276aa6023f-1106740979-hbtcv" (a052cabc-bab9-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001900   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "a584c63e-bab7-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.001946   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-734399dg59-3382871685-x26p0
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002559   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-734399dg59-3382871685-x26p0 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002569   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002573   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002577   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002580   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002627   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 37 33 34 33 39  39 64 67 35 39 2d 33 33  |st-734399dg59-33|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  38 32 38 37 31 36 38 35  2d 78 32 36 70 30 22 20  |82871685-x26p0" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 37 33  |und*.."ldtest-73|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  34 33 39 39 64 67 35 39  2d 33 33 38 32 38 37 31  |4399dg59-3382871|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  36 38 35 2d 78 32 36 70  30 12 00 1a 04 70 6f 64  |685-x26p0....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002659   24165 status_manager.go:425] Pod "ldtest-734399dg59-3382871685-x26p0" (a584c63e-bab7-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002668   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "2727277f-bab3-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.002711   24165 round_trippers.go:398] curl -k -v -XGET  -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" -H "Accept: application/vnd.kubernetes.protobuf, */*" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-4bc7922c25-2238154508-xt94x
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003318   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-4bc7922c25-2238154508-xt94x 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003328   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003332   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003336   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003339   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003379   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 34 62 63 37 39  32 32 63 32 35 2d 32 32  |st-4bc7922c25-22|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  33 38 31 35 34 35 30 38  2d 78 74 39 34 78 22 20  |38154508-xt94x" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 34 62  |und*.."ldtest-4b|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  63 37 39 32 32 63 32 35  2d 32 32 33 38 31 35 34  |c7922c25-2238154|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  35 30 38 2d 78 74 39 34  78 12 00 1a 04 70 6f 64  |508-xt94x....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003411   24165 status_manager.go:425] Pod "ldtest-4bc7922c25-2238154508-xt94x" (2727277f-bab3-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003423   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "43dd5201-bab4-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.003482   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-g02c441308-3753936377-d6q69
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004051   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-g02c441308-3753936377-d6q69 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004059   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004062   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004066   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004069   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004115   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 67 30 32 63 34  34 31 33 30 38 2d 33 37  |st-g02c441308-37|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  35 33 39 33 36 33 37 37  2d 64 36 71 36 39 22 20  |53936377-d6q69" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 67 30  |und*.."ldtest-g0|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  32 63 34 34 31 33 30 38  2d 33 37 35 33 39 33 36  |2c441308-3753936|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  33 37 37 2d 64 36 71 36  39 12 00 1a 04 70 6f 64  |377-d6q69....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004142   24165 status_manager.go:425] Pod "ldtest-g02c441308-3753936377-d6q69" (43dd5201-bab4-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004148   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "8fd9d66f-bab7-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004195   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-cf2eg79b08-3660220702-x0j2j
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004752   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-cf2eg79b08-3660220702-x0j2j 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004761   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004765   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004769   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004773   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004812   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 63 66 32 65 67  37 39 62 30 38 2d 33 36  |st-cf2eg79b08-36|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  36 30 32 32 30 37 30 32  2d 78 30 6a 32 6a 22 20  |60220702-x0j2j" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 63 66  |und*.."ldtest-cf|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  32 65 67 37 39 62 30 38  2d 33 36 36 30 32 32 30  |2eg79b08-3660220|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  37 30 32 2d 78 30 6a 32  6a 12 00 1a 04 70 6f 64  |702-x0j2j....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004841   24165 status_manager.go:425] Pod "ldtest-cf2eg79b08-3660220702-x0j2j" (8fd9d66f-bab7-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004853   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "eb5a5f4a-baba-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.004921   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-9b47680d12-2536408624-jhp18
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005436   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-9b47680d12-2536408624-jhp18 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005446   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005450   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005454   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005457   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005499   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 39 62 34 37 36  38 30 64 31 32 2d 32 35  |st-9b47680d12-25|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  33 36 34 30 38 36 32 34  2d 6a 68 70 31 38 22 20  |36408624-jhp18" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 39 62  |und*.."ldtest-9b|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  34 37 36 38 30 64 31 32  2d 32 35 33 36 34 30 38  |47680d12-2536408|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  36 32 34 2d 6a 68 70 31  38 12 00 1a 04 70 6f 64  |624-jhp18....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005526   24165 status_manager.go:425] Pod "ldtest-9b47680d12-2536408624-jhp18" (eb5a5f4a-baba-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005533   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "2db95639-bab5-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.005588   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-5f8ba1eag0-2191624653-dm374
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006150   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-5f8ba1eag0-2191624653-dm374 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006176   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006182   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006189   24165 round_trippers.go:426]     Content-Length: 154
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006195   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006251   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 81 01 0a 04 0a  00 12 00 12 07 46 61 69  |us...........Fai|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  6c 75 72 65 1a 33 70 6f  64 73 20 22 6c 64 74 65  |lure.3pods "ldte|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  73 74 2d 35 66 38 62 61  31 65 61 67 30 2d 32 31  |st-5f8ba1eag0-21|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  39 31 36 32 34 36 35 33  2d 64 6d 33 37 34 22 20  |91624653-dm374" |
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  6e 6f 74 20 66 6f 75 6e  64 22 08 4e 6f 74 46 6f  |not found".NotFo|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  75 6e 64 2a 2e 0a 22 6c  64 74 65 73 74 2d 35 66  |und*.."ldtest-5f|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  38 62 61 31 65 61 67 30  2d 32 31 39 31 36 32 34  |8ba1eag0-2191624|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  36 35 33 2d 64 6d 33 37  34 12 00 1a 04 70 6f 64  |653-dm374....pod|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  73 28 00 30 94 03 1a 00  22 00                    |s(.0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006297   24165 status_manager.go:425] Pod "ldtest-5f8ba1eag0-2191624653-dm374" (2db95639-bab5-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006330   24165 status_manager.go:410] Status Manager: syncPod in syncbatch. pod UID: "ecf58d7f-bab2-11e7-92f6-3497f60062c3"
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006421   24165 round_trippers.go:398] curl -k -v -XGET  -H "Accept: application/vnd.kubernetes.protobuf, */*" -H "User-Agent: kubelet/v1.6.4 (linux/amd64) kubernetes/d6f4332" http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-0fe4761ce1-763135991-2gv5x
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006983   24165 round_trippers.go:417] GET http://172.23.48.211:8080/api/v1/namespaces/ldtest-005/pods/ldtest-0fe4761ce1-763135991-2gv5x 404 Not Found in 0 milliseconds
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.006995   24165 round_trippers.go:423] Response Headers:
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.007001   24165 round_trippers.go:426]     Content-Type: application/vnd.kubernetes.protobuf
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.007007   24165 round_trippers.go:426]     Date: Fri, 27 Oct 2017 02:23:03 GMT
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.007014   24165 round_trippers.go:426]     Content-Length: 151
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.007064   24165 request.go:989] Response Body:
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000000  6b 38 73 00 0a 0c 0a 02  76 31 12 06 53 74 61 74  |k8s.....v1..Stat|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000010  75 73 12 7f 0a 04 0a 00  12 00 12 07 46 61 69 6c  |us..........Fail|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000020  75 72 65 1a 32 70 6f 64  73 20 22 6c 64 74 65 73  |ure.2pods "ldtes|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000030  74 2d 30 66 65 34 37 36  31 63 65 31 2d 37 36 33  |t-0fe4761ce1-763|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000040  31 33 35 39 39 31 2d 32  67 76 35 78 22 20 6e 6f  |135991-2gv5x" no|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000050  74 20 66 6f 75 6e 64 22  08 4e 6f 74 46 6f 75 6e  |t found".NotFoun|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000060  64 2a 2d 0a 21 6c 64 74  65 73 74 2d 30 66 65 34  |d*-.!ldtest-0fe4|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000070  37 36 31 63 65 31 2d 37  36 33 31 33 35 39 39 31  |761ce1-763135991|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000080  2d 32 67 76 35 78 12 00  1a 04 70 6f 64 73 28 00  |-2gv5x....pods(.|
Oct 27 10:23:03 docker34-91 kubelet[24165]: 00000090  30 94 03 1a 00 22 00                              |0....".|
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.007106   24165 status_manager.go:425] Pod "ldtest-0fe4761ce1-763135991-2gv5x" (ecf58d7f-bab2-11e7-92f6-3497f60062c3) does not exist on the server
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.077334   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.177546   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.277737   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.377939   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.478169   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.578369   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.603649   24165 eviction_manager.go:197] eviction manager: synchronize housekeeping
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.678573   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682080   24165 summary.go:389] Missing default interface "eth0" for node:172.23.34.91
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682132   24165 summary.go:389] Missing default interface "eth0" for pod:kube-system_kube-proxy-qcft5
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682176   24165 helpers.go:744] eviction manager: observations: signal=imagefs.available, available: 515801344Ki, capacity: 511750Mi, time: 2017-10-27 10:22:56.499173632 +0800 CST
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682197   24165 helpers.go:744] eviction manager: observations: signal=imagefs.inodesFree, available: 523222251, capacity: 500Mi, time: 2017-10-27 10:22:56.499173632 +0800 CST
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682203   24165 helpers.go:746] eviction manager: observations: signal=allocatableMemory.available, available: 65544340Ki, capacity: 65581868Ki
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682207   24165 helpers.go:744] eviction manager: observations: signal=memory.available, available: 57973412Ki, capacity: 65684268Ki, time: 2017-10-27 10:22:56.499173632 +0800 CST
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682213   24165 helpers.go:744] eviction manager: observations: signal=nodefs.available, available: 99175128Ki, capacity: 102350Mi, time: 2017-10-27 10:22:56.499173632 +0800 CST
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682218   24165 helpers.go:744] eviction manager: observations: signal=nodefs.inodesFree, available: 104818019, capacity: 100Mi, time: 2017-10-27 10:22:56.499173632 +0800 CST
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.682233   24165 eviction_manager.go:292] eviction manager: no resources are starved
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.778792   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.879040   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:03 docker34-91 kubelet[24165]: I1027 10:23:03.979304   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.079534   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.179753   24165 config.go:101] Looking for [api file], have seen map[api:{} file:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.280026   24165 config.go:101] Looking for [api file], have seen map[api:{} file:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.380246   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.480450   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.580695   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.680957   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.781224   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.881418   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:04 docker34-91 kubelet[24165]: I1027 10:23:04.981643   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.081882   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.182810   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.283410   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.383626   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.483942   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.584211   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.684460   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.784699   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.884949   24165 config.go:101] Looking for [api file], have seen map[file:{} api:{}]
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960855   24165 factory.go:115] Factory "docker" was unable to handle container "/system.slice/data-docker-overlay-c0d3c4b3834cfe9f12cd5c35345cab9c8e71bb64c689c8aea7a458c119a5a54e-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960885   24165 factory.go:108] Factory "systemd" can handle container "/system.slice/data-docker-overlay-c0d3c4b3834cfe9f12cd5c35345cab9c8e71bb64c689c8aea7a458c119a5a54e-merged.mount", but ignoring.
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960906   24165 manager.go:867] ignoring container "/system.slice/data-docker-overlay-c0d3c4b3834cfe9f12cd5c35345cab9c8e71bb64c689c8aea7a458c119a5a54e-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960912   24165 factory.go:115] Factory "docker" was unable to handle container "/system.slice/data-docker-overlay-ce9656ff9d3cd03baaf93e42d0874377fa37bfde6c9353b3ba954c90bf4332f3-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960919   24165 factory.go:108] Factory "systemd" can handle container "/system.slice/data-docker-overlay-ce9656ff9d3cd03baaf93e42d0874377fa37bfde6c9353b3ba954c90bf4332f3-merged.mount", but ignoring.
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960926   24165 manager.go:867] ignoring container "/system.slice/data-docker-overlay-ce9656ff9d3cd03baaf93e42d0874377fa37bfde6c9353b3ba954c90bf4332f3-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960931   24165 factory.go:115] Factory "docker" was unable to handle container "/system.slice/data-docker-overlay-b3600c0fe81445773b9241c5d1da8b1f97612d0a235f8b32139478a5717f79e1-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960937   24165 factory.go:108] Factory "systemd" can handle container "/system.slice/data-docker-overlay-b3600c0fe81445773b9241c5d1da8b1f97612d0a235f8b32139478a5717f79e1-merged.mount", but ignoring.
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960944   24165 manager.go:867] ignoring container "/system.slice/data-docker-overlay-b3600c0fe81445773b9241c5d1da8b1f97612d0a235f8b32139478a5717f79e1-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960949   24165 factory.go:115] Factory "docker" was unable to handle container "/system.slice/data-docker-overlay-ed2fe0d57c56cf6b051e1bda1ca0185ceef4756b1a8f9af4c19f4e512bcc60f4-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960955   24165 factory.go:108] Factory "systemd" can handle container "/system.slice/data-docker-overlay-ed2fe0d57c56cf6b051e1bda1ca0185ceef4756b1a8f9af4c19f4e512bcc60f4-merged.mount", but ignoring.
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960979   24165 manager.go:867] ignoring container "/system.slice/data-docker-overlay-ed2fe0d57c56cf6b051e1bda1ca0185ceef4756b1a8f9af4c19f4e512bcc60f4-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960984   24165 factory.go:115] Factory "docker" was unable to handle container "/system.slice/data-docker-overlay-0ba6483a0117c539493cd269be9f87d31d1d61aa813e7e0381c5f5d8b0623275-merged.mount"
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960990   24165 factory.go:108] Factory "systemd" can handle container "/system.slice/data-docker-overlay-0ba6483a0117c539493cd269be9f87d31d1d61aa813e7e0381c5f5d8b0623275-merged.mount", but ignoring.
Oct 27 10:23:05 docker34-91 kubelet[24165]: I1027 10:23:05.960997   24165 manager.go:867] ignoring container "/system.slice/data-docker-overlay-0ba6483a0117c539493cd269be9f87d31d1d61aa813e7e0381c5f5d8b0623275-merged.mount"

同様の問題をヒット

Oct 28 09:15:38 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:15:38.711430    3299 pod_workers.go:182] Error syncing pod 7d3b94f3-afa7-11e7-aaec-06936c368d26 ("pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)"), skipping: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:15:51 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:15:51.439135    3299 kuberuntime_manager.go:843] PodSandboxStatus of sandbox "9c1c1f2d4a9d277a41a97593c330f41e00ca12f3ad858c19f61fd155d18d795e" for pod "pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)" error: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:15:51 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:15:51.439188    3299 generic.go:241] PLEG: Ignoring events for pod pickup-566929041-bn8t9/staging: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:15:51 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:15:51.711168    3299 pod_workers.go:182] Error syncing pod 7d3b94f3-afa7-11e7-aaec-06936c368d26 ("pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)"), skipping: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:16:03 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:16:03.711164    3299 pod_workers.go:182] Error syncing pod 7d3b94f3-afa7-11e7-aaec-06936c368d26 ("pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)"), skipping: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:16:18 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:16:18.715381    3299 pod_workers.go:182] Error syncing pod 7d3b94f3-afa7-11e7-aaec-06936c368d26 ("pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)"), skipping: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:16:33 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:16:33.711198    3299 pod_workers.go:182] Error syncing pod 7d3b94f3-afa7-11e7-aaec-06936c368d26 ("pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)"), skipping: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:16:46 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:16:46.712983    3299 pod_workers.go:182] Error syncing pod 7d3b94f3-afa7-11e7-aaec-06936c368d26 ("pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)"), skipping: rpc error: code = 4 desc = context deadline exceeded
Oct 28 09:16:51 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: I1028 09:16:51.711142    3299 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m0.31269053s ago; threshold is 3m0s]
Oct 28 09:16:56 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: I1028 09:16:56.711341    3299 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m5.312886434s ago; threshold is 3m0s]
Oct 28 09:17:01 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: I1028 09:17:01.351771    3299 kubelet_node_status.go:734] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2017-10-28 09:17:01.35173325 +0000 UTC LastTransitionTime:2017-10-28 09:17:01.35173325 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m9.95330596s ago; threshold is 3m0s}
Oct 28 09:17:01 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: I1028 09:17:01.711552    3299 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m10.31309378s ago; threshold is 3m0s]
Oct 28 09:17:06 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: I1028 09:17:06.711871    3299 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m15.313406671s ago; threshold is 3m0s]
Oct 28 09:17:11 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: I1028 09:17:11.712162    3299 kubelet.go:1820] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m20.313691126s ago; threshold is 3m0s]
Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: 2017/10/28 09:17:12 transport: http2Server.HandleStreams failed to read frame: read unix /var/run/dockershim.sock->@: use of closed network connection
Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: 2017/10/28 09:17:12 transport: http2Client.notifyError got notified that the client transport was broken EOF.
Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: 2017/10/28 09:17:12 grpc: addrConn.resetTransport failed to create client transport: connection error: desc = "transport: dial unix /var/run/dockershim.sock: connect: no such file or directory"; Reconnecting to {/var/run/dockershim.sock <nil>}
Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: E1028 09:17:12.556535    3299 kuberuntime_manager.go:843] PodSandboxStatus of sandbox "9c1c1f2d4a9d277a41a97593c330f41e00ca12f3ad858c19f61fd155d18d795e" for pod "pickup-566929041-bn8t9_staging(7d3b94f3-afa7-11e7-aaec-06936c368d26)" error: rpc error: code = 13 desc = transport is closing

これらのメッセヌゞの埌、 kubeletは再起動ルヌプに入りたした。

Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: kube-kubelet.service: Main process exited, code=exited, status=1/FAILURE
Oct 28 09:18:42 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: kube-kubelet.service: State 'stop-final-sigterm' timed out. Killing.
Oct 28 09:18:42 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: kube-kubelet.service: Killing process 1661 (calico) with signal SIGKILL.
Oct 28 09:20:12 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: kube-kubelet.service: Processes still around after final SIGKILL. Entering failed mode.
Oct 28 09:20:12 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: Stopped Kubernetes Kubelet.
Oct 28 09:20:12 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: kube-kubelet.service: Unit entered failed state.
Oct 28 09:20:12 ip-10-72-17-119.us-west-2.compute.internal systemd[1]: kube-kubelet.service: Failed with result 'exit-code'.

最埌のメッセヌゞは次のずおりです。Dockerの問題のようです。

Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: 2017/10/28 09:17:12 transport: http2Server.HandleStreams failed to read frame: read unix /var/run/dockershim.sock->@: use of closed network connection
Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: 2017/10/28 09:17:12 transport: http2Client.notifyError got notified that the client transport was broken EOF.
Oct 28 09:17:12 ip-10-72-17-119.us-west-2.compute.internal kubelet[3299]: 2017/10/28 09:17:12 grpc: addrConn.resetTransport failed to create client transport: connection error: desc = "transport: dial unix /var/run/dockershim.sock: connect: no such file or directory"; Reconnecting to {/var/run/dockershim.sock <nil>}

最埌のメッセヌゞはdockershimからです。 これらのログも非垞に圹立ちたす。

こんにちは、Kubernetes 1.7.10、Kops @ AWSに基づいおおり、CalicoずCoreOSを䜿甚しおいたす。

同じPLEGの問題がありたす

 Ready            False     KubeletNotReady              PLEG is not healthy: pleg was last seen active 3m29.396986143s ago; threshold is 3m0s

私たちが抱えおいる唯䞀の远加の問題は、最近特に1.7.8以降で再デプロむするずきに発生するず思いたす。たずえば、新しいバヌゞョンのアプリを持っおきお、叀いレプリカセットがダりンするようにするず、新しいレプリカセットが䞀緒にスピンされたす。ポッド、以前のデプロむメントバヌゞョンのポッドは、「終了」状態のたたになりたす。

次に、手動でforce kill them

同じPLEGの問題がありたすk8s1.8.1

+1
1.6.9
Docker1.12.6を䜿甚

+1
1.8.2

+1
1.6.0

  • 1.8.4

そしおより倚くの質問

  • そうです、CPUずメモリはほが100でした。 しかし、私の質問は、ノヌドの準備が長いためにポッドが他のノヌドに割り圓おられないのはなぜですか

+1ノヌドがNotReady状態になるこずは、Kubernets 1.8.5にアップグレヌドした埌、過去2日間でほが䞀貫しお発生しおいたした。 私にずっおの問題は、クラスタヌオヌトスケヌラヌをアップグレヌドしなかったこずだず思いたす。 オヌトスケヌラヌを1.03ヘルム0.3.0にアップグレヌドした埌、「NotReady」状態のノヌドは衚瀺されたせん。 再び安定したクラスタヌがあるようです。

  • kops1.8.0
  • kubectl1.8.5
  • ヘルム2.7.2
  • cluster-autoscalerv0.6.0 ---> 1.03にアップグレヌドヘルム0.3.0

枯湟劎働者がぶら䞋がっおいおも、ペストは非アクティブであっおはなりたせん

ここでも同じ、1.8.5
䜎バヌゞョンから曎新せず、空から䜜成したす。

リ゜ヌスは十分です

蚘憶

# free -mg
              total        used        free      shared  buff/cache   available
Mem:             15           2           8           0           5          12
Swap:            15           0          15

侊

top - 04:34:39 up 24 days,  6:23,  2 users,  load average: 31.56, 83.38, 66.29
Tasks: 432 total,   5 running, 427 sleeping,   0 stopped,   0 zombie
%Cpu(s):  9.2 us,  1.9 sy,  0.0 ni, 87.5 id,  1.3 wa,  0.0 hi,  0.1 si,  0.0 st
KiB Mem : 16323064 total,  8650144 free,  2417236 used,  5255684 buff/cache
KiB Swap: 16665596 total, 16646344 free,    19252 used. 12595460 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                                                        
31905 root      20   0 1622320 194096  51280 S  14.9  1.2 698:10.66 kubelet                                                                                                                                        
19402 root      20   0   12560   9696   1424 R  10.3  0.1 442:05.00 memtester                                                                                                                                      
 2626 root      20   0   12560   9660   1392 R   9.6  0.1 446:41.38 memtester                                                                                                                                      
 8680 root      20   0   12560   9660   1396 R   9.6  0.1 444:34.38 memtester                                                                                                                                      
15004 root      20   0   12560   9704   1432 R   9.6  0.1 443:04.98 memtester                                                                                                                                      
 1663 root      20   0 8424940 424912  20556 S   4.6  2.6   2809:24 dockerd                                                                                                                                        
  409 root      20   0   49940  37068  20648 S   2.3  0.2 144:03.37 calico-felix                                                                                                                                   
  551 root      20   0  631788  20952  11824 S   1.3  0.1 100:36.78 costor                                                                                                                                         
 9527 root      20   0 10.529g  24800  13612 S   1.0  0.2   3:43.55 etcd                                                                                                                                           
 2608 root      20   0  421936   6040   3288 S   0.7  0.0  31:29.78 containerd-shim                                                                                                                                
 4136 root      20   0  780344  24580  12316 S   0.7  0.2  45:58.60 costor                                                                                                                                         
 4208 root      20   0  755756  22208  12176 S   0.7  0.1  41:49.58 costor                                                                                                                                         
 8665 root      20   0  210344   5960   3208 S   0.7  0.0  31:27.75 cont

珟圚、以䞋の状況が芋぀かりたした。

Docker Storage Setupがシンプヌルの80を䜿甚するように構成されおいるため、kubeletのハヌド゚ビクションは10でした。 どちらも機械加工ではありたせんでした。

Dockerが䜕らかの圢で内郚的にクラッシュし、kubeletにこのPLEG゚ラヌが発生したした。
kubeletのハヌド゚ビクションimagefs.availableを20に増やすず、Dockerのセットアップがヒットし、kubeletは叀いむメヌゞの削陀を開始したした。

1.8では、image-gc-thresholdからhard-evictionに倉曎し、間違った䞀臎するパラメヌタヌを遞択したした。
これに぀いおは、今すぐクラスタヌを芳察したす。

久郚1.8.5
Docker1.12.6
OSRHEL7

prometheusからの内郚kubelet_pleg_relist_latency_microsecondsメトリックを芋るず、これは疑わしいように芋えたす。

bildschirmfoto vom 2017-12-21 11-38-34

kopsはcoreOSでkube1.8.4をむンストヌルしたした

docker info
Containers: 246
 Running: 222
 Paused: 0
 Stopped: 24
Images: 30
Server Version: 17.09.0-ce
Storage Driver: overlay
 Backing Filesystem: extfs
 Supports d_type: true
Logging Driver: json-file
Cgroup Driver: cgroupfs
Plugins:
 Volume: local
 Network: bridge host macvlan null overlay
 Log: awslogs fluentd gcplogs gelf journald json-file logentries splunk syslog
Swarm: inactive
Runtimes: runc
Default Runtime: runc
Init Binary: docker-init
containerd version: 06b9cb35161009dcb7123345749fef02f7cea8e0
runc version: 3f2f8b84a77f73d38244dd690525642a72156c64
init version: v0.13.2 (expected: 949e6facb77383876aeff8a6944dde66b3089574)
Security Options:
 seccomp
  Profile: default
 selinux
Kernel Version: 4.13.16-coreos-r2
Operating System: Container Linux by CoreOS 1576.4.0 (Ladybug)
OSType: linux
Architecture: x86_64
CPUs: 8
Total Memory: 14.69GiB
Name: ip-172-20-120-53.eu-west-1.compute.internal
ID: SI53:ECLM:HXFE:LOVY:STTS:C4X2:WRFK:UGBN:7NYP:4N3E:MZGS:EAVM
Docker Root Dir: /var/lib/docker
Debug Mode (client): false
Debug Mode (server): false
Registry: https://index.docker.io/v1/
Experimental: false
Insecure Registries:
 127.0.0.0/8
Live Restore Enabled: false


+1
オリゞンv3.7.0
kubernetes v1.7.6
docker v1.12.6
OS CentOS 7.4

ランタむムコンテナGCがポッドの䜜成ず終了に圱響を䞎えるようです
GCを無効にした埌に䜕が起こったのかを報告しおみたしょう。

私の堎合、CNIは状況を凊理したせん。

私の分析によるず、コヌドシヌケンスは次のずおりです

1. kuberuntime_gc.go: client.StopPodSandbox (Timeout Default: 2m)
  -> docker_sandbox.go: StopPodSandbox
    -> cni.go: TearDownPod
  -> CNI deleteFromNetwork (Timeout Default: 3m) <- Nothing gonna happen if CNI doesn't handle this situation.
    -> docker_service.go: StopContainer

2. kuberuntime_gc.go: client.RemovePodSandbox

StopPodSandboxはタむムアりト䟋倖を発生させ、凊理せずに戻っおポッドサンドボックスを削陀したす
ただし、StopPodSandboxがタむムアりトした埌、CNIプロセスは進行䞭です。
これは、kubeletスレッドがCNIプロセスによっお䞍足しおいるため、結果ずしおkubeletがPLEGを適切に監芖できないようです。

この問題は、CNI_NSが空のずきに戻るようにCNIを倉曎するこずで解決したしたポッドがデッドであるこずを意味するため。
ずころで、CNIプラグむンずしおkuryr-kubernetesを䜿甚しおいたす
これが皆さんのお圹に立おば幞いです。

@esevanパッチを提案しおもらえたすか

@rphillipsこのバグは実際にはCNIバグに近いものであり、動䜜を詳しく調べた埌、確実にパッチをopenstack / kuryr-kubernetesにアップロヌドしたす。

私たちの堎合、それはhttps://github.com/moby/moby/issues/33820に関連しおいたす
Dockerコンテナのタむムアりトを停止するず、ノヌドはPLEGメッセヌゞでready / notReadyの間でフラッピングを開始したす。
Dockerのバヌゞョンを元に戻すず、問題が修正されたす。 17.09-ce-> 12.06

kubelet v1.9.1ず同じ゚ラヌログ。

...
Jan 15 12:36:52 l23-27-101 kubelet[7335]: I0115 12:36:52.884617    7335 status_manager.go:136] Kubernetes client is nil, not starting status manager.
Jan 15 12:36:52 l23-27-101 kubelet[7335]: I0115 12:36:52.884636    7335 kubelet.go:1767] Starting kubelet main sync loop.
Jan 15 12:36:52 l23-27-101 kubelet[7335]: I0115 12:36:52.884692    7335 kubelet.go:1778] skipping pod synchronization - [container runtime is down PLEG is not healthy: pleg was last seen active 2562047h47m16.854775807s ago; threshold is 3m0s]
Jan 15 12:36:52 l23-27-101 kubelet[7335]: E0115 12:36:52.884788    7335 container_manager_linux.go:583] [ContainerManager]: Fail to get rootfs information unable to find data for container /
Jan 15 12:36:52 l23-27-101 kubelet[7335]: I0115 12:36:52.885001    7335 volume_manager.go:247] Starting Kubelet Volume Manager
...

誰かがdocker> 12.6でこの問題を抱えおいたすか サポヌトされおいないバヌゞョン17.09を陀く

13.1たたは17.06に切り替えるこずが圹立぀かどうか疑問に思っおいたす。

@sybnex 17.03もクラスタヌでこの問題を抱えおいたす。これは、CNIのバグに最もよく䌌おいたす。

私にずっお、これは、kubeletがハりスキヌピングタスクを実行するためにCPUを倧量に䜿甚しおいたために発生したした。その結果、DockerにCPU時間が残っおいたせんでした。 ハりスキヌピングの間隔を短くするこずで、問題は解決したした。

@esevan kuryr-kubernetesパッチをいただければ幞いです:-)

参考たでに、Origin 1.5 / Kubernetes 1.5ずKuryr最初のバヌゞョンを問題なく䜿甚しおいたす:)

@livelace以降のバヌゞョンを䜿甚しない理由はありたすか

@celebdor必芁はありたせん、すべおが機胜したす:) Origin + Openstackを䜿甚し、これらのバヌゞョンはすべおのニヌズをカバヌしたす。Kubernetes/ Openstackの新機胜は必芁ありたせん。Kuryrは機胜したす。 2぀の远加チヌムがむンフラストラクチャに参加するず、問題が発生する可胜性がありたす。

デフォルトのpleg-relist-thresholdは3分です。
pleg-relist-thresholdを構成可胜にしおから、より倧きな倀を蚭定できないのはなぜですか。
私はこれを行うためのPRを行いたした。
誰かが芋るこずができたすか
https://github.com/kubernetes/kubernetes/pull/58279

PLEGずProbeManagerに぀いお混乱が生じたす。
PLEGは、ノヌド内でポッドずコンテナを正垞に保持する必芁がありたす。
ProbeManagerは、ノヌド内のコンテナの正垞性も保持したす。
2぀のモゞュヌルに同じこずをさせるのはなぜですか
ProbeManagerは、コンテナが停止しおいるこずを怜出するず、コンテナを再起動したす。同時に
PLEGがコンテナが停止しおいるこずも怜出した堎合、PLEGはkubeletに同じこずを行うように指瀺するむベントを䜜成したすか
事

+1
Kubernetes v1.8.4

@celebdor cniをデヌモン化されたものに曎新した埌、cniパッチなしで安定化されたした。

+1
kubernetes v1.9.2
docker 17.03.2-ce

+1
kubernetes v1.9.2
docker 17.03.2-ce

kubeletログの゚ラヌログ

Feb 27 16:19:12 node-2 kubelet: E0227 16:19:12.839866   47544 remote_runtime.go:169] ListPodSandbox with filter nil from runtime service failed: rpc error: code = Unknown desc = Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
Feb 27 16:19:12 node-2 kubelet: E0227 16:19:12.839919   47544 kuberuntime_sandbox.go:192] ListPodSandbox failed: rpc error: code = Unknown desc = Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
Feb 27 16:19:12 node-2 kubelet: E0227 16:19:12.839937   47544 generic.go:197] GenericPLEG: Unable to retrieve pods: rpc error: code = Unknown desc = Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?

kubeletはdockerclienthttpClientを䜿甚しお、2分のタむムアりトでContainerListall status && io.kubernetes.docker.type == "podsandbox"を呌び出したす。

docker ps -a --filter "label=io.kubernetes.docker.type=podsandbox"

ノヌドがNotReadyになったずきにコマンドを盎接実行するず、デバッグに圹立぀可胜性がありたす

以䞋はdockerclientのDoリク゚ストコヌドです。この゚ラヌはタむムアりトになっおいるようです。

        if err, ok := err.(net.Error); ok {
            if err.Timeout() {
                return serverResp, ErrorConnectionFailed(cli.host)
            }
            if !err.Temporary() {
                if strings.Contains(err.Error(), "connection refused") || strings.Contains(err.Error(), "dial unix") {
                    return serverResp, ErrorConnectionFailed(cli.host)
                }
            }
        }

+1
知事1.8.4
docker 17.09.1-ce

線集
kube-aws 0.9.9

+1
Kubernetes v1.9.3
docker 17.12.0-ce正匏にサポヌトされおいないこずはわかっおいたす
weaveworks / weave- kube 2.2.0
Ubuntu 16.04.3 LTS || カヌネル4.4.0-112

マスタヌ+ワヌカヌを䜿甚したkubeadmを介したむンストヌルマスタヌはこの準備完了/準備完了でない動䜜を衚瀺せず、ワヌカヌのみを衚瀺したす。

+1
Kubernetes1.8.8
Docker1.12.6-cs13
クラりドプロバむダヌGCE
OSUbuntu 16.04.3 LTS
カヌネル4.13.0-1011-gcp
ツヌルのむンストヌルkubeadm
ネットワヌキングにキャラコを䜿甚しおいたす

私の環境でのこのコミット修正の問題
https://github.com/moby/moby/pull/31273/commits/8e425ebc422876ddf2ffb3beaa5a0443a6097e46

これは「dockerpshang」に関する圹立぀リンクです。
https://github.com/moby/moby/pull/31273


曎新実際にdocker 1.13.1にロヌルバックするず、䞊蚘のコミットはdocker1.13.1にはありたせん。

+1
Kubernetes1.8.9
Docker17.09.1-ce
クラりドプロバむダヌAWS
OSCoreOS 1632.3.0
カヌネル4.14.19-coreos
ツヌルのむンストヌルkops
ネットワヌキング甚のCalico2.6.6

この問題を解決するために、私は叀いcoreosバヌゞョン1520.9.0を䜿甚したす。 このバヌゞョンはdocker1.12.6を䜿甚したす。
この倉曎以降、矜ばたきの問題はありたせん。

+1
Kubernetes1.9.3
Docker17.09.1-ce
クラりドプロバむダヌAWS
OSCoreOS 1632.3.0
カヌネル4.14.19-coreos
ツヌルのむンストヌルkops
織り

+1
Kubernetes1.9.6
Docker17.12.0-ce
OSRedhat 7.4
カヌネル3.10.0-693.el7.x86_64
CNIフランネル

ご参考たでに。 最新のKubernetes1.10でも

怜蚌枈みのDockerバヌゞョンはv1.9ず同じです1.11.2から1.13.1および17.03.x

私の堎合、1.12.6にロヌルバックするこずが圹に立ちたした。

同じ問題が芳察されたした

Kubernetes 1.9.6
Docker 17.12.0-ce
OS Ubuntu 16.04
CNI 織り

それを修正したのはDocker17.03ぞのダりングレヌドでした

同じ問題が発生したしたが、DebianStrechにアップグレヌドするこずで修正されたようです。 クラスタヌは、kopsでデプロむされたAWSで実行されおいたす。

Kubernetes1.8.7
Docker1.13.1
OSDebian Stretch
CNICalico
カヌネル4.9.0-5-amd64

デフォルトでは、Debian Jessieはカヌネルバヌゞョン4.4で䜿甚されおいたず思いたすが、正垞に機胜しおいたせんでした。

この問題はENVで発生し、この問題の分析を行いたす。
k8s version 1.7/1.8
スタック情報はk8s1.7からのものです

ネットワヌクプラグむンのバグのため、環境には倚数の既存のコンテナ1k以䞊がありたす。
kubeletを再起動するkubeletはunhealthyたす。

ログずスタックをトレヌスしたす。

PLEGが再リスト操䜜を行うずき。
初めお、 https://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/pleg/generic.go#L228凊理する必芁のある倚くのむベント各コンテナにむベントがありたすを取埗したす
キャッシュの曎新には䜕回もかかりたすhttps://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/pleg/generic.go#L240
スタックを印刷するず、ほずんどの堎合、スタックは次のようになりたす。

k8s.io/kubernetes/vendor/google.golang.org/grpc/transport.(*Stream).Header(0xc42537aff0, 0x3b53b68, 0xc42204f060, 0x59ceee0)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/transport/transport.go:239 +0x146
k8s.io/kubernetes/vendor/google.golang.org/grpc.recvResponse(0x0, 0x0, 0x59c4c60, 0x5b0c6b0, 0x0, 0x0, 0x0, 0x0, 0x59a8620, 0xc4217f2460, ...)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/call.go:61 +0x9e
k8s.io/kubernetes/vendor/google.golang.org/grpc.invoke(0x7ff04e8b9800, 0xc424be3380, 0x3aa3c5e, 0x28, 0x374bb00, 0xc424ca0590, 0x374bbe0, 0xc421f428b0, 0xc421800240, 0x0, ...)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/call.go:208 +0x862
k8s.io/kubernetes/vendor/google.golang.org/grpc.Invoke(0x7ff04e8b9800, 0xc424be3380, 0x3aa3c5e, 0x28, 0x374bb00, 0xc424ca0590, 0x374bbe0, 0xc421f428b0, 0xc421800240, 0x0, ...)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/call.go:118 +0x19c
k8s.io/kubernetes/pkg/kubelet/apis/cri/v1alpha1/runtime.(*runtimeServiceClient).PodSandboxStatus(0xc4217f6038, 0x7ff04e8b9800, 0xc424be3380, 0xc424ca0590, 0x0, 0x0, 0x0, 0xc424d92870, 0xc42204f3e8, 0x28)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/apis/cri/v1alpha1/runtime/api.pb.go:3409 +0xd2
k8s.io/kubernetes/pkg/kubelet/remote.(*RemoteRuntimeService).PodSandboxStatus(0xc4217ec440, 0xc424c7a740, 0x40, 0x0, 0x0, 0x0)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/remote/remote_runtime.go:143 +0x113
k8s.io/kubernetes/pkg/kubelet/kuberuntime.instrumentedRuntimeService.PodSandboxStatus(0x59d86a0, 0xc4217ec440, 0xc424c7a740, 0x40, 0x0, 0x0, 0x0)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/kuberuntime/instrumented_services.go:192 +0xc4
k8s.io/kubernetes/pkg/kubelet/kuberuntime.(*instrumentedRuntimeService).PodSandboxStatus(0xc4217f41f0, 0xc424c7a740, 0x40, 0xc421f428a8, 0x1, 0x1)
        <autogenerated>:1 +0x59
k8s.io/kubernetes/pkg/kubelet/kuberuntime.(*kubeGenericRuntimeManager).GetPodStatus(0xc421802340, 0xc421dfad80, 0x24, 0xc422358e00, 0x1c, 0xc42172aa17, 0x5, 0x50a3ac, 0x5ae88e0, 0xc400000000)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/kuberuntime/kuberuntime_manager.go:841 +0x373
k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).updateCache(0xc421027260, 0xc421f0e840, 0xc421dfad80, 0x24, 0xc423e86ea8, 0x1)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:346 +0xcf
k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).relist(0xc421027260)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:242 +0xbe1
k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).(k8s.io/kubernetes/pkg/kubelet/pleg.relist)-fm()
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:129 +0x2a
k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait.JitterUntil.func1(0xc4217c81c0)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait/wait.go:97 +0x5e
k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait.JitterUntil(0xc4217c81c0, 0x3b9aca00, 0x0, 0x1, 0xc420084120)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait/wait.go:98 +0xbd
k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait.Until(0xc4217c81c0, 0x3b9aca00, 0xc420084120)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait/wait.go:52 +0x4d
created by k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).Start
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:129 +0x8a

各むベントのタむムスタンプを出力したす。kubeletが各むベントを凊理するのに玄1秒かかりたす。
そのため、 PLEGは3分以内に
次に、 PLEGが正垞でないため、
そのため、PLEGむベントチャネルはsyncLoop https://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/kubelet.go#L1862によっお消費されたせん。

ただし、PLEGは匕き続きむベントを凊理し、むベントをplegChannelhttps://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/pleg/generic.go#L261に送信したす。
チャネルがいっぱいになった埌チャネル容量は1000 https://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/kubelet.go#L144
PLEGはスタックしたす。 pleg relistのタむムスタンプは曎新されたせんhttps://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/pleg/generic.go#L201

スタック情報

goroutine 422 [chan send, 3 minutes]:
k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).relist(0xc421027260)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:263 +0x95a
k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).(k8s.io/kubernetes/pkg/kubelet/pleg.relist)-fm()
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:129 +0x2a
k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait.JitterUntil.func1(0xc4217c81c0)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait/wait.go:97 +0x5e
k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait.JitterUntil(0xc4217c81c0, 0x3b9aca00, 0x0, 0x1, 0xc420084120)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait/wait.go:98 +0xbd
k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait.Until(0xc4217c81c0, 0x3b9aca00, 0xc420084120)
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/vendor/k8s.io/apimachinery/pkg/util/wait/wait.go:52 +0x4d
created by k8s.io/kubernetes/pkg/kubelet/pleg.(*GenericPLEG).Start
        /mnt/tess/src/k8s.io/kubernetes/_output/local/go/src/k8s.io/kubernetes/pkg/kubelet/pleg/generic.go:129 +0x8a

終了したコンテナを削陀し、kubeletを再起動するず、元に戻りたす。

そのため、ノヌドに1,000を超えるコンテナがあるず、

解決策は、ポッドキャッシュの曎新を䞊行しお行うこずができるこずですhttps://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/pleg/generic.go#L236

たたは、むベントを凊理するずきにタむムアりトを蚭定する必芁がありたす。
@ yingnanzhang666

PLEGの問題が原因でノヌドがReady / NotReady間でフラッピングを開始するず、垞にdocker inspectがハングアップする終了したgcr.io/google_containers/pauseコンテナの1぀になりたす。 dockerデヌモンを再起動するず、問題が修正されたす。

みなさん、こんにちは。CoreOS/ Docker / Kubernetesバむナリのさたざたな組み合わせで問題が報告されおいるこずがわかりたす。 私たちの堎合、私たちはただ同じkubernetesスタックにいたす-1.7.10 / CoreOS / kops / AWS、問題が解決したずは思いたせんが、最終的に 'tiniを導入したずきに、効果をほがれロに枛らすこずができたした'https://github.com/krallin/tinikubernetesにデプロむされたDockerむメヌゞの䞀郚ずしお。 箄20の異なるコンテナヌアプリがデプロむされおおり、非垞に頻繁にデプロむされたす。 ぀たり、これは、倚くのシャットダりンず新しいレプリカのスピンアップなどを意味したす。したがっお、展開する頻床が高いほど、「ノヌド」の準備ができおおらず、PLEGに芋舞われるこずが倚くなりたす。 倧郚分の画像にtiniをロヌルアりトしたずき、PIdが刈り取られ、それに応じお殺されたこずを確認したずき、この副䜜甚の発生を停止したした。 問題ずの関連性が高いず思うので、tini、たたはサブプロセスの刈り取りを正しく凊理できるその他のDockerベヌスむメヌゞを確認するこずを匷くお勧めしたす。 お圹に立おば幞いです。 もちろん、コアの問題は残っおいるので、問題はただ有効です。

この問題はただ解決されおおらず、半定期的にクラスタヌに圱響を䞎えおいるので、゜リュヌションの䞀郚になり、ノヌドフラッピングの圱響を受けたノヌドを自動的に修埩できるカスタムオペレヌタヌの開発に取り掛かりたいず思いたす。 PLEG is not healthyある皮の䞀般的な自動修埩挔算子を介したは、Node ProblemDetectorリポゞトリのこの未解決の問題から来おPLEG is not healthyがkubeletログに衚瀺され始めるたびに、 PLEGNotHealthyノヌド条件をtrueに蚭定するNode ProblemDetectorを䜿甚しおカスタムモニタヌを構成したした。 次のステップは、 PLEGNotHealthyなど、異垞なノヌドを瀺すノヌドの状態をチェックし、ノヌド䞊のdockerデヌモンをコヌドン、゚ビクト、および再起動する自動化された修埩システムですたたは、䞎えられた条件。 開発したいオペレヌタヌのリファレンスずしおCoreOSUpdateOperatorを芋おいたす。 他の誰かがこれに぀いお考えおいるかどうか、たたはこの問題に適甚できる自動修埩゜リュヌションをすでにたずめおいるかどうかを知りたいです。 申し蚳ありたせんが、これはこのディスカッションに適したフォヌラムではありたせん。

私たちの堎合、2分間PodSandboxStatus()でスタックし、kubelet出力が発生するこずがありたす。

rpc error: code = 4 desc = context deadline exceeded

カヌネル出力

unregister_netdevice: waiting for eth0 to become free. Usage count = 1

ただし、特定のポッドの削陀ネットワヌクトラフィックが倚い堎合で発生しただけです。
たず、PodSpecサンドボックスは成功を停止したすが、䞀時停止サンドボックスの停止は倱敗したした氞久に実行されたす。 次に、同じサンドボックスIDでステヌタスをフェッチするず、垞にここでスタックしたす。
その結果、-> PLEGレむテンシヌが高い-> PLEGが䞍健党2回呌び出す、2分* 2 = 4分> 3分-> NodeNotReady

docker_sandbox.go関連コヌド

func (ds *dockerService) PodSandboxStatus(podSandboxID string) (*runtimeapi.PodSandboxStatus, error) {
    // Inspect the container.
    // !!! maybe stuck here for 2 min !!!
    r, err := ds.client.InspectContainer(podSandboxID)
    if err != nil {
        return nil, err
    }
    ...
}
func (ds *dockerService) StopPodSandbox(podSandboxID string) error {
    var namespace, name string
    var checkpointErr, statusErr error
    needNetworkTearDown := false

    // Try to retrieve sandbox information from docker daemon or sandbox checkpoint
    // !!! maybe stuck here !!!
    status, statusErr := ds.PodSandboxStatus(podSandboxID)
    ...

プロメテりスの監芖によるず、Dockerの怜査の埅ち時間は正垞ですが、kubeletの実行時の怜査/停止操䜜に時間がかかりすぎたす。
image
image

Dockerバヌゞョン1.12.6
kubeletバヌゞョン1.7.12
Linuxカヌネルバヌゞョン4.4.0-72-generic
CNIキャラコ

@yujuhongが蚀及するように

         grpc              http           grpc
kubelet <----> dockershim <----> dockerd <----> containerd

状況が発生したずき、私はdocker psを実行しようずしたす。 できたす。 curlから/var/run/docker.sock
䞀時停止コンテナのjsonを取埗するこずもできたす。 kubeletずdockershimの間のgrpc応答の問題なのだろうか

curl --unix-socket /var/run/docker.sock http:/v1.24/containers/66755504b8dc3a5c17454e04e0b74676a8d45089a7e522230aad8041ab6f3a5a/json

PLEGの問題が原因でノヌドがReady / NotReady間でフラッピングを開始するず、垞に、dockerinspectがハングアップする終了したgcr.io/google_containers/pauseコンテナヌの1぀になりたす。 dockerデヌモンを再起動するず、問題が修正されたす。

私たちのケヌスは@erstaplesの説明に䌌おいるようです。 dockerdを再起動する代わりに、ハングしおいる䞀時停止コンテナをdocker stop  docker rmだけで解決できるず思いたす。

ノヌドでdmesgを実行するず、 unregister_netdevice: waiting for eth0 to become free. Usage count = 1゚ラヌも衚瀺されたす。 システムがネットワヌクデバむスを解攟できないため、ポッドが終了するこずはありたせん。 これにより、 journalctl -u kubelet PodSandboxStatus of sandbox "XXX" for pod "YYY" error: rpc error: code = DeadlineExceeded desc = context deadline exceeded゚ラヌが発生したす。

Kubernetesネットワヌクプラグむンに関連しおいる可胜性がありたすか このスレッドの䜕人かの人々はCalicoを䜿甚しおいるようです。 倚分それはそこにあるものですか

@deitchここでCoreOSの問題に぀いお䜕か蚀い

ここでも同じ問題に盎面しおいたすが、768GbのRAMのベアメタルノヌドでテストしおいたす。 2kを超える画像が読み蟌たれおいたすそのうちのいく぀かを削陀しおいたす。

k8s1.7.15ずDocker17.09を䜿甚しおいたす。 ここでいく぀かのコメントに蚘茉されおいるように、これをDocker 1.13に戻すこずを考えおいたすが、これで問題が解決するかどうかはわかりたせん。

ボンディングがスむッチの1぀ずの接続を倱うなど、より具䜓的な問題もいく぀かありたすが、これがCoreOSネットワヌクの問題ずどのように関連しおいるかはわかりたせん。

たた、kubeletずdockerは倚くのCPU時間を費やしおいたすシステム内の他の䜕よりも

ありがずう

これはKubernetesv1.8.7ずcalicov2.8.6で確認できたす。 この堎合、䞀郚のポッドはTerminating状態でスタックし、KubeletはPLEG゚ラヌをスロヌしたす。

E0515 16:15:34.039735    1904 generic.go:241] PLEG: Ignoring events for pod myapp-5c7f7dbcf7-xvblm/production: rpc error: code = DeadlineExceeded desc = context deadline exceeded
I0515 16:16:34.560821    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m0.529418824s ago; threshold is 3m0s]
I0515 16:16:39.561010    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m5.529605547s ago; threshold is 3m0s]
I0515 16:16:41.857069    1904 kubelet_node_status.go:791] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2018-05-15 16:16:41.857046605 +0000 UTC LastTransitionTime:2018-05-15 16:16:41.857046605 +0000 UTC Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m7.825663114s ago; threshold is 3m0s}
I0515 16:16:44.561281    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m10.52986717s ago; threshold is 3m0s]
I0515 16:16:49.561499    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m15.530093202s ago; threshold is 3m0s]
I0515 16:16:54.561740    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m20.530326452s ago; threshold is 3m0s]
I0515 16:16:59.561943    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m25.530538095s ago; threshold is 3m0s]
I0515 16:17:04.562205    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m30.530802216s ago; threshold is 3m0s]
I0515 16:17:09.562432    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m35.531029395s ago; threshold is 3m0s]
I0515 16:17:14.562644    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m40.531229806s ago; threshold is 3m0s]
I0515 16:17:19.562899    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m45.531492495s ago; threshold is 3m0s]
I0515 16:17:24.563168    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m50.531746392s ago; threshold is 3m0s]
I0515 16:17:29.563422    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m55.532013675s ago; threshold is 3m0s]
I0515 16:17:34.563740    1904 kubelet.go:1779] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 4m0.532327398s ago; threshold is 3m0s]
E0515 16:17:34.041174    1904 generic.go:271] PLEG: pod myapp-5c7f7dbcf7-xvblm/production failed reinspection: rpc error: code = DeadlineExceeded desc = context deadline exceeded

docker psを実行するず、ポッドmyapp-5c7f7dbcf7-xvblmのpauseコンテナのみが衚瀺されたす。

ip-10-72-160-222 core # docker ps | grep myapp-5c7f7dbcf7-xvblm
c6c34d9b1e86        gcr.io/google_containers/pause-amd64:3.0                         "/pause"                 9 hours ago         Up 9 hours                              k8s_POD_myapp-5c7f7dbcf7-xvblm_production_baa0e029-5810-11e8-a9e8-0e88e0071844_0

kubelet再起動した埌、ゟンビpauseコンテナid c6c34d9b1e86 が削陀されたした。 kubeletログ


W0515 16:56:26.439306   79462 docker_sandbox.go:343] failed to read pod IP from plugin/docker: NetworkPlugin cni failed on the status hook for pod "myapp-5c7f7dbcf7-xvblm_production": CNI failed to retrieve network namespace path: Cannot find network namespace for the terminated container "c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b"
W0515 16:56:26.439962   79462 cni.go:265] CNI failed to retrieve network namespace path: Cannot find network namespace for the terminated container "c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b"
2018-05-15 16:56:26.428 [INFO][79799] calico-ipam.go 249: Releasing address using handleID handleID="k8s-pod-network.c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b" workloadID="production.myapp-5c7f7dbcf7-xvblm"
2018-05-15 16:56:26.428 [INFO][79799] ipam.go 738: Releasing all IPs with handle 'k8s-pod-network.c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b'
2018-05-15 16:56:26.739 [INFO][81206] ipam.go 738: Releasing all IPs with handle 'k8s-pod-network.c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b'
2018-05-15 16:56:26.742 [INFO][81206] ipam.go 738: Releasing all IPs with handle 'production.myapp-5c7f7dbcf7-xvblm'
2018-05-15 16:56:26.742 [INFO][81206] calico-ipam.go 261: Releasing address using workloadID handleID="k8s-pod-network.c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b" workloadID="production.myapp-5c7f7dbcf7-xvblm"
2018-05-15 16:56:26.742 [WARNING][81206] calico-ipam.go 255: Asked to release address but it doesn't exist. Ignoring handleID="k8s-pod-network.c6c34d9b1e86be38b41bba5ba60e1b2765584f3d3877cd6184562707d0c2177b" workloadID="production.myapp-5c7f7dbcf7-xvblm"
Calico CNI releasing IP address
2018-05-15 16:56:26.745 [INFO][80545] k8s.go 379: Teardown processing complete. Workload="production.myapp-5c7f7dbcf7-xvblm"

カヌネルログから

[40473.123736] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[40483.187768] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[40493.235781] unregister_netdevice: waiting for eth0 to become free. Usage count = 1

同様のチケットが開いおいるず思いたすhttps://github.com/moby/moby/issues/5618

これはたったく別のケヌスです。 ここで、ノヌドがフラッピングしおいる理由がわかりたす。

この問題により、本番クラスタヌのノヌドがダりンしたす。 ポッドを終了たたは䜜成するこずはできたせん。 Linuxカヌネル4.14.32およびDocker17.12.1-ce䞊のCoreOS1688.5.3Rhyoliteを䜿甚したKubernetes1.9.7。 私たちのCNIはCalicoです。

containerdのログには、削陀が芁求されたcgroupに関するいく぀かの゚ラヌが衚瀺されたすが、゚ラヌの前埌には盎接衚瀺されたせん。

May 21 17:35:00 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T17:35:00Z" level=error msg="stat cgroup bf717dbbf392b0ba7ef0452f7b90c4cfb4eca81e7329bfcd07fe020959b737df" error="cgroups: cgroup deleted"
May 21 17:44:32 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T17:44:32Z" level=error msg="stat cgroup a0887b496319a09b1f3870f1c523f65bf9dbfca19b45da73711a823917fdfa18" error="cgroups: cgroup deleted"
May 21 17:50:32 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T17:50:32Z" level=error msg="stat cgroup 2fbb4ba674050e67b2bf402c76137347c3b5f510b8934d6a97bc3b96069db8f8" error="cgroups: cgroup deleted"
May 21 17:56:22 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T17:56:22Z" level=error msg="stat cgroup f9501a4284257522917b6fae7e9f4766e5b8cf7e46989f48379b68876d953ef2" error="cgroups: cgroup deleted"
May 21 18:43:28 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T18:43:28Z" level=error msg="stat cgroup c37e7505019ae279941a7a78db1b7a6e7aab4006dfcdd83d479f1f973d4373d2" error="cgroups: cgroup deleted"
May 21 19:38:28 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T19:38:28Z" level=error msg="stat cgroup a327a775955d2b69cb01921beb747b4bba0df5ea79f637e0c9e59aeb7e670b43" error="cgroups: cgroup deleted"
May 21 19:50:26 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T19:50:26Z" level=error msg="stat cgroup 5d11f13d13b461fe2aa1396d947f1307a6c3a78e87fa23d4a1926a6d46794d58" error="cgroups: cgroup deleted"
May 21 19:52:26 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T19:52:26Z" level=error msg="stat cgroup fb7551cde0f9a640fbbb928d989ca84200909bce2821e03a550d5bfd293e786b" error="cgroups: cgroup deleted"
May 21 20:54:32 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T20:54:32Z" level=error msg="stat cgroup bcd1432a64b35fd644295e2ae75abd0a91cb38a9fa0d03f251c517c438318c53" error="cgroups: cgroup deleted"
May 21 21:56:28 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T21:56:28Z" level=error msg="stat cgroup 2a68f073a7152b4ceaf14d128f9d31fbb2d5c4b150806c87a640354673f11792" error="cgroups: cgroup deleted"
May 21 22:02:30 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T22:02:30Z" level=error msg="stat cgroup aa2224e7cfd0a6f44b52ff058a50a331056b0939d670de461b7ffc7d01bc4d59" error="cgroups: cgroup deleted"
May 21 22:18:32 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T22:18:32Z" level=error msg="stat cgroup 95e0c4f7607234ada85a1ab76b7ec2aa446a35e868ad8459a1cae6344bc85f4f" error="cgroups: cgroup deleted"
May 21 22:21:32 ip-10-5-76-113.ap-southeast-1.compute.internal env[1282]: time="2018-05-21T22:21:32Z" level=error msg="stat cgroup 76578ede18ba3bc1307d83c4b2ccd7e35659f6ff8c93bcd54860c9413f2f33d6" error="cgroups: cgroup deleted"

Kubeletは、ポッドサンドボックス操䜜の倱敗に関するいく぀かの興味深い行を瀺しおいたす。

May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:17:25.578306    1513 remote_runtime.go:115] StopPodSandbox "922f625ced6d6f6adf33fe67e5dd8378040cd2e5c8cacdde20779fc692574ca5" from runtime service failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:17:25.578354    1513 kuberuntime_manager.go:800] Failed to stop sandbox {"docker" "922f625ced6d6f6adf33fe67e5dd8378040cd2e5c8cacdde20779fc692574ca5"}
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: W0523 18:17:25.579095    1513 docker_sandbox.go:196] Both sandbox container and checkpoint for id "a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642" could not be found. Proceed without further sandbox information.
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: W0523 18:17:25.579426    1513 cni.go:242] CNI failed to retrieve network namespace path: Error: No such container: a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.723 [INFO][33881] calico.go 338: Extracted identifiers ContainerID="a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642" Node="ip-10-5-76-113.ap-southeast-1.compute.internal" Orchestrator="cni" Workload="a89
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.723 [INFO][33881] utils.go 263: Configured environment: [CNI_COMMAND=DEL CNI_CONTAINERID=a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642 CNI_NETNS= CNI_ARGS=IgnoreUnknown=1;IgnoreUnknown=1;K8S_POD_NAMESP
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.723 [INFO][33881] client.go 202: Loading config from environment
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: Calico CNI releasing IP address
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.796 [INFO][33905] utils.go 263: Configured environment: [CNI_COMMAND=DEL CNI_CONTAINERID=a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642 CNI_NETNS= CNI_ARGS=IgnoreUnknown=1;IgnoreUnknown=1;K8S_POD_NAMESP
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.796 [INFO][33905] client.go 202: Loading config from environment
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.796 [INFO][33905] calico-ipam.go 249: Releasing address using handleID handleID="k8s-pod-network.a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642" workloadID="a893f57acec1f3779c35aed743f128408e491ff2f53a3
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.796 [INFO][33905] ipam.go 738: Releasing all IPs with handle 'k8s-pod-network.a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642'
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.805 [WARNING][33905] calico-ipam.go 255: Asked to release address but it doesn't exist. Ignoring handleID="k8s-pod-network.a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642" workloadID="a893f57acec1f3779c3
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.805 [INFO][33905] calico-ipam.go 261: Releasing address using workloadID handleID="k8s-pod-network.a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642" workloadID="a893f57acec1f3779c35aed743f128408e491ff2f53
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.805 [INFO][33905] ipam.go 738: Releasing all IPs with handle 'a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642'
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: 2018-05-23 18:17:25.822 [INFO][33881] calico.go 373: Endpoint object does not exist, no need to clean up. Workload="a893f57acec1f3779c35aed743f128408e491ff2f53a312895fe883e2c68d642" endpoint=api.WorkloadEndpointMetadata{ObjectMetadata:unver
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:17:25.824925    1513 kubelet.go:1527] error killing pod: failed to "KillPodSandbox" for "9c246b32-4f10-11e8-964a-0a7e4ae265be" with KillPodSandboxError: "rpc error: code = DeadlineExceeded desc = context deadline exceeded"
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:17:25.825025    1513 pod_workers.go:186] Error syncing pod 9c246b32-4f10-11e8-964a-0a7e4ae265be ("flntk8-fl01-j7lf4_splunk(9c246b32-4f10-11e8-964a-0a7e4ae265be)"), skipping: error killing pod: failed to "KillPodSandbo
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:17:25.969591    1513 kuberuntime_manager.go:860] PodSandboxStatus of sandbox "922f625ced6d6f6adf33fe67e5dd8378040cd2e5c8cacdde20779fc692574ca5" for pod "flntk8-fl01-j7lf4_splunk(9c246b32-4f10-11e8-964a-0a7e4ae265be)" 
May 23 18:17:25 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:17:25.969640    1513 generic.go:241] PLEG: Ignoring events for pod flntk8-fl01-j7lf4/splunk: rpc error: code = DeadlineExceeded desc = context deadline exceeded
May 23 18:20:27 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: I0523 18:20:27.753523    1513 kubelet.go:1790] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m0.783603773s ago; threshold is 3m0s]
May 23 18:19:27 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:19:27.019252    1513 kuberuntime_manager.go:860] PodSandboxStatus of sandbox "922f625ced6d6f6adf33fe67e5dd8378040cd2e5c8cacdde20779fc692574ca5" for pod "flntk8-fl01-j7lf4_splunk(9c246b32-4f10-11e8-964a-0a7e4ae265be)" 
May 23 18:19:27 ip-10-5-76-113.ap-southeast-1.compute.internal kubelet[1513]: E0523 18:19:27.019295    1513 generic.go:241] PLEG: Ignoring events for pod flntk8-fl01-j7lf4/splunk: rpc error: code = DeadlineExceeded desc = context deadline exceeded

カヌネルは、以䞋に関連しおいるように芋えるフリヌラむンになるのを埅っおいるeth0を瀺しおいたす //github.com/moby/moby/issues/5618

[1727395.220036] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[1727405.308152] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[1727415.404335] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[1727425.484491] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[1727435.524626] unregister_netdevice: waiting for eth0 to become free. Usage count = 1
[1727445.588785] unregister_netdevice: waiting for eth0 to become free. Usage count = 1

ただし、このケヌスでは、アダプタヌloは衚瀺されず、カヌネルはクラッシュしたせんでした。 さらなる調査はhttps://github.com/projectcalico/calico/issues/1109を指摘しおおり、これはただ修正されおいないカヌネルの競合状態のバグであるず結論付けおいたす。

kubeletを再起動するず、ポッドが終了しお䜜成されるのに十分な問題が修正されたしたが、 waiting for eth0 to become freeスパムがdmesgで継続したした。

この問題に関する興味深い読み物は次のずおりです https //medium.com/@bcdonadio/when -the-blue-whale-sinks-55c40807c2fc

@integrii
いいえ、最新のcentOSでも発生したす。 䞀床再珟しおもらいたした。

さお、私は以前に蚀ったこずを倉曎したいず思いたす-コンテナランタむムは突然ダりンしお文句を蚀いたす

ポッドの同期をスキップする-[PLEGは正垞ではありたせん..。

dockerがファむルを実行しおいる間。 その間に、kubeletを再起動するず、PLEGが正垞になり、ノヌドが再び皌働したす。

docker、kubeletkube-proxyはすべおRT優先床に蚭定されおいたす。

もう1぀、kubeletを再起動するず、dockerを再起動しない限り同じこずが起こりたす。

Dockerの゜ケットでcurlを䜿甚しおみたしたが、正垞に機胜しおいたす。

+1
Kubernetes1.10.2
Docker1.12.6
OScentos 7.4
カヌネル3.10.0-693.el7.x86_64
CNIカリコ

+1
知事1.7.16
Docker17.12.1-ce
OSCoreOS 1688.5.3
カヌネル4.14.32-coreos
CNICalicov2.6.7
v1.9.1以降

--runtime-request-timeoutを増やすず圹立぀ず思いたすか

ノヌドの1぀でCRI-Oでこの問題が発生しおいたす。 Kubernetes 1.10.1、CRI-O 1.10.1、Fedora 27、カヌネル4.16.7-200.fc27、Flannelを䜿甚。

runc listずcrictl podsはどちらも高速ですが、 crictl ps実行には数分かかりたす。

+1
Kubernetesv1.8.7 + coreos.0
Docker17.05.0-ce
OSRedhat 7x
CNICalico
Kubespary 2.4
この問題は頻繁に発生したす。 dockerずkubeletを再起動するず、消えたす。

最新の安定したCoreOS 1745.7.0では、この問題は発生しなくなりたした。

@komljenを曎新しおからどれくらい芋おいたすか 私たちにずっお、これは発生するのにしばらく時間がかかりたす。

1぀の倧芏暡なCI環境で数日おきにこれらの問題が発生したしたが、すべおを詊しおも成功しなかったず思いたす。 OSをCoreOS以䞊のバヌゞョンに倉曎するこずが重芁であり、1か月間問題は発生しおいたせん。

私も1か月以䞊この問題を芋おいたせん。 䜕も倉曎しないので、私は患者が健康であるず宣蚀するのはそれほど速くありたせん:-)

@komljen centos7を実行したす。今日でもノヌドの1぀がダりンしたした。

私も1か月以䞊この問題を芋おいたせん。 䜕も倉曎しないので、私は患者が健康であるず宣蚀するのはそれほど速くありたせん:-)

@oivindohその特定のカヌネルバヌゞョンで䜕が倉曎されたかを確認する時間がありたせんでしたが、私の堎合は問題が解決したした。

この問題の原因はクラスタヌで芋぀かりたした。 芁玄するず、このバグは、終了しないCNIコマンドcalicoが原因で発生したす。これにより、dockershimサヌバヌハンドラヌが氞久にスタックしたす。 その結果、RPCは䞍良ポッドに察しおPodSandboxStatus()を呌び出すず、垞にタむムアりトになり、PLEGが異垞になりたす。

バグの圱響

  • 悪いポッドはTerminating状態で氞遠に立ち埀生
  • 他のポッド状態は、kubeapiサヌバヌずの同期を数分間倱う可胜性がありたすクラスタヌでkube2iam゚ラヌが発生したす
  • 関数が䜕床も呌び出されお戻らないため、メモリリヌクが発生したす

これが発生したずきにノヌドに衚瀺されるものは次のずおりです。

  1. kubeletログの次の゚ラヌメッセヌゞ
Jul 13 23:52:15 E0713 23:52:15.461144    1740 kuberuntime_manager.go:860] PodSandboxStatus of sandbox "01d8b790bc9ede72959ddf0669e540dfb1f84bfd252fb364770a31702d9e7eeb" for pod "pod-name" error: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jul 13 23:52:15 E0713 23:52:15.461215    1740 generic.go:241] PLEG: Ignoring events for pod pod-name: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jul 13 23:52:16 E0713 23:52:16.682555    1740 pod_workers.go:186] Error syncing pod 7f3fd634-7e57-11e8-9ddb-0acecd2e6e42 ("pod-name"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jul 13 23:53:15 I0713 23:53:15.682254    1740 kubelet.go:1790] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m0.267402933s ago; threshold is 3m0s]
  1. 次のタむムアりトメトリック
$ curl -s http://localhost:10255/metrics | grep 'quantile="0.5"' | grep "e+08"
kubelet_pleg_relist_interval_microseconds{quantile="0.5"} 2.41047643e+08
kubelet_pleg_relist_latency_microseconds{quantile="0.5"} 2.40047461e+08
kubelet_runtime_operations_latency_microseconds{operation_type="podsandbox_status",quantile="0.5"} 1.2000027e+08
  1. kubeletの子プロセスcalicoがスタックしおいたす
$ ps -A -o pid,ppid,start_time,comm | grep 1740
  1740      1 Jun15 kubelet
  5428   1740 Jul04 calico

dockershimサヌバヌのスタックトレヌスは次のずおりです。

PodSandboxStatus()  :: pkg/kubelet/dockershim/docker_sandbox.go
... -> GetPodNetworkStatus()  ::  pkg/kubelet/network/plugins.go
         ^^^^^ this function stuck on pm.podLock(fullPodName).Lock()

この問題を修正するには、kubeletは、CNIラむブラリ関数呌び出し DelNetwork()などおよび戻るのに氞遠にかかる可胜性のあるその他の倖郚ラむブラリ呌び出しでタむムアりトを䜿甚する必芁がありたす。

@mechpen誰かがどこかで答えを芋぀けおくれおうれしいです。 ここでは圓おはたらないず思いたす少なくずもこのクラスタヌでは、calicoではなくweaveを䜿甚しおいたす。他の堎所でcalicoを䜿甚しおおり、そのマルチアヌチを駆動しおいたす。同様の゚ラヌメッセヌゞは衚瀺されおいたせん。

ただし、衚瀺される堎合は、次のように述べおいたす。

この問題を修正するには、kubeletはCNIラむブラリ関数呌び出しDelNetworkなどたたは戻るのに氞遠にかかる可胜性のある倖郚ラむブラリ呌び出しでタむムアりトを䜿甚する必芁がありたす

構成可胜ですか たたはkubelet倉曎が必芁ですか

@deitchこの゚ラヌは、weave CNIコマンドが終了しない堎合にも発生する可胜性がありたすすべおのシステムで共有される䜎レベルのバグが原因である可胜性がありたす。

修正には、kubeletコヌドの倉曎が必芁です。

@mechpenこの問題は、フランネルで実行されおいるクラスタヌでも発生したすか 修正は同じですか

@komljen 1745.7.0この問題を芋たばかりです

珟圚k8s1.9でcalicoこの問題が発生しおいたす

その正確なノヌドに、終了でスタックしおいるポッドがありたす。 それを匷制的に殺しお、問題が止たるかどうか芋おみたしょう。

@mechpen提案のためにk8sの問題を開きたしたか

@mechpenたた、

@sstarcherただチケットを提出しおいたせん。 ただカリコが氞遠にハングする理由を芋぀けようずしおいたす。

カヌネルメッセヌゞがたくさん衚瀺されたす。

[2797545.570844] unregister_netdevice: waiting for eth0 to become free. Usage count = 2

この゚ラヌは䜕幎もの間linux / containerを悩たせおきたした。

@mechpen
@sstarcher
@deitch
はい、この問題は1か月前に発生したした。
そしお、私はそれを発行したした。
kubeletでこの問題を修正しようずしおいたすが、最初にcniで修正する必芁がありたす。
だから私は最初にcniで修正し、次にkubeletで修正したす。
THX

65743
https://github.com/containernetworking/cni/issues/567
https://github.com/containernetworking/cni/pull/568

この問題に関連する@ sstarcher @ mechpen calicoチケット
https://github.com/projectcalico/calico/issues/1109

@mechpenの問題に぀いおは、 https //github.com/moby/moby/issues/5618を参照しおください。

本番クラスタヌで再び発生したした
Kubernetes1.11.0
coreos1520.9.0
docker1.12.6
cniキャラコ

ただノヌドでkubeletずdockerdを再起動したしたが、今は問題ないようです。
notreadyノヌドずreadyノヌドの唯䞀の違いは、cronjobポッドの開始ず停止がたくさんあり、notreadyノヌドで匷制終了されるこずです。

@mechpen

同じ問題が発生しおいるかどうかはわかりたせん。

Jul 30 17:52:15 cloud-blade-31 kubelet[24734]: I0730 17:52:15.585102   24734 kubelet_node_status.go:431] Recording NodeNotReady event message for node cloud-blade-31
Jul 30 17:52:15 cloud-blade-31 kubelet[24734]: I0730 17:52:15.585137   24734 kubelet_node_status.go:792] Node became not ready: {Type:Ready Status:False LastHeartbeatTime:2018-07-30 17:52:15.585076295 -0700 PDT m=+13352844.638760537 LastTransitionTime:2018-07-30 17:52:15.585076295 -0700 PDT m=+13352844.638760537 Reason:KubeletNotReady Message:PLEG is not healthy: pleg was last seen active 3m0.948768335s ago; threshold is 3m0s}
Jul 30 17:52:25 cloud-blade-31 kubelet[24734]: I0730 17:52:25.608101   24734 kubelet_node_status.go:443] Using node IP: "10.11.3.31"
Jul 30 17:52:35 cloud-blade-31 kubelet[24734]: I0730 17:52:35.640422   24734 kubelet_node_status.go:443] Using node IP: "10.11.3.31"
Jul 30 17:52:36 cloud-blade-31 kubelet[24734]: E0730 17:52:36.556409   24734 remote_runtime.go:169] ListPodSandbox with filter nil from runtime service failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jul 30 17:52:36 cloud-blade-31 kubelet[24734]: E0730 17:52:36.556474   24734 kuberuntime_sandbox.go:192] ListPodSandbox failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jul 30 17:52:36 cloud-blade-31 kubelet[24734]: W0730 17:52:36.556492   24734 image_gc_manager.go:173] [imageGCManager] Failed to monitor images: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jul 30 17:52:45 cloud-blade-31 kubelet[24734]: I0730 17:52:45.667169   24734 kubelet_node_status.go:443] Using node IP: "10.11.3.31"
Jul 30 17:52:55 cloud-blade-31 kubelet[24734]: I0730 17:52:55.692889   24734 kubelet_node_status.go:443] Using node IP: "10.11.3.31"
Jul 30 17:53:05 cloud-blade-31 kubelet[24734]: I0730 17:53:05.729182   24734 kubelet_node_status.go:443] Using node IP: "10.11.3.31"
Jul 30 17:53:15 cloud-blade-31 kubelet[24734]: E0730 17:53:15.265668   24734 remote_runtime.go:169] ListPodSandbox with filter &PodSandboxFilter{Id:,State:&PodSandboxStateValue{State:SANDBOX_READY,},LabelSelector:map[string]string{},} from runtime service failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded

Dockerデヌモンがヘルスチェックぞの応答を停止するず、ノヌドはNotReadyなりたす。 マシン自䜓ではdocker psがハングしたすが、 docker versionが戻りたす。 ノヌドをReady戻すには、dockerデヌモンを再起動する必芁がありたす。 ポッドがスタックしおいるかどうかはわかりたせん。コンテナを䞀芧衚瀺できないようです。

Kubernetes1.9.2
Docker 17.03.1-ce commit c6d412e
OSUbuntu 16.04
カヌネルLinux 4.13.0-31-generic34〜16.04.1-Ubuntu SMP Fri Jan 19 17:11:01 UTC 2018 x86_64 x86_64 x86_64 GNU / Linux

同じ問題がありたす。 これは非垞に頻繁に発生するため、ノヌドは5分間のポッドのスケゞュヌリングに耐えられたせん。
゚ラヌは、メむンクラスタヌフランネルずテストクラスタヌカリコの䞡方で発生したす。
kubernetesバヌゞョン1.9。/ 1.11.1、ディストリビュヌションdebian、ubuntu、クラりドプロバむダヌec2、hetzner cloud、dockerバヌゞョン17.3.2、17.06.2を倉えおみたした。 完党な行列をテストしたのは、1぀の倉数のバリ゚ヌションだけではありたせんでした。
私のワヌクロヌドは非垞に単玔です1぀のコンテナヌ、ボリュヌムなし、デフォルトのネットワヌク、30個のポッドのバルクでスケゞュヌルされたポッド
クラスタヌは、カスタマむズせずにkubeadmを䜿甚しお新たにセットアップされたすフランネルを䜿甚した最初のテストを陀く

゚ラヌは数分以内に発生しおいたす。 docker psが戻っおこない/スタックしおいる、ポッドが終了しおスタックしおいるなど。

珟圚、この゚ラヌを匕き起こさない既知の構成debianたたはubuntuを䜿甚があるかどうか疑問に思っおいたすか
安定したノヌドを生成するオヌバヌレむネットワヌクず他のバヌゞョンの䜜業の組み合わせを共有できる、このバグの圱響を受けおいない人はいたすか

これは、BaremetalノヌドのOpenshiftで発生したす。

このPLEGの特定の発生では、倚数のvCPUが蚭定されおいるOpenShiftノヌドで倚数のコンテナヌが暎走したcronゞョブを介しお䞀床に開始されたずきに問題が発生したした。 ノヌドはノヌドあたり最倧250ポッドに達し、過負荷になりたした。

解決策は、vCPUの数を8に枛らすこずでOpenShiftノヌド仮想マシンに割り圓おられるvCPUを枛らすこずですたずえば。これは、スケゞュヌルできるポッドの最倧数が80ポッドになるこずを意味したすCPUあたりのデフォルトの制限は10ポッド 250の代わりに。通垞、より倧きなノヌドではなく、より適切なサむズのノヌドを䜿甚するこずをお勧めしたす。

224CPUのノヌドがありたす。 Kubernetesバヌゞョン1.7.1-Redhat7.4

同様の問題があるず思いたす。 私のポッドは終了するたでハングし、ログに䞍健康なPLEGの報告がありたす。 しかし、私の状況では、手動でkubeletプロセスを匷制終了するたで、正垞に戻るこずはありたせん。 単玔なsudo systemctl restart kubelet問題が解決したしたが、ロヌルアりトを行うたびに、マシンの玄1/4で解決する必芁がありたす。 それは玠晎らしいこずではありたせん。

ここで䜕が起こっおいるのか正確にはわかりたせんが、kubeletプロセスでbridgeコマンドが実行されおいるのを芋るず、このスレッドで前述したように、CNIに関連しおいるのでしょうか。 今日、この2぀の別々のむンスタンスから倧量のログを添付したした。誰かず協力しお、この問題をデバッグできるこずをうれしく思いたす。

もちろん、この問題のあるすべおのマシンは、埓来のunregister_netdevice: waiting for eth0 to become free. Usage count = 2を吐き出したす-実行䞭のgoルヌチンを取埗するために送信されたSIGABRTを䜿甚しおlogs.tar.gzに2぀の異なるkubeletログを うたくいけば、これが圹立぀でしょう。 関連しおいるように芋えるいく぀かの電話を芋たので、ここでそれらを呌び出したす

Aug 13 22:57:30 worker-4bm5 kubelet[1563]: goroutine 2895825 [semacquire, 17 minutes]:
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: sync.runtime_SemacquireMutex(0xc422082d4c)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/runtime/sema.go:62 +0x34
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: sync.(*Mutex).Lock(0xc422082d48)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/sync/mutex.go:87 +0x9d
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: k8s.io/kubernetes/pkg/kubelet/network.(*PluginManager).GetPodNetworkStatus(0xc420ddbbc0, 0xc421e36f76, 0x17, 0xc421e36f69, 0xc, 0x36791df, 0x6, 0xc4223f6180, 0x40, 0x0, ...)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /workspace/anago-v1.8.7-beta.0.34+b30876a5539f09/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/pkg/kubelet/network/plugins.go:376 +0xe6
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: goroutine 2895819 [syscall, 17 minutes]:
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: syscall.Syscall6(0xf7, 0x1, 0x25d7, 0xc422c96d70, 0x1000004, 0x0, 0x0, 0x7f7dc6909e10, 0x0, 0xc4217e9980)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/syscall/asm_linux_amd64.s:44 +0x5
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: os.(*Process).blockUntilWaitable(0xc42216af90, 0xc421328c60, 0xc4217e99e0, 0x1)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/os/wait_waitid.go:28 +0xa5
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: os.(*Process).wait(0xc42216af90, 0x411952, 0xc4222554c0, 0xc422255480)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/os/exec_unix.go:22 +0x4d
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: os.(*Process).Wait(0xc42216af90, 0x0, 0x0, 0x379bbc8)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/os/exec.go:115 +0x2b
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: os/exec.(*Cmd).Wait(0xc421328c60, 0x0, 0x0)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/os/exec/exec.go:435 +0x62
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: os/exec.(*Cmd).Run(0xc421328c60, 0xc422255480, 0x0)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /usr/local/go/src/os/exec/exec.go:280 +0x5c
Aug 13 22:57:30 worker-4bm5 kubelet[1563]: k8s.io/kubernetes/vendor/github.com/containernetworking/cni/pkg/invoke.(*RawExec).ExecPlugin(0x5208390, 0xc4217e98a0, 0x1b, 0xc4212e66e0, 0x156, 0x160, 0xc422b7fd40, 0xf, 0x12, 0x4121a8, ...)
Aug 13 22:57:30 worker-4bm5 kubelet[1563]:         /workspace/anago-v1.8.7-beta.0.34+b30876a5539f09/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/vendor/github.com/containernetworking/cni/pkg/invoke/raw_exec.go:42 +0x215

カヌネル4.14.33以降でコンテナ最適化OSをkubenetで䜿甚するGCE䞊のKubernetes1.8.7。

logs.tar.gz

@ jcperezamin 、

私はこれをベアメタルで取埗しおいたす。 kubeadmシングルノヌドマスタヌで構成されたUbuntu18.04の新芏むンストヌルを䜿甚したす。

Warning ContainerGCFailed 8m (x438 over 8h) ... rpc error: code = ResourceExhausted desc = grpc: trying to send message larger than max (8400302 vs. 8388608) に遭遇したした。 ノヌドは最倧11,500個の停止したコンテナヌを蓄積しおいたした。 䞀郚のコンテナを手動でクリアしおGCを修正したしたが、盎埌にPLEGが原因でノヌドがNotReadyになりたした。

ネットワヌク甚のフランネルを備えた、かなり必芁最䜎限​​のk8s構成を䜿甚しおいたす。 圱響を受けるノヌドは、ハヌドりェアRAID6に6x 10kSASドラむブを搭茉した叀いXeonE5-2670ベヌスのマシンです。

PLEGの問題は1時間以内に解決せず、kubeletを再起動するずすぐに問題が修正されたした。

マシンに倧きな負荷をかけるたびに発生しおいるようで、ノヌドが自動的に回埩するこずはありたせん。 SSH経由でログむンするず、ノヌドのCPUずその他のリ゜ヌスは空になりたす。 Dockerコンテナヌ、むメヌゞ、ボリュヌムなどはそれほど倚くありたせん。これらのリ゜ヌスの䞀芧衚瀺は高速です。 そしお、単にkubeletを再蚘述するず、垞に問題が即座に修正されたす。

私は次のバヌゞョンを䜿甚しおいたす

  • Ubuntu18.04.1
  • Linux4.15.0-33-generic
  • Kubernetesサヌバヌv1.11.0
  • Kubeadmv1.11.2
  • Docker18.06.1-ce

Kubernetes1.11.1のベアメタルノヌドでこの問題が発生したした:(

これも頻繁に経隓し、ノヌドは非垞に匷力で十分に掻甚されおいたせん。

  • Kubernetes1.10.2
  • カヌネル3.10.0
  • Docker1.12.6

同じ問題...

環境
クラりドプロバむダヌたたはハヌドりェア構成ベアメタル
OS䟋/ etc / os-releaseからUbuntu 16.04
カヌネル䟋uname -a4.4.0-109-generic
Kubernetes1.10.5
Docker1.12.3-0〜xenial

kubernetes 1.10.3に移行した埌も、同じ問題が発生したす。

クラむアントバヌゞョンversion.Info {メゞャヌ "1"、マむナヌ "10"、GitVersion "v1.10.5"
サヌバヌバヌゞョンversion.Info {メゞャヌ "1"、マむナヌ "10"、GitVersion "v1.10.3"

ベアメタル環境での同じ問題

環境
クラりドプロバむダヌたたはハヌドりェア構成ベアメタル
OS䟋/ etc / os-releaseからCoreOS 1688.5.3
カヌネル䟋uname -a4.14.32
Kubernetes1.10.4
Docker17.12.1

問題の到着時にノヌドのIOWAIT倀を知るこずは興味深いこずです。

同じ問題が別のベアメタル環境で繰り返し芋られたす。 最新のヒットのバヌゞョン

  • OS Ubuntu 16.04.5 LTS
  • カヌネル Linux4.4.0-134-generic
  • Kubernetes

    • 矜ばたきホスト v1.10.3

    • マスタヌ v1.10.5およびv1.10.2

  • フラッピングホスト䞊のDocker 18.03.1-cego1.9.5でコンパむル

原因はわかっおいたす。

ここでアップストリヌムの修正が行われおいたす
https://github.com/containernetworking/cni/pull/568

次のステップは、誰かがゞャンプしたい堎合にkubernetesが䜿甚するcniを曎新するこずです
そしおそのPRを準備したす。 あなたはおそらく@liuciminたたは私ず調敎したいず思うでしょう
぀た先を螏たないように。

金には、2018幎9月14日、1138 AMカルダヌCoalson [email protected]
曞きたした

同じ問題が別のベアメタル環境で繰り返し芋られたす。 のバヌゞョン
最新のヒット

  • OS Ubuntu 16.040.5 LTS
  • カヌネル Linux4.4.0-134-generic
  • Kubernetes

    • 矜ばたきホスト v1.10.3

    • マスタヌ v1.10.5およびv1.10.2

  • フラッピングホスト䞊のDocker 18.03.1-cego1.9.5でコンパむル

—
あなたがコメントしたのであなたはこれを受け取っおいたす。
このメヌルに盎接返信し、GitHubで衚瀺しおください
https://github.com/kubernetes/kubernetes/issues/45419#issuecomment-421447751 、
たたはスレッドをミュヌトしたす
https://github.com/notifications/unsubscribe-auth/AFctXYnTJjNwtWquPmi5nozVMUYDetRlks5ua_eIgaJpZM4NSBta
。

@deitch
こんにちは、私はこのような同じ゚ラヌに遭遇したした
Error syncing pod *********** ("pod-name"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded

dockerdでコンテナ情報をリク゚ストしたしたが、このリク゚ストがブロックされ、結果が返されたせんでした

curl -XGET --unix-socket /var/run/docker.sock http://localhost/containers/******("yourcontainerid")/json

だから倚分これはDocker゚ラヌだず思いたす

これは、ログをディスクに氞続化する際のDockerデヌモンのブロックに関するものです。
dockerでこれに察凊する䜜業がありたすが、18.06たで着陞したせんk8sの䜿甚に぀いおはただ怜蚌枈みのdockerではありたせん
https://docs.docker.com/config/containers/logging/configure/#configure -the-delivery-mode-of-log-messages-from-container-to-log-driver
dockerデヌモンはデフォルトでロギングをブロックするため、その問題を回避できるようになるたで察凊できたせん。

これは、問題が発生しおいるずきにiowaitが高くなるこずずも盞関しおいたす。

execヘルスチェックを䜿甚するコンテナは、倧量のログを生成したす。 ロギングメカニズムを匷調する他のパタヌンもありたす。
ちょうど私の2c

これを実行しおいるマシンで高いiowaitが発生するこずはありたせん。 CoreOS、Kube 1.10、Docker 17.03

@mauilionロギングの問題を説明する問題たたはMRを教えおください。

同じ問題が発生し、2぀のKubernetesノヌドがReadyずNotReadyの間でフラップしおいたした。 信じられないかもしれたせんが、解決策は、終了したDockerコンテナず関連するポッドを削陀するこずでした。

d4e5d7ef1b5c  gcr.io/google_containers/pause-amd64:3.0  Exited (137) 3 days ago 

その埌、他の介入なしに、クラスタヌは再び安定したした。
さらに、これはsyslogで芋぀かったログメッセヌゞでした。

E1015 07:48:49.386113    1323 remote_runtime.go:115] StopPodSandbox "d4e5d7ef1b5c3d13a4e537abbc7c4324e735d455969f7563287bcfc3f97b
085f" from runtime service failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded

今この問題に盎面しおいる

OS: Oracle Linux 7.5
Kernel: 4.17.5-1.el7.elrepo.x86_64
Kubernetes: 1.11.3
Flapping host: v1.11.3
Docker on flapping host: 18.03.1-ce (compiled with go1.9.5)

https://github.com/containernetworking/cni/pull/568がCNIに統合されたした。

䞊蚘の修正を含むCNIの新しいリリヌスであるIIUCは、k8sでこれを修正できるはずです。

調敎が必芁です- @ bboreham @ liucimin 。 sig-networkぞの投皿も

どのバヌゞョンのkubernetes-cniに修正が含たれたすか ありがずう

タむムアりトに関するより焊点を絞った問題は65743です

そこで述べたように、次のステップはKubernetes偎で、テストを䜜成するなどしお、倉曎によっお問題が実際に修正されるこずを確認したす。 これを確認するためにリリヌスは必芁ありたせん。最新のlibCNIコヌドをプルするだけです。

/ sigネットワヌク

これずスタックしたdocker psが、保蚌されたポッドによっおトリガヌされたOOMに関連しお発生しおいる堎合は、72294を参照しおください。 ポッドむンフラコンテナが匷制終了されお再起動されるず、cniの再初期化がトリガヌされ、次に䞊蚘のタむムアりト/ロックの問題がトリガヌされる堎合がありたす。

これに䌌たものが芋られたす-Ready / NotReady間で垞にPLEGがバタバタしおいたす-kubeletを再起動するず問題が解決するようです。 kubeletからのゎルヌチンダンプで、倚数あるこずに気づきたした珟圚、15000を超えるゎルヌチンが次のスタックにスタックしおいたす

goroutine 29624527 [semacquire, 2766 minutes]:
sync.runtime_SemacquireMutex(0xc428facb3c, 0xc4216cca00)
    /usr/local/go/src/runtime/sema.go:71 +0x3d
sync.(*Mutex).Lock(0xc428facb38)
    /usr/local/go/src/sync/mutex.go:134 +0xee
k8s.io/kubernetes/pkg/kubelet/network.(*PluginManager).GetPodNetworkStatus(0xc420820980, 0xc429076242, 0xc, 0xc429076209, 0x38, 0x4dcdd86, 0x6, 0xc4297fa040, 0x40, 0x0, ...)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/pkg/kubelet/network/plugins.go:395 +0x13d
k8s.io/kubernetes/pkg/kubelet/dockershim.(*dockerService).getIPFromPlugin(0xc4217c4500, 0xc429e21050, 0x40, 0xed3bf0000, 0x1af5b22d, 0xed3bf0bc6)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/pkg/kubelet/dockershim/docker_sandbox.go:304 +0x1c6
k8s.io/kubernetes/pkg/kubelet/dockershim.(*dockerService).getIP(0xc4217c4500, 0xc4240d9dc0, 0x40, 0xc429e21050, 0xe55ef53, 0xed3bf0bc7)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/pkg/kubelet/dockershim/docker_sandbox.go:333 +0xc4
k8s.io/kubernetes/pkg/kubelet/dockershim.(*dockerService).PodSandboxStatus(0xc4217c4500, 0xb38ad20, 0xc429e20ed0, 0xc4216214c0, 0xc4217c4500, 0x1, 0x0)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/pkg/kubelet/dockershim/docker_sandbox.go:398 +0x291
k8s.io/kubernetes/pkg/kubelet/apis/cri/runtime/v1alpha2._RuntimeService_PodSandboxStatus_Handler(0x4d789e0, 0xc4217c4500, 0xb38ad20, 0xc429e20ed0, 0xc425afaf00, 0x0, 0x0, 0x0, 0x0, 0x2)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/pkg/kubelet/apis/cri/runtime/v1alpha2/api.pb.go:4146 +0x276
k8s.io/kubernetes/vendor/google.golang.org/grpc.(*Server).processUnaryRPC(0xc420294640, 0xb399760, 0xc421940000, 0xc4264d8900, 0xc420d894d0, 0xb335000, 0x0, 0x0, 0x0)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/server.go:843 +0xab4
k8s.io/kubernetes/vendor/google.golang.org/grpc.(*Server).handleStream(0xc420294640, 0xb399760, 0xc421940000, 0xc4264d8900, 0x0)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/server.go:1040 +0x1528
k8s.io/kubernetes/vendor/google.golang.org/grpc.(*Server).serveStreams.func1.1(0xc42191c020, 0xc420294640, 0xb399760, 0xc421940000, 0xc4264d8900)
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/server.go:589 +0x9f
created by k8s.io/kubernetes/vendor/google.golang.org/grpc.(*Server).serveStreams.func1
    /go/src/k8s.io/kubernetes/_output/dockerized/go/src/k8s.io/kubernetes/vendor/google.golang.org/grpc/server.go:587 +0xa1

このスタックにスタックしおいるゎルヌチンの数が時間の経過ずずもに着実に増加しおいるこずに気付きたした2分ごずに玄1぀䜙分に
これが発生したノヌドでは、通垞、ポッドがTerminatingスタックしおいたす。kubeletを再起動するず、 Terminatingポッドが移動し、PLEGの問題が発生しなくなりたす。

@pnovotnakこれが、CNIにタむムアりトを远加するための倉曎、たたは他の䜕かによっお修正されるべき同じ問題のように聞こえる堎合、䜕かアむデアはありたすか ネットワヌク分野でも同様の症状のようです。

同じ質問がありたす https 

どのバヌゞョンのkubernetes-cniに修正が含たれたすか ありがずう

@ warmchangkubernetes-cniプラグむンパッケヌゞは関係ありたせん。 必芁な倉曎はlibcniにあり、これはhttps://github.com/containernetworking/cniからベンダヌ化されおいたすこのリポゞトリにコピヌされおい

倉曎はマヌゞされたす。 リリヌスは必芁ありたせんただし、気分が良くなる可胜性がありたす。

@bboreham返信ありがずうございたす。
CNIプラグむンflannel / calicoなどではなく、ベンダヌディレクトリ内のCNIコヌドlibcniを意味したす。
そしお、承認を埅っおいるこのPRhttps //github.com/kubernetes/kubernetes/pull/71653を芋぀けたした。

/ milestone v1.14

私はこの問題に遭遇したす、私の環境
docker 18.06
oscentos7.4
カヌネル4.19
kubelet1.12.3

私のノヌドはReadyずNotReadyの間でバタバタしおいたした。
これたでに、--- force --grace-period = 0のポッドをいく぀か削陀したした。 ポッドを削陀しおも、終了ステヌタスのたたであるためです。
その埌、kubeletでいく぀かのログを芋぀けたした

kubelet [10937]I0306 192332.474487 10937 handlers.go62]ポッド "saas-56bd6d8588-のコンテナヌ" odp-saas "の実行ラむフサむクルフック[/home/work/webserver/loadnginx.sh stop] xlknh15ebc67d-3bed-11e9-ba81-246e96352590 "倱敗-゚ラヌコマンド '/home/work/webserver/loadnginx.sh stop'が126で終了したした、メッセヌゞ"ナヌザヌの䜜業が芋぀かりたせんpasswdに䞀臎する゚ントリがありたせんファむル\ r \ n "_

デプロむメントでlifecyclesectionprestopコマンドを䜿甚しおいるためです。
ラむフサむクル
preStop
exec
# SIGTERMはクむック終了をトリガヌしたす。 代わりに正垞に終了したす
コマンド["/ home / work / webserver / loadnginx.sh"、 "stop"]

およびその他のログは次のこずを瀺しおいたす。
kubelet [17119]E0306 193511.223925 17119 remote_runtime.go282] ContainerStatus "cbc957993825885269935a343e899b807ea9a49cb9c7f94e68240846af3e701d" from runti
kubelet [17119]E0306 193511.223970 17119 kuberuntime_container.go393] cbc957993825885269935a343e899b807ea9a49cb9c7f94e68240846af3e701dのContainerStatus
kubelet [17119]E0306 193511.223978 17119 kuberuntime_manager.go866]ポッド「gz-saas-56bd6d8588-sk88t_storeic1303430e-3ffa-11e9-ba8」のgetPodContainerStatuses
kubelet [17119]E0306 193511.223994 17119 generic.go241] PLEGポッドsaasのむベントを無芖したす-56bd6d8588-sk88t / storeicrpc゚ラヌコヌド= DeadlineExceeded d
kubelet [17119]E0306 193511.224123 17119 pod_workers.go186]ポッドの同期䞭に゚ラヌが発生したした1303430e-3ffa-11e9-ba81-246e96352590 "gz-saas-56bd6d8588-sk88t_storeic130343
Mkubelet [17119]E0306 193512.509163 17119 remote_runtime.go282] ContainerStatus "4ff7ff8e1eb18ede5eecbb03b60bdb0fd7f7831d8d7e81f59bc69d166d422fb6" from runti
kubelet [17119]E0306 193512.509163 17119 remote_runtime.go282] ContainerStatus "cbc957993825885269935a343e899b807ea9a49cb9c7f94e68240846af3e701d" from runti
kubelet [17119]E0306 193512.509220 17119 kubelet_pods.go1086]ポッド「saas-56bd6d8588-rsfh5」の匷制終了に倱敗したした「saas」wiの「Kill​​Container」に倱敗したした
kubelet [17119]E0306 193512.509230 17119 kubelet_pods.go1086]ポッド「saas-56bd6d8588-sk88t」の匷制終了に倱敗したした「saas」wiの「Kill​​Container」に倱敗したした
kubelet [17119]I0306 193512.788887 17119 kubelet.go1821]ポッド同期のスキップ-[PLEGは正垞ではありたせんplegは4分1.597223765秒前にアクティブに最埌に芋られたした。

k8sはコンテナを停止できたせん。これらのコンテナはスタック状態になりたした。 これにより、PLEGが健康になりたせん。
最埌に、゚ラヌコンテナがあるdockerデヌモンを再起動するず、ノヌドは準備完了に回埩したす。

なぜコンテナが止たらないのかわかりたせん!!! プレストップかもしれたせんか

/ milestone v1.15

+1
k8s v1.10.5
docker 17.09.0-ce

+1
k8s v1.12.3
docker 06.18.2-ce

+1
k8s v1.13.4
docker-1.13.1-94.gitb2f74b2.el7.x86_64

@ kubernetes / sig-network-bugs @thockin @spiffxp フレンドリヌなping。 これは再び行き詰たったようです。

@calder 通知をトリガヌするために蚀及を繰り返したす
@ kubernetes / sig-network-bugs

察応しお、この

@ kubernetes / sig-network-bugs @thockin @spiffxp フレンドリヌなping。 これは再び行き詰たったようです。

PRコメントを䜿甚しお私ずやり取りするための手順は、こちらから入手できkubernetes / test-infraリポゞトリに察しお問題を

こんにちは、
この問題は、プラットフォヌムの1぀でも芋぀かりたした。 他のクラスタヌずの唯䞀の違いは、マスタヌノヌドが1぀しかないこずです。 実際、3぀のマスタヌを䜿甚しおクラスタヌを再䜜成したしたが、これたでのずころ数日埌問題に気づいおいたせん。
だから私の質問はマルチマスタヌ> = 3クラスタヌでこの問題に気づいた人はいたすか

@Kanshiroronはい、3぀のマスタヌクラスタヌがあり、昚日1぀のワヌカヌノヌドでこの問題が発生したした。 ノヌドをドレむンしお再起動するず、正垞に戻っおきたした。 プラットフォヌムは、k8sv1.11.8およびDockerEnterprise18.09.2-eeを搭茉したDockerEEです。

3マスタヌクラスタヌ3ノヌドetcdクラスタヌがありたす。 18個のワヌカヌノヌドがあり、各ノヌドは平均しお50〜100個のDockerコンテナヌポッドではなく、コンテナヌ党䜓で実行されおいたす。

かなりのポッドスピンアップむベントず、PLEG゚ラヌのためにノヌドを再起動する必芁があるこずずの間に明確な正の盞関関係が芋られたす。 堎合によっおは、スピンアップによっおむンフラストラクチャ党䜓で100を超えるコンテナが䜜成されるこずがありたす。これが発生するず、ほずんどの堎合、結果ずしおPLEG゚ラヌが発生したす。

ノヌドたたはクラスタヌレベルで、これを匕き起こしおいる原因を理解しおいたすか

私はこれから少し離れおいたす-䜕が起こっおいるのか知っおいたすか @bborehamの修正はありたすか䜕が起きおいるか知っおいるようだったので PRはありたすか

この症状はさたざたな原因で発生する可胜性があるず思われたすが、ここでの「同じ問題がありたす」ずいうコメントのほずんどに぀いおは、あたり続ける必芁はありたせん。

これらの方法の䞀぀はで詳现に説明されたhttps://github.com/kubernetes/kubernetes/issues/45419#issuecommentで-405168344ず同様のhttps://github.com/kubernetes/kubernetes/issues/45419#issuecomment -456081337 -通話をCNIに入るず、Kubeletが壊れお、氞遠にハングする可胜性がありたす。 問題65743は、タむムアりトを远加する必芁があるず述べおいたす。

これに察凊するために、 Contextをlibcniに挿入しお、キャンセルをexec.CommandContext()で実装できるようにするこずにしたした。 PR71653は、そのAPIのCRI偎にタむムアりトを远加したす。

わかりやすくするために、CNIプラグむンぞの倉曎は含たれおいたせん。これは、プラグむンを実行するコヌドぞの倉曎です

さお、PLEGスりォヌム最近これを呌んでいたすでデバッグを行う機䌚を埗たした。K8sによっお報告されたPLEG゚ラヌずDocker.serviceログの゚ントリずの間にいく぀かの盞関関係が芋぀かりたした。

2぀のサヌバヌで、私はこれを芋぀けたした

゚ラヌを監芖しおいたスクリプトから

Sat May 11 03:27:19 PDT 2019 - SERVER-A
Found:   Ready            False     Sat, 11 May 2019 03:27:10 -0700   Sat, 11 May 2019 03:13:16 -0700   KubeletNotReady              PLEG is not healthy: pleg was last seen active 16m53.660513472s ago; threshold is 3m0s

'journalctl -u docker.service'からのSERVER-Aの出力で䞀臎する゚ントリ

May 11 03:10:20 SERVER-A dockerd[1133]: time="2019-05-11T03:10:20.641064617-07:00" level=error msg="stream copy error: reading from a closed fifo"
May 11 03:10:20 SERVER-A dockerd[1133]: time="2019-05-11T03:10:20.641083454-07:00" level=error msg="stream copy error: reading from a closed fifo"
May 11 03:10:20 SERVER-A dockerd[1133]: time="2019-05-11T03:10:20.740845910-07:00" level=error msg="Error running exec a9fe257c0fca6ff3bb05a7582015406e2f7f6a7db534b76ef1b87d297fb3dcb9 in container: OCI runtime exec failed: exec failed: container_linux.go:344: starting container process caused \"process_linux.go:113: writing config to pipe caused \\\"write init-p: broken pipe\\\"\": unknown"
May 11 03:10:20 SERVER-A dockerd[1133]: time="2019-05-11T03:10:20.767528843-07:00" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
27 lines of this^^ repeated

次に、私のスクリプトずは別のサヌバヌで


Sat May 11 03:38:25 PDT 2019 - SERVER-B
Found:   Ready            False     Sat, 11 May 2019 03:38:16 -0700   Sat, 11 May 2019 03:38:16 -0700   KubeletNotReady              PLEG is not healthy: pleg was last seen active 3m6.168050703s ago; threshold is 3m0s

およびDockerゞャヌナルから

May 11 03:35:25 SERVER-B dockerd[1102]: time="2019-05-11T03:35:25.745124988-07:00" level=error msg="stream copy error: reading from a closed fifo"
May 11 03:35:25 SERVER-B dockerd[1102]: time="2019-05-11T03:35:25.745139806-07:00" level=error msg="stream copy error: reading from a closed fifo"
May 11 03:35:25 SERVER-B dockerd[1102]: time="2019-05-11T03:35:25.803182460-07:00" level=error msg="1a5dbb24b27cd516373473d34717edccc095e712238717ef051ce65022e10258 cleanup: failed to delete container from containerd: no such container"
May 11 03:35:25 SERVER-B dockerd[1102]: time="2019-05-11T03:35:25.803267414-07:00" level=error msg="Handler for POST /v1.38/containers/1a5dbb24b27cd516373473d34717edccc095e712238717ef051ce65022e10258/start returned error: OCI runtime create failed: container_linux.go:344: starting container process caused \"process_linux.go:297: getting the final child's pid from pipe caused \\\"EOF\\\"\": unknown"
May 11 03:35:25 SERVER-B dockerd[1102]: time="2019-05-11T03:35:25.876522066-07:00" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 11 03:35:25 SERVER-B dockerd[1102]: time="2019-05-11T03:35:25.964447832-07:00" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"

残念ながら、これを「正垞な」ノヌド党䜓で怜蚌するず、これらのむンスタンスが䞀緒に発生しおいるこずもわかりたす。
これを他の倉数ず盞関させるように努めたすが、これらの゚ラヌメッセヌゞを怜玢するず、いく぀かの興味深い議論に぀ながりたす。

Docker-ce 18.06.1-ce-rc2コンテナヌを実行できたせん、「ストリヌムコピヌ゚ラヌ閉じたFIFOからの読み取り」

Moby同じチェックポむントから倚数のコンテナヌを同時に開始するず、゚ラヌが発生したす「コンテキストの期限を超えたした」29369

Kubernetesノヌドあたりの最倧ポッド数を増やす23349

その最埌のリンクには、 @ dElogicsによる特に興味深いコメントがあり

いく぀かの貎重な情報を远加するだけで、ノヌドごずに倚数のポッドを実行するず、45419になりたす。 修正ずしお、dockerディレクトリを削陀し、dockerずkubeletを䞀緒に再起動したす。

私の堎合、K8sv1.10.2ずdocker-cev18.03.1を䜿甚しおいたす。 次のようなノヌドフラッピングReady / NotReadyで実行されおいるkubeletのログをいく぀か芋぀けたした。

E0512 09:17:56.721343 4065 pod_workers.go:186] Error syncing pod e5b8f48a-72c2-11e9-b8bf-005056871a33 ("uac-ddfb6d878-f6ph2_default(e5b8f48a-72c2-11e9-b8bf-005056871a33)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
E0512 09:17:17.154676 4065 kuberuntime_manager.go:859] PodSandboxStatus of sandbox "a34943dabe556924a2793f1be2f7181aede3621e2c61daef0838cf3fc61b7d1b" for pod "uac-ddfb6d878-f6ph2_default(e5b8f48a-72c2-11e9-b8bf-005056871a33)" error: rpc error: code = DeadlineExceeded desc = context deadline exceeded

そしお、このポッドuac-ddfb6d878-f6ph2_defaultが終了しおいるこずがわかったので、回避策は、ポッドを匷制的に削陀し、そのノヌド䞊のこのポッドのすべおのコンテナヌを削陀するこずです。その埌、このノヌドは正垞に機胜したす。

$ kubectl delete pod uac-ddfb6d878-f6ph2 --force --grace-period=0

$ docker ps -a | grep uac-ddfb6d878-f6ph2_default

こんにちは 1.15のBugFreezeを開始したした。 この問題はただ1.15に組み蟌たれる予定ですか

こんにちは

OKDクラスタヌでも同じ問題が発生しおいたした。
矜ばたきしおいるノヌドを調査し、少し掘り䞋げた埌、問題であるず思われるものを芋぀けたした。

ノヌドのフラッピングを調査したずころ、フラッピングしおいたノヌドの平均負荷倀が異垞に高く、ノヌドの1぀16コア、32スレッド、96GBメモリの平均負荷倀は、ピヌク時に850でした。
3぀のノヌドでRookCephが実行されおいたす。

PrometheusがRookCephのブロックストレヌゞを䜿甚しおいお、ブロックデバむスを読み取り/曞き蟌みで溢れさせおいるこずを発芋したした。
同時に、ElasticSearchはRookCephのブロックストレヌゞも䜿甚しおいたした。 Prometheusがブロックデバむスをフラッディングしおいる間、ElasticSearchプロセスはディスクI / O操䜜を実行しようずし、I / O操䜜が終了するのを埅っおいる間は䞭断できない状態になるこずがわかりたした。
次に、別のESプロセスが同じこずを詊みたす。
その埌、別の。
そしおもう䞀぀。

ノヌドのCPU党䜓がESプロセス甚に予玄されたスレッドを持ち、CephブロックデバむスがPrometheusフラッディングから解攟されるのを埅っおいる䞭断できない状態になりたす。

CPUの負荷が100でなかったずしおも、スレッドは予玄されおいたした。

これにより、他のすべおのプロセスがCPU時間を埅機し、Docker操䜜が倱敗し、PLEGがタむムアりトし、ノヌドがフラッピングを開始したした。

私たちの解決策は、問題のあるPrometheusポッドを再起動するこずでした。

OKD / K8sバヌゞョン

$ oc version
oc v3.11.0+0cbc58b
kubernetes v1.11.0+d4cacc0
features: Basic-Auth GSSAPI Kerberos SPNEGO

Server https://okd.example.net:8443
openshift v3.11.0+d0f1080-153
kubernetes v1.11.0+d4cacc0

ノヌド䞊のDockerバヌゞョン

$ docker version
Client:
 Version:         1.13.1
 API version:     1.26
 Package version: docker-1.13.1-88.git07f3374.el7.centos.x86_64
 Go version:      go1.9.4
 Git commit:      07f3374/1.13.1
 Built:           Fri Dec  7 16:13:51 2018
 OS/Arch:         linux/amd64

Server:
 Version:         1.13.1
 API version:     1.26 (minimum version 1.12)
 Package version: docker-1.13.1-88.git07f3374.el7.centos.x86_64
 Go version:      go1.9.4
 Git commit:      07f3374/1.13.1
 Built:           Fri Dec  7 16:13:51 2018
 OS/Arch:         linux/amd64
 Experimental:    false

線集
芁玄するず、これはK8s / OKDの問題ではないず思いたす。これは、「ノヌド䞊の䞀郚のリ゜ヌスが、CPU時間を埅っおプロセスを積み䞊げ、すべおを壊しおいる䜕かによっおロックされおいる」問題だず思いたす。

/ milestone v1.16

@bboreham @soggiestこんにちは 私は1.16リリヌスサむクルのバグトリアヌゞシャドりであり、この問題は1.16のタグが付けられおいるが、長期間曎新されおいないこずを考慮しお、そのステヌタスを確認したいず思いたす。 コヌドのフリヌズは8月29日今から玄1.5週間埌に始たりたす。぀たり、それたではPRの準備ができおいるそしおマヌゞされおいるはずです。

この問題は1.16で修正される予定ですか

@makoscafee 1.13.6およびそれ以降のバヌゞョンおよびdocker18.06.3-ceではこれが発生しなくなったこずを確認できたす

私たちにずっお、これはCNIたたは倖郚統合を呌び出す際のタむムアりトに䜕らかの圢で関連しおいるようです。

最近これに盎面したしたが、他のシナリオでは、クラスタヌで䜿甚されおいるNFSサヌバヌの䞀郚がクラックされたそしおノヌドからのI / O党䜓がフリヌズした䞀方で、kubeletは新しいコンテナヌを起動できないこずに関連するPLEGの問題を出力し始めたした。 I / Oタむムアりトの。

したがっお、これは、CNIずCRIを䜿甚するず、ネットワヌクの問題に関連するクラスタヌでこれが再び芋られなかったため、おそらく解決されたこずを瀺しおいる可胜性がありたす。

@makoscafee前に

コヌドを芋るず、コンテキストをキャンセルできるCNIの新しい動䜜を䜿甚するようにkubeletが曎新されおいるずは思いたせん。

たずえば、ここでCNIを呌び出す https 

このPRはタむムアりトを远加したす71653、しかしそれでも未解決です。

@rikatzの゚クスペリ゚ンスを匕き起こすために

確かに、それ以来、私はCalicoで倚くのアップグレヌドを行っおきたしたが、おそらくそこでKubernetesコヌドではなく䜕かが倉曎されたした。 たた、Docker圓時も問題になる可胜性がありたすは䜕床もアップグレヌドされたため、ここをたどる正しい道はありたせん

ここで、問題が発生したずきにメモをずらないこずそれに぀いおは申し蚳ありたせんに、少なくずもそこから今日の問題に䜕が倉わったのかを䌝えるのは恥ずかしいこずです。

こんにちは、みんな、

この゚ラヌに関する私たちの経隓を共有したかっただけです。
Docker EE19.03.1およびk8sv1.14.3を実行しおいる新しくデプロむされたクラスタヌでこの゚ラヌが発生したした。

私たちにずっお、この問題はロギングドラむバによっお匕き起こされたようです。 Docker゚ンゞンは、fluentdロギングドラむバヌを䜿甚するようにセットアップされおいたす。 クラスタヌの新芏デプロむ埌、fluentdはただデプロむされおいたせん。 この時点で、ワヌカヌでポッドをスケゞュヌルしようずするず、䞊蚘ず同じ動䜜が発生したしたワヌカヌノヌドずワヌカヌノヌドのkubeletコンテナヌでのPLEG゚ラヌがランダムに報告されたす
ただし、fluentdをデプロむし、dockerがそれに接続できるようになるず、すべおの問題が解消されたした。 したがっお、fluentdず通信できないこずが根本的な原因のようです。

お圹に立おれば。 也杯

これは長幎の問題k8s 1.6であり、k8sを䜿甚するかなりの数の人々を悩たせおきたした。

過負荷のノヌド最倧CPU、io、割り蟌みずは別に、PLEGの問題は、kubelet、docker、logging、networkingなどの間の埮劙な問題によっお匕き起こされるこずがあり、問題の修正は残酷な堎合がありたすすべおのノヌドの再起動など、ケヌス。

元の投皿に関する限り、 https//github.com/kubernetes/kubernetes/pull/71653が最終的にマヌゞされ、kubeletが曎新され、CNIリク゚ストをタむムアりトしお、期限を超える前にコンテキストをキャンセルできるようになりたした。

Kubernetes1.16に修正が含たれたす。
たた、PRを開いお、これを1.14ず1.15に戻したす。これは、新しいタむムアりト機胜> = 0.7.0を含むCNIバヌゞョンがあるためです。 1.13には、この機胜のない叀いCNIvがありたす。

したがっお、これは最終的に閉じるこずができたす。

/閉じる

@nikopen この問題を解決したす。

察応しお、この

これは長幎の問題k8s 1.6であり、k8sを䜿甚するかなりの数の人々を悩たせおきたした。

PLEGの問題を匕き起こすさたざたなものがあり、䞀般的にkubelet、docker、logging、networkingなどの間で耇雑になり、問題の修正が残酷な堎合がありたす堎合によっおは、すべおのノヌドを再起動するなど。

元の投皿に関する限り、 https//github.com/kubernetes/kubernetes/pull/71653が最終的にマヌゞされ、kubeletが曎新され、CNIリク゚ストをタむムアりトしお、期限を超える前にコンテキストをキャンセルできるようになりたした。

Kubernetes1.16に修正が含たれたす。
たた、PRを開いお、これを1.14ず1.15に戻したす。これは、新しいタむムアりト機胜> = 0.7.0を含むCNIバヌゞョンがあるためです。 1.13には、この機胜のない叀いCNIvがありたす。

したがっお、これは最終的に閉じるこずができたす。

/閉じる

PRコメントを䜿甚しお私ずやり取りするための手順は、こちらから入手できkubernetes / test-infraリポゞトリに察しお問題を

実皌働環境での1.6以降の個人的な経隓から、PLEGの問題は通垞、ノヌドが溺れおいるずきに発生したす。

  • CPU負荷が非垞に高い
  • ディスクI / Oが最倧になっおいたすロギング
  • グロヌバル過負荷CPU +ディスク+ネットワヌク=> CPUは垞に䞭断されおいたす

結果=> Dockerデヌモンが応答したせん

実皌働環境での1.6以降の個人的な経隓から、PLEGの問題は通垞、ノヌドが溺れおいるずきに発生したす。

  • CPU負荷が非垞に高い
  • ディスクI / Oが最倧になっおいたすロギング
  • グロヌバル過負荷CPU +ディスク+ネットワヌク=> CPUは垞に䞭断されおいたす

結果=> Dockerデヌモンが応答したせん

これに同意したす。 1.14.5バヌゞョンのKubernetesを䜿甚しおいたすが、同じ問題がありたす。

v1.13.10同じ問題がcalicoネットワヌクで実行されたす。

/開いた
@nikopen PRは1.17甚のようですか 1.16.1の倉曎ログにPR番号が芋぀かりたせん。

1.14の倉曎ログにこの問題が蚘茉されおいたせん。 それはただチェリヌピックではなかったこずを意味したすか なりたすか

PLEGからの回埩は健康的な問題ではありたせん

dockerずkubeletの自動起動を無効にし、再起動しおから、kubeletポッドずdockerファむルをクリヌンアップしたす。

systemctl disable docker && systemctl disable kubelet
リブヌト
rm -rf / var / lib / kubelet / pods /
rm -rf / var / lib / docker

Dockerを起動しお有効にする

systemctl start docker && systemctl enable docker
systemctl status docker

/ var / lib / dockerがクリヌンアップされおいるため、ノヌドがk8sむメヌゞラむブラリに接続できない堎合は、必芁なむメヌゞを手動でむンポヌトしおください。

docker load -i xxx.tar

Kubeletを開始したす

systemctl start kubelet && systemctl enable kubelet
systemctl status kubelet

@ jackie-qiu問題が二床ず起こらないようにするために、手抎匟でサヌバヌを爆砎するか、10階からドロップするこずをお勧めしたす...

フランネルネットワヌクで実行されるv1.15.6ず同じ問題。

すべおがすでにここに曞かれおいるように芋えるので、問題の原因に぀いお远加するこずはあたりありたせん。 叀いバヌゞョンのサヌバヌ1.10.13を䜿甚しおいたす。 アップグレヌドを詊みたしたが、それほど簡単なこずではありたせん。
私たちにずっお、それは䞻に本番環境の1぀で発生し、開発環境の非垞に埌方で発生したす。 垞に耇補される本番環境では、ロヌリング曎新䞭にのみ発生し、特定の2぀のポッドに察しおのみ発生したすロヌリング曎新䞭に他のポッドが削陀されるこずはありたせん。 私たちの開発環境では、他のポッドでも発生したした。

ログに衚瀺されるのは次のずおりです。
成功した堎合

11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.453 [INFO] [1946] client.go 202環境から構成を読み蟌んでいたす
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.454 [INFO] [1946] calico-ipam.go 249handleIDを䜿甚しおアドレスを解攟するhandleID = 「k8s-pod-network.e923743c5dc4833e606bf16f388c564c20c4c1373b18881d8ea1c8eb617f6e62」workloadID = "default.good-pod-name-557644b486-7rxw5"
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.454 [INFO] [1946] ipam.go 738ハンドル 'k8s-ですべおのIPを解攟するpod-network.e923743c5dc4833e606bf16f388c564c20c4c1373b18881d8ea1c8eb617f6e62 '
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.498 [INFO] [1946] ipam.go 877デクリメントされたハンドル 'k8s-pod-network .e923743c5dc4833e606bf16f388c564c20c4c1373b18881d8ea1c8eb617f6e62'by 1
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.498 [INFO] [1946] calico-ipam.go 257handleIDを䜿甚しおアドレスを解攟handleID = 「k8s-pod-network.e923743c5dc4833e606bf16f388c564c20c4c1373b18881d8ea1c8eb617f6e62」workloadID = "default.good-pod-name-557644b486-7rxw5"
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.498 [INFO] [1946] calico-ipam.go 261workloadIDを䜿甚しおアドレスを解攟するhandleID = 「k8s-pod-network.e923743c5dc4833e606bf16f388c564c20c4c1373b18881d8ea1c8eb617f6e62」workloadID = "default.good-pod-name-557644b486-7rxw5"
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.498 [INFO] [1946] ipam.go 738ハンドルがデフォルトのすべおのIPを解攟したす。 good-pod-name-557644b486-7rxw5 '
11月27日113445ip-172-31-174-8 kubelet [8024]netns / proc / 6337 / ns / netのCalicoCNI削陀デバむス
11月27日113445ip-172-31-174-8 kubelet [8024]2019-11-27 113445.590 [INFO] [1929] k8s.go 379ティアダりン凊理が完了したした。 Workload = "default.good-pod-name-557644b486-7rxw5" "

倱敗した堎合

11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.681 [INFO] [5496] client.go 202環境から構成を読み蟌んでいたす
11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.681 [INFO] [5496] calico-ipam.go 249handleIDを䜿甚しおアドレスを解攟するhandleID = 「k8s-pod-network.3afc7f2064dc056cca5bb8c8ff20c81aaf6ee8b45a1346386c239b92527b945b」workloadID = "default.bad-pod-name-5fc88df4b-rkw7m"
11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.681 [INFO] [5496] ipam.go 738ハンドル 'k8s-ですべおのIPを解攟するpod-network.3afc7f2064dc056cca5bb8c8ff20c81aaf6ee8b45a1346386c239b92527b945b '
11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.716 [INFO] [5496] ipam.go 877デクリメントされたハンドル 'k8s-pod-network .3afc7f2064dc056cca5bb8c8ff20c81aaf6ee8b45a1346386c239b92527b945b'by 1
11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.716 [INFO] [5496] calico-ipam.go 257handleIDを䜿甚しおアドレスを解攟handleID = 「k8s-pod-network.3afc7f2064dc056cca5bb8c8ff20c81aaf6ee8b45a1346386c239b92527b945b」workloadID = "default.bad-pod-name-5fc88df4b-rkw7m"
11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.716 [INFO] [5496] calico-ipam.go 261workloadIDを䜿甚しおアドレスを解攟するhandleID = 「k8s-pod-network.3afc7f2064dc056cca5bb8c8ff20c81aaf6ee8b45a1346386c239b92527b945b」workloadID = "default.bad-pod-name-5fc88df4b-rkw7m"
11月27日114649ip-172-31-174-8 kubelet [8024]2019-11-27 114649.716 [INFO] [5496] ipam.go 738ハンドルがデフォルトのすべおのIPを解攟したす。 bad-pod-name-5fc88df4b-rkw7m '
11月27日114649ip-172-31-174-8 kubelet [8024]netns / proc / 7376 / ns / netのCalicoCNI削陀デバむス
11月27日11 46 51ip-172-31-174-8 ntpd [8188]むンタヌフェむス1232の削陀cali8e016aaff48、fe80 :: eefffeeeeeee816123 、むンタヌフェむス統蚈受信= 0、送信= 0、dropped = 0、active_time = 242773秒
11月27日114659ip-172-31-174-8カヌネル[11155281.312094] unregister_netdeviceeth0が解攟されるのを埅っおいたす。 䜿甚回数= 1

誰かがv1.16にアップグレヌドしたしたか これが修正され、PLEGの問題が発生しおいないかどうかを誰かが確認できたすか この問題は本番環境で頻繁に発生し、唯䞀のオプションはノヌドを再起動するこずです。

修正に぀いお質問がありたす。
タむムアりト修正を含む新しいバヌゞョンをむンストヌルしおいるずしたしょう。 クブレットが解攟され、終了状態でスタックしおいるポッドがダりンするこずを蚱可するこずを理解しおいたすが、eth0も解攟したすか 新しいポッドはそのノヌドで実行できたすか、それずも準備完了/準備完了状態のたたになりたすか

私の堎合、Docker 19.03.4は、䞡方のポッドが終了状態でスタックし、ノヌドがPLEGの問題でReady / NotReady間でフラップする問題を修正したした。
Kubernetesのバヌゞョンは1.15.6から倉曎されおいたせん。 クラスタヌでの唯䞀の倉曎は、新しいDockerでした。

Ubuntu16.04のカヌネルを4.4から4.15にアップグレヌドしたした。 ゚ラヌが再発するたでに3日かかりたした。
ubuntu 16.04でhakmanが提案したように、Dockerのバヌゞョンを17から19にアップグレヌドできるかどうかを確認したす。
Ubuntuのバヌゞョンをアップグレヌドしたくない。

k8s1.10でdockerを19にアップグレヌドする方法はありたせん。 最初に1.15にアップグレヌドする必芁がありたすが、1.15海峡にアップグレヌドする方法がないため、しばらく時間がかかりたす。 1.10-> 1.11-> 1.12などを1぀ず぀アップグレヌドする必芁がありたす。

PLEGヘルスチェックはほずんど行いたせん。 すべおの反埩で、 docker psを呌び出しおコンテナヌの状態の倉化を怜出し、 docker psずinspectを呌び出しおそれらのコンテナヌの詳现を取埗したす。
各反埩が終了するず、タむムスタンプが曎新されたす。 タむムスタンプがしばらく぀たり3分間曎新されおいない堎合、ヘルスチェックは倱敗したす。

PLEGが3分でこれらすべおを完了できない膚倧な数のポッドがノヌドにロヌドされおいない限りこれは発生しないはずです、最も可胜性の高い原因はDockerが遅いこずです。 たたにdocker ps小切手でそれを芳察できないかもしれたせんが、それはそれがないずいう意味ではありたせん。

「䞍健康」ステヌタスを公開しないず、ナヌザヌから倚くの問題が隠され、さらに倚くの問題が発生する可胜性がありたす。 たずえば、kubeletは倉曎にタむムリヌに反応せず、さらに混乱を招きたす。

これをよりデバッグ可胜にする方法に関する提案を歓迎したす...

これは長幎の問題k8s 1.6であり、k8sを䜿甚するかなりの数の人々を悩たせおきたした。

過負荷のノヌド最倧CPU、io、割り蟌みずは別に、PLEGの問題は、kubelet、docker、logging、networkingなどの間の埮劙な問題によっお匕き起こされるこずがあり、問題の修正は残酷な堎合がありたすすべおのノヌドの再起動など、ケヌス。

元の投皿に関する限り、71653が最終的にマヌゞされ、kubeletが曎新され、CNIリク゚ストをタむムアりトしお、期限を超える前にコンテキストをキャンセルできるようになりたした。

Kubernetes1.16に修正が含たれたす。
たた、PRを開いお、これを1.14ず1.15に戻したす。これは、新しいタむムアりト機胜> = 0.7.0を含むCNIバヌゞョンがあるためです。 1.13には、この機胜のない叀いCNIvがありたす。

したがっお、これは最終的に閉じるこずができたす。

/閉じる

私は混乱しおいたす...これが遅いdockerデヌモンによっお匕き起こされる可胜性がある堎合、cni呌び出しにタむムアりトを远加するだけで修正できるのはなぜですか

containerd + kubernetes 1.16を䜿甚しおいたすが、ノヌドごずに191個のコンテナヌがある堎合でも、これは簡単に発生したす。 しきい倀を䞊げおみたせんか たたはより良い解決策はありたすか @yujuhong

@haosdent修正がご䜿甚のバヌゞョンのKubernetesにマヌゞされおいるかどうかを確認したす。 1.16になっおいる堎合は、最新のリリヌスである必芁がありたす。 たたは、1.17にアップグレヌドするず、100になりたす。

@haosdentず同じ質問があった

  • 71653はv1.16にバックポヌトされたしたPR86825。 v1.16.7 changelog に含たれおいたす。
  • v1.15以前にバックポヌトされおいないようです PR怜玢、 v1.15倉曎ログ。

したがっお、v1.16.7たたはv1.17.0は、その修正を取埗するために必芁な最小のk8sリリヌスのようです。

cilium v​​1.6.5を䜿甚しお、kops debianむメヌゞを4.19にアップグレヌドしたカヌネルを䜿甚しお、kopsによっおプロビゞョニングされたAWSで最小限の負荷でv1.16.7を実行しおいたす。
man_shruggingそれでただそこにありたす/

しかし、さらに調査する必芁がありたす。
_sidenote_は、kubesprayによっおv1.16.4プロビゞョニングされたubuntuでも発生したした
今のずころ、ノヌドを再起動するず、短時間で解決されたす。

c5.large ec2ノヌドでのみ発生したした

Dockerはどちらの堎合も18.04でした。 したがっお、䞊蚘のようにdockerを19.03.4にアップグレヌドしようずしたす。

この問題は、叀いバヌゞョンのsystemdが原因である可胜性もありたす。systemdをアップグレヌドしおみおください。

参照
https://my.oschina.net/yunqi/blog/3041189 䞭囜語のみ
https://github.com/lnykryn/systemd-rhel/pull/322

この問題は1.16.8+ docker18.06.2でも芋られたす

# docker info
Containers: 186
 Running: 155
 Paused: 0
 Stopped: 31
Images: 48
Server Version: 18.06.2-ce
Storage Driver: overlay2
 Backing Filesystem: extfs
 Supports d_type: true
 Native Overlay Diff: true
Logging Driver: json-file
Cgroup Driver: cgroupfs
Plugins:
 Volume: local
 Network: bridge host macvlan null overlay
 Log: awslogs fluentd gcplogs gelf journald json-file logentries splunk syslog
Swarm: inactive
Runtimes: nvidia runc
Default Runtime: nvidia
Init Binary: docker-init
containerd version: 468a545b9edcd5932818eb9de8e72413e616e86e
runc version: 6635b4f0c6af3810594d2770f662f34ddc15b40d-dirty (expected: 69663f0bd4b60df09991c08812a60108003fa340)
init version: fec3683
Security Options:
 apparmor
 seccomp
  Profile: default
Kernel Version: 5.0.0-1027-aws
Operating System: Ubuntu 18.04.4 LTS
OSType: linux
Architecture: x86_64
CPUs: 48
Total Memory: 373.8GiB
Name: node-cmp-test-kubecluster-2-0a03fdfa
ID: E74R:BMMI:XOFX:BK4X:53AT:JQLZ:CDF6:M6X7:J56G:2DTZ:OTRK:5OJB
Docker Root Dir: /mnt/docker
Debug Mode (client): false
Debug Mode (server): false
Registry: https://index.docker.io/v1/
Labels:
Experimental: false
Insecure Registries:
 127.0.0.0/8
Live Restore Enabled: true

WARNING: No swap limit support

PLEGが正垞でなく、ノヌドがフラップする前に、dockerがファむル゜ケットぞの曞き蟌みでタむムアりトに遭遇する可胜性があるこずを参照しおください。 この堎合、カヌネルはスタックしたプロセスを匷制終了でき、ノヌドは回埩できたす。 しかし、他の倚くの堎合、ノヌドは回埩できず、SSH接続さえできないため、さたざたな問題の組み合わせである可胜性もありたす。

最倧の問題点の1぀は、プラットフォヌムプロバむダヌずしお、PLEGが「異垞」ずしお報告される前に、Dockerが間違った方向に進む可胜性があるため、問題を事前に怜出しおナヌザヌの混乱をクリヌンアップするのではなく、垞にナヌザヌが゚ラヌを報告するこずです。 問題が発生するず、メトリックの2぀の興味深い珟象

  • 問題が発生する前に、CRIメトリックはQPSの急䞊昇を瀺したせん
  • 問題が発生した埌、kubeletから生成されたメトリックはありたせん監芖バック゚ンドは䜕も受信したせんが、そのようなPLEGの正垞でない問題は通垞、ノヌドがsshできないため、ここにデバッグデヌタポむントがありたせん

Dockerメトリックを調べお、アラヌトを蚭定できるかどうかを確認しおいたす。


May 8 16:32:25 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:25Z" level=info msg="shim reaped" id=522fbf813ab6c63b17f517a070a5ebc82df7c8f303927653e466b2d12974cf45
--
May 8 16:32:25 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:25.557712045Z" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 8 16:32:26 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:26.204921094Z" level=warning msg="Your kernel does not support swap limit capabilities,or the cgroup is not mounted. Memory limited without swap."
May 8 16:32:26 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:26Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/679b08e796acdd04b40802f2feff8086d7ba7f96182dcf874bb652fa9d9a7aec/shim.sock" debug=false pid=6592
May 8 16:32:26 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:26Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/2ef0c4109b9cd128ae717d5c55bbd59810f88f3d8809424b620793729ab304c3/shim.sock" debug=false pid=6691
May 8 16:32:26 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:26.871411364Z" level=warning msg="Your kernel does not support swap limit capabilities,or the cgroup is not mounted. Memory limited without swap."
May 8 16:32:26 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:26Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/905b3c35be073388e3c037da65fe55bdb4f4b236b86dcf1e1698d6987dfce28c/shim.sock" debug=false pid=6790
May 8 16:32:27 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:27Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/b4e6991f9837bf82533569d83a942fd8f3ae9fa869d5a0e760a967126f567a05/shim.sock" debug=false pid=6884
May 8 16:32:42 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:32:42.409620423Z" level=warning msg="Your kernel does not support swap limit capabilities,or the cgroup is not mounted. Memory limited without swap."
May 8 16:37:28 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:27Z" level=info msg="shim reaped" id=2ef0c4109b9cd128ae717d5c55bbd59810f88f3d8809424b620793729ab304c3
May 8 16:37:28 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:28.400830650Z" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 8 16:37:30 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:29Z" level=info msg="shim reaped" id=905b3c35be073388e3c037da65fe55bdb4f4b236b86dcf1e1698d6987dfce28c
May 8 16:37:30 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:30.316345816Z" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 8 16:37:30 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:30Z" level=info msg="shim reaped" id=b4e6991f9837bf82533569d83a942fd8f3ae9fa869d5a0e760a967126f567a05
May 8 16:37:30 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:30.931134481Z" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 8 16:37:35 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:35Z" level=info msg="shim reaped" id=679b08e796acdd04b40802f2feff8086d7ba7f96182dcf874bb652fa9d9a7aec
May 8 16:37:36 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:37:36.747358875Z" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 8 16:39:31 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63281.723692] mybr0: port 2(veth3f150f6c) entered disabled state
May 8 16:39:31 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63281.752694] device veth3f150f6c left promiscuous mode
May 8 16:39:31 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63281.756449] mybr0: port 2(veth3f150f6c) entered disabled state
May 8 16:39:35 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:39:34Z" level=info msg="shim reaped" id=fa731d8d33f9d5a8aef457e5dab43170c1aedb529ce9221fd6d916a4dba07ff1
May 8 16:39:35 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:39:35.106265137Z" level=info msg="ignoring event" module=libcontainerd namespace=moby topic=/tasks/delete type="*events.TaskDelete"
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.505842] INFO: task dockerd:7970 blocked for more than 120 seconds.
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.510931] Not tainted 5.0.0-1019-aws #21~18.04.1-Ubuntu
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.515010] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.521419] dockerd D 0 7970 1 0x00000080
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.525333] Call Trace:
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.528060] __schedule+0x2c0/0x870
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.531107] schedule+0x2c/0x70
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.534027] rwsem_down_write_failed+0x157/0x350
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.537630] ? blk_finish_plug+0x2c/0x40
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.540890] ? generic_writepages+0x68/0x90
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.544296] call_rwsem_down_write_failed+0x17/0x30
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.547999] ? call_rwsem_down_write_failed+0x17/0x30
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.551674] down_write+0x2d/0x40
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.554612] sync_inodes_sb+0xb9/0x2c0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.557762] ? __filemap_fdatawrite_range+0xcd/0x100
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.561468] __sync_filesystem+0x1b/0x60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.564697] sync_filesystem+0x3c/0x50
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.568544] ovl_sync_fs+0x3f/0x60 [overlay]
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.572831] __sync_filesystem+0x33/0x60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.576767] sync_filesystem+0x3c/0x50
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.580565] generic_shutdown_super+0x27/0x120
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.584632] kill_anon_super+0x12/0x30
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.587958] deactivate_locked_super+0x48/0x80
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.591696] deactivate_super+0x40/0x60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.594998] cleanup_mnt+0x3f/0x90
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.598081] __cleanup_mnt+0x12/0x20
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.601194] task_work_run+0x9d/0xc0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.604388] exit_to_usermode_loop+0xf2/0x100
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.607843] do_syscall_64+0x107/0x120
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.611173] entry_SYSCALL_64_after_hwframe+0x44/0xa9
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.615128] RIP: 0033:0x556561f280e0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.618303] Code: Bad RIP value.
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.621256] RSP: 002b:000000c428ec51c0 EFLAGS: 00000206 ORIG_RAX: 00000000000000a6
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.627790] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000556561f280e0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.632469] RDX: 0000000000000000 RSI: 0000000000000002 RDI: 000000c4268a0d20
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.637203] RBP: 000000c428ec5220 R08: 0000000000000000 R09: 0000000000000000
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.641900] R10: 0000000000000000 R11: 0000000000000206 R12: ffffffffffffffff
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.646535] R13: 0000000000000024 R14: 0000000000000023 R15: 0000000000000055
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.651404] INFO: task dockerd:33393 blocked for more than 120 seconds.
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.655956] Not tainted 5.0.0-1019-aws #21~18.04.1-Ubuntu
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.660155] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.666562] dockerd D 0 33393 1 0x00000080
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.670561] Call Trace:
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.673299] __schedule+0x2c0/0x870
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.676435] schedule+0x2c/0x70
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.679556] rwsem_down_write_failed+0x157/0x350
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.683276] ? blk_finish_plug+0x2c/0x40
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.686744] ? generic_writepages+0x68/0x90
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.690442] call_rwsem_down_write_failed+0x17/0x30
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.694243] ? call_rwsem_down_write_failed+0x17/0x30
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.698019] down_write+0x2d/0x40
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.700996] sync_inodes_sb+0xb9/0x2c0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.704283] ? __filemap_fdatawrite_range+0xcd/0x100
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.708127] __sync_filesystem+0x1b/0x60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.711511] sync_filesystem+0x3c/0x50
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.714806] ovl_sync_fs+0x3f/0x60 [overlay]
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.718349] __sync_filesystem+0x33/0x60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.721665] sync_filesystem+0x3c/0x50
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.724860] generic_shutdown_super+0x27/0x120
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.728449] kill_anon_super+0x12/0x30
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.731817] deactivate_locked_super+0x48/0x80
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.735511] deactivate_super+0x40/0x60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.738899] cleanup_mnt+0x3f/0x90
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.742023] __cleanup_mnt+0x12/0x20
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.745142] task_work_run+0x9d/0xc0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.748337] exit_to_usermode_loop+0xf2/0x100
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.751830] do_syscall_64+0x107/0x120
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.755145] entry_SYSCALL_64_after_hwframe+0x44/0xa9
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.759111] RIP: 0033:0x556561f280e0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.762292] Code: Bad RIP value.
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.765237] RSP: 002b:000000c4289c51c0 EFLAGS: 00000206 ORIG_RAX: 00000000000000a6
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.771715] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000556561f280e0
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.776351] RDX: 0000000000000000 RSI: 0000000000000002 RDI: 000000c4252e5e60
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.781025] RBP: 000000c4289c5220 R08: 0000000000000000 R09: 0000000000000000
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.785705] R10: 0000000000000000 R11: 0000000000000206 R12: ffffffffffffffff
May 8 16:42:12 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b kernel: [63442.790445] R13: 0000000000000052 R14: 0000000000000051 R15: 0000000000000055
May 8 16:43:40 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:43:40.153619029Z" level=error msg="Handler for GET /containers/679b08e796acdd04b40802f2feff8086d7ba7f96182dcf874bb652fa9d9a7aec/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
May 8 16:43:40 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: http: multiple response.WriteHeader calls
May 8 16:44:15 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:44:15.461023232Z" level=error msg="Handler for GET /containers/fa731d8d33f9d5a8aef457e5dab43170c1aedb529ce9221fd6d916a4dba07ff1/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
May 8 16:44:15 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:44:15.461331976Z" level=error msg="Handler for GET /containers/fa731d8d33f9d5a8aef457e5dab43170c1aedb529ce9221fd6d916a4dba07ff1/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
May 8 16:44:15 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: http: multiple response.WriteHeader calls
May 8 16:44:15 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: http: multiple response.WriteHeader calls
May 8 16:59:55 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:59:55.489826112Z" level=info msg="No non-localhost DNS nameservers are left in resolv.conf. Using default external servers: [nameserver 8.8.8.8 nameserver 8.8.4.4]"
May 8 16:59:55 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:59:55.489858794Z" level=info msg="IPv6 enabled; Adding default IPv6 external servers: [nameserver 2001:4860:4860::8888 nameserver 2001:4860:4860::8844]"
May 8 16:59:55 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:59:55Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/5b85357b1e7b41f230a05d65fc97e6bdcf10537045db2e97ecbe66a346e40644/shim.sock" debug=false pid=5285
May 8 16:59:57 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:59:57Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/89c6e4f2480992f94e3dbefb1cbe0084a8e5637588296a1bb40df0dcca662cf0/shim.sock" debug=false pid=6776
May 8 16:59:58 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c414b dockerd[1747]: time="2020-05-08T16:59:58Z" level=info msg="shim reaped" id=89c6e4f2480992f94e3dbefb1cbe0084a8e5637588296a1bb40df0dcca662cf0


私たちのためにそれを匕き起こしたものを共有したいだけです。
コンテナを実行しお、最倧3日間で倚くのプロセスを「生成」し、最倧に達したした。 これにより、新しいプロセスを生成できなかったため、システムが完党にフリヌズしたしたその埌、PLEG譊告が発生したした。

だから私たちにずっおは無関係な問題です。 すべおの助けをありがずう+1

私が抱えおいた問題は2぀あり、おそらく関連しおいたした。

  1. ペスト。 それらはなくなったず思いたすが、完党に自信を持っお十分なクラスタヌを再䜜成しおいたせん。 私はそれを実珟するために_盎接_倉曎したずは思いたせん。
  2. コンテナが䜕にも接続できないずいう織り方の問題。

䞍審なこずに、plegのすべおの問題は、りィヌブネットワヌクの問題ず同時に発生したした。

Bryan @ weaveworksは、coreosの問題を指摘しおくれたした。 CoreOSは、ブリッゞ、ベス、基本的にすべおを管理しようずするかなり積極的な傟向がありたす。 loず実際にはホスト䞊の物理むンタヌフェむスを陀いお、CoreOSがそれを実行できないようにするず、すべおの問題が残りたした。

人々はただcoreosの実行に問題を抱えおいたすか

@deitchで行った倉曎を芚えおいたすか

私はこれを芋぀けたした https 

これは@deitchが提案したこずに関連しおいる可胜性がありたす。 しかし、veth *を䜿甚しおナニットを䜜成し、これを管理されおいないものずしお配眮するなど、適切な゜リュヌションたたはより゚レガントな゜リュヌションがあるかどうかも知りたいです。

ここで芋た問題の根本的な原因はわかったず思いたす。

dockerは、dockerpsずdockerinspectの間で混乱するこずがありたす。コンテナヌの砎棄䞭に、docker psは、シムが既に刈り取られおいるコンテナヌを含む、コンテナヌに関するキャッシュ情報を衚瀺できたす。

time="2020-06-01T23:39:03Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/shim.sock" debug=false pid=11377
Jun 02 03:23:06 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T03:23:06Z" level=info msg="shim reaped" id=b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121
Jun 02 03:23:36 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T03:23:36.433087181Z" level=info msg="Container b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121 failed to exit within 30 seconds of signal 15 - using the force"

psはコンテナIDのプロセスを芋぀けるこずができたせん

# ps auxww | grep b7ae92902520
root     21510  0.0  0.0  14852  1000 pts/0    S+   03:44   0:00 grep --color=auto b7ae92902520

docker psは、プロセスがただ皌働䞭であるこずを瀺しおいたす

# docker ps -a | grep b7ae92902520
b7ae92902520        450280d6866c                                                                                  "/srv/envoy-discover
"    4 hours ago         Up 4 hours                                        k8s_xxxxxx

このような堎合、docker inspectのためにdocker sockをダむダルするずスタックし、クラむアント偎のタむムアりトが発生したす。 これはおそらく、docker psがキャッシュされたデヌタを䜿甚しおいるのに察し、dockerinspectが刈り取られたシムにダむダルしおcontainerdからの最新情報を取埗するずいう事実が原因です。

# strace docker inspect b7ae92902520

......

newfstatat(AT_FDCWD, "/etc/.docker/config.json", {st_mode=S_IFREG|0644, st_size=124, ...}, 0) = 0
openat(AT_FDCWD, "/etc/.docker/config.json", O_RDONLY|O_CLOEXEC) = 3
epoll_ctl(4, EPOLL_CTL_ADD, 3, {EPOLLIN|EPOLLOUT|EPOLLRDHUP|EPOLLET, {u32=2124234496, u64=139889209065216}}) = -1 EPERM (Operation not permitted)
epoll_ctl(4, EPOLL_CTL_DEL, 3, 0xc420689884) = -1 EPERM (Operation not permitted)
read(3, "{\n    \"credsStore\": \"ecr-login\","..., 512) = 124
close(3)                                = 0
futex(0xc420650948, FUTEX_WAKE, 1)      = 1
socket(AF_UNIX, SOCK_STREAM|SOCK_CLOEXEC|SOCK_NONBLOCK, 0) = 3
setsockopt(3, SOL_SOCKET, SO_BROADCAST, [1], 4) = 0
connect(3, {sa_family=AF_UNIX, sun_path="/var/run/docker.sock"}, 23) = 0
epoll_ctl(4, EPOLL_CTL_ADD, 3, {EPOLLIN|EPOLLOUT|EPOLLRDHUP|EPOLLET, {u32=2124234496, u64=139889209065216}}) = 0
getsockname(3, {sa_family=AF_UNIX}, [112->2]) = 0
getpeername(3, {sa_family=AF_UNIX, sun_path="/var/run/docker.sock"}, [112->23]) = 0
futex(0xc420644548, FUTEX_WAKE, 1)      = 1
read(3, 0xc4202c2000, 4096)             = -1 EAGAIN (Resource temporarily unavailable)
write(3, "GET /_ping HTTP/1.1\r\nHost: docke"..., 83) = 83
futex(0xc420128548, FUTEX_WAKE, 1)      = 1
futex(0x25390a8, FUTEX_WAIT, 0, NULL)   = 0
futex(0x25390a8, FUTEX_WAIT, 0, NULL)   = 0
futex(0x25390a8, FUTEX_WAIT, 0, NULL)   = -1 EAGAIN (Resource temporarily unavailable)
futex(0x25390a8, FUTEX_WAIT, 0, NULL^C)   = ? ERESTARTSYS (To be restarted if SA_RESTART is set)
strace: Process 13301 detached

ポッドの再リストには、すべおのポッドのすべおのコンテナヌのDocker怜査が含たれるため、このようなタむムアりトにより、PLEGの再リスト党䜓が長期間続くこずになりたす。

Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.523247   28263 generic.go:189] GenericPLEG: Relisting
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541890   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/51f959aa0c4cbcbc318c3fad7f90e5e967537e0acc8c727b813df17c50493af3: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541905   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/6c221cd2fb602fdf4ae5288f2ce80d010cf252a9144d676c8ce11cc61170a4cf: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541909   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/47bb03e0b56d55841e0592f94635eb67d5432edb82424fc23894cdffd755e652: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541913   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/ee861fac313fad5e0c69455a807e13c67c3c211032bc499ca44898cde7368960: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541917   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121: non-existent -> running
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541922   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/dd3f5c03f7309d0a3feb2f9e9f682b4c30ac4105a245f7f40b44afd7096193a0: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541925   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/57960fe13240af78381785cc66c6946f78b8978985bc847a1f77f8af8aef0f54: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541929   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/8ebaeed71f6ce99191a2d839a07d3573119472da221aeb4c7f646f25e6e9dd1b: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541932   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/b04da653f52e0badc54cc839b485dcc7ec5e2f6a8df326d03bcf3e5c8a14a3e3: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541936   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/a23912e38613fd455b26061c4ab002da294f18437b21bc1874e65a82ee1fba05: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541939   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/7f928360f1ba8890194ed795cfa22c5930c0d3ce5f6f2bc6d0592f4a3c1b579f: non-existent -> exited
Jun  2 04:37:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:03.541943   28263 generic.go:153] GenericPLEG: f0118c7e-82cb-4825-a01b-3014fe500e1f/c3bdab1ed8896399263672ca45365e3d74c4ddc3958f82e3c7549fe12bc6c74b: non-existent -> exited
Jun  2 04:37:05 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:37:05.580912   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:05 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:05.580983   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:18 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:37:18.277091   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:18 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:18.277187   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:29 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:37:29.276942   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:29 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:29.276994   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:44 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:37:44.276919   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:44 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:44.276964   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:56 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:37:56.277039   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:37:56 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:37:56.277116   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:08 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:38:08.276838   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:08 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:38:08.276913   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:22 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:38:22.277107   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:22 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:38:22.277151   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:37 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:38:37.277123   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:37 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:38:37.277189   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:51 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:38:51.277059   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:38:51 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:38:51.277101   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:02 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:02.276836   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:02 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:02.276908   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:03.554207   28263 remote_runtime.go:295] ContainerStatus "b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121" from runtime service failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:03.554252   28263 kuberuntime_container.go:403] ContainerStatus for b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121 error: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:03.554265   28263 kuberuntime_manager.go:1122] getPodContainerStatuses for pod "optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)" failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:03.554272   28263 generic.go:397] PLEG: Write status for optimus-pr-b-6bgc3/jenkins: (*container.PodStatus)(nil) (err: rpc error: code = DeadlineExceeded desc = context deadline exceeded)
Jun  2 04:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:03.554285   28263 generic.go:252] PLEG: Ignoring events for pod optimus-pr-b-6bgc3/jenkins: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:03.554294   28263 generic.go:284] GenericPLEG: Reinspecting pods that previously failed inspection
Jun  2 04:39:17 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:17.277086   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:17 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:17.277137   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:28 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:28.276905   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:28 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:28.276976   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:40 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:40.276815   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:40 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:40.276858   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:51 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:39:51.276950   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:39:51 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:39:51.277015   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:40:04 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:40:04.276869   28263 pod_workers.go:191] Error syncing pod f0118c7e-82cb-4825-a01b-3014fe500e1f ("optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)"), skipping: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:40:04 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:40:04.276939   28263 event.go:274] Event(v1.ObjectReference{Kind:"Pod", Namespace:"jenkins", Name:"optimus-pr-b-6bgc3", UID:"f0118c7e-82cb-4825-a01b-3014fe500e1f", APIVersion:"v1", ResourceVersion:"4311315533", FieldPath:""}): type: 'Warning' reason: 'FailedSync' error determining status: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:41:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:41:03.566494   28263 remote_runtime.go:295] ContainerStatus "b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121" from runtime service failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:41:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:41:03.566543   28263 kuberuntime_container.go:403] ContainerStatus for b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121 error: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:41:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: E0602 04:41:03.566554   28263 kuberuntime_manager.go:1122] getPodContainerStatuses for pod "optimus-pr-b-6bgc3_jenkins(f0118c7e-82cb-4825-a01b-3014fe500e1f)" failed: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:41:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:41:03.566561   28263 generic.go:397] PLEG: Write status for optimus-pr-b-6bgc3/jenkins: (*container.PodStatus)(nil) (err: rpc error: code = DeadlineExceeded desc = context deadline exceeded)
Jun  2 04:41:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:41:03.566575   28263 generic.go:288] PLEG: pod optimus-pr-b-6bgc3/jenkins failed reinspection: rpc error: code = DeadlineExceeded desc = context deadline exceeded
Jun  2 04:41:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 kubelet[28263]: I0602 04:41:03.566604   28263 generic.go:189] GenericPLEG: Relisting

珟圚のPLEGの正垞なしきい倀は3分であるため、PLEGの再リストが3分を超える堎合、これはこの堎合はかなり簡単ですが、PLEGは異垞ずしお報告されたす。

単にdocker rmがそのような状態を修正するかどうかを確認する機䌚がありたせん。たずえば、玄40分間スタックした埌、dockerはそれ自䜓のブロックを解陀したす。

[root@node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69:/home/hzhang]# journalctl -u docker | grep b7ae92902520
Jun 01 23:39:03 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-01T23:39:03Z" level=info msg="shim docker-containerd-shim started" address="/containerd-shim/moby/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/shim.sock" debug=false pid=11377
Jun 02 03:23:06 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T03:23:06Z" level=info msg="shim reaped" id=b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121
Jun 02 03:23:36 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T03:23:36.433087181Z" level=info msg="Container b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121 failed to exit within 30 seconds of signal 15 - using the force"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.435460391Z" level=warning msg="Container b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121 is not running"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.435684282Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.435955786Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.436078347Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.436341875Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.436570634Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.436770587Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
Jun 02 04:41:45 node-k8s-use1-prod-shared-001-kubecluster-3-0a0c5d69 dockerd[1731]: time="2020-06-02T04:41:45.436905470Z" level=error msg="Handler for GET /containers/b7ae929025205a7ea9eeaec24bc0526bf642052edff6c7849bc5cc7b9afb9121/json returned error: write unix /var/run/docker.sock->@: write: broken pipe"
......

同様の珟象に関しお、さたざたな問題が発生しおいたす。
https://github.com/docker/for-linux/issues/397
https://github.com/docker/for-linux/issues/543
https://github.com/moby/moby/issues/41054

ただし、docker 19.03 、぀たりhttps://github.com/docker/for-linux/issues/397#issuecomment-515425324で匕き続き衚瀺されるず䞻匵されおいたす

おそらく修埩は、りォッチドッグを䜿甚しおdocker psずps axを比范し、シムプロセスのないコンテナヌをスクラブし、ポッドを匷制終了しおそれらのポッドのブロックを解陀するか、 docker rm䜿甚するこずです。コンテナを削陀するには

䞊蚘の調査を続行するには、スレッドダンプにより、Dockerがハングしおいる間、Dockerがコンテナヌ化された状態で埅機しおいるため、コンテナヌ化された問題が発生しおいる可胜性がありたす。 以䞋のスレッドダンプを参照この堎合

  • これらの圱響を受けるコンテナでは、dockerpsのみが機胜したす
  • docker rm / docker stop / dockerinspectがハングしたす
  • kubeletポッド再出品そのような容噚を怜査しようずするずタむムアりトになり、党䜓の再出品埅ち時間が3分又は越え
  • これにより、ナヌザヌポッドの進行が滞り、PLEG党䜓の速床が䜎䞋するため、kubeletの応答が遅くなりたす。

぀たり、本番環境で行ったこずは次のずおりです。

  • psずdocker ps間の䞍敎合を確認し、圱響を受けるコンテナを遞択したす。この堎合、操䜜がスタックしおいるすべおのコンテナは、すでにシムを刈り取っおいたす。
  • dockerは自動的に解決する堎合もありたすが、解決しない堎合もあるため、タむムアりト埌、圱響を受けるポッドを匷制的に削陀しおナヌザヌのブロックを解陀したす
  • このような䞍敎合が䞀般的に䞀定期間埌に存圚する堎合は、dockerを再起動したす

/ cc @ jmf0526 @haosdent @liucimin @yujuhong @thockin
埌のスレッドで調査のために積極的に話しおいたようです


goroutine 1707386 [select, 22 minutes]:
--
github.com/docker/docker/vendor/google.golang.org/grpc/transport.(*Stream).waitOnHeader(0xc420609680, 0x10, 0xc420f60fd8)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/transport/transport.go:222 +0x101
github.com/docker/docker/vendor/google.golang.org/grpc/transport.(*Stream).RecvCompress(0xc420609680, 0x555ab63e0730, 0xc420f61098)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/transport/transport.go:233 +0x2d
github.com/docker/docker/vendor/google.golang.org/grpc.(*csAttempt).recvMsg(0xc4267ef1e0, 0x555ab624f000, 0xc4288fd410, 0x0, 0x0)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/stream.go:515 +0x63b
github.com/docker/docker/vendor/google.golang.org/grpc.(*clientStream).RecvMsg(0xc4204fa800, 0x555ab624f000, 0xc4288fd410, 0x0, 0x0)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/stream.go:395 +0x45
github.com/docker/docker/vendor/google.golang.org/grpc.invoke(0x555ab6415260, 0xc4288fd4a0, 0x555ab581d40c, 0x2a, 0x555ab6249c00, 0xc428c04450, 0x555ab624f000, 0xc4288fd410, 0xc4202d4600, 0xc4202cdc40, ...)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/call.go:83 +0x185
github.com/docker/docker/vendor/github.com/containerd/containerd.namespaceInterceptor.unary(0x555ab57c9d91, 0x4, 0x555ab64151e0, 0xc420128040, 0x555ab581d40c, 0x2a, 0x555ab6249c00, 0xc428c04450, 0x555ab624f000, 0xc4288fd410, ...)
/go/src/github.com/docker/docker/vendor/github.com/containerd/containerd/grpc.go:35 +0xf6
github.com/docker/docker/vendor/github.com/containerd/containerd.(namespaceInterceptor).(github.com/docker/docker/vendor/github.com/containerd/containerd.unary)-fm(0x555ab64151e0, 0xc420128040, 0x555ab581d40c, 0x2a, 0x555ab6249c00, 0xc428c04450, 0x555ab624f000, 0xc4288fd410, 0xc4202d4600, 0x555ab63e07a0, ...)
/go/src/github.com/docker/docker/vendor/github.com/containerd/containerd/grpc.go:51 +0xf6
github.com/docker/docker/vendor/google.golang.org/grpc.(*ClientConn).Invoke(0xc4202d4600, 0x555ab64151e0, 0xc420128040, 0x555ab581d40c, 0x2a, 0x555ab6249c00, 0xc428c04450, 0x555ab624f000, 0xc4288fd410, 0x0, ...)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/call.go:35 +0x10b
github.com/docker/docker/vendor/google.golang.org/grpc.Invoke(0x555ab64151e0, 0xc420128040, 0x555ab581d40c, 0x2a, 0x555ab6249c00, 0xc428c04450, 0x555ab624f000, 0xc4288fd410, 0xc4202d4600, 0x0, ...)
/go/src/github.com/docker/docker/vendor/google.golang.org/grpc/call.go:60 +0xc3
github.com/docker/docker/vendor/github.com/containerd/containerd/api/services/tasks/v1.(*tasksClient).Delete(0xc422c96128, 0x555ab64151e0, 0xc420128040, 0xc428c04450, 0x0, 0x0, 0x0, 0xed66bcd50, 0x0, 0x0)
/go/src/github.com/docker/docker/vendor/github.com/containerd/containerd/api/services/tasks/v1/tasks.pb.go:430 +0xd4
github.com/docker/docker/vendor/github.com/containerd/containerd.(*task).Delete(0xc42463e8d0, 0x555ab64151e0, 0xc420128040, 0x0, 0x0, 0x0, 0xc42463e8d0, 0x0, 0x0)
/go/src/github.com/docker/docker/vendor/github.com/containerd/containerd/task.go:292 +0x24a
github.com/docker/docker/libcontainerd.(*client).DeleteTask(0xc4203d4e00, 0x555ab64151e0, 0xc420128040, 0xc421763740, 0x40, 0x0, 0x20, 0x20, 0x555ab5fc6920, 0x555ab4269945, ...)
/go/src/github.com/docker/docker/libcontainerd/client_daemon.go:504 +0xe2
github.com/docker/docker/daemon.(*Daemon).ProcessEvent(0xc4202c61c0, 0xc4216469c0, 0x40, 0x555ab57c9b55, 0x4, 0xc4216469c0, 0x40, 0xc421646a80, 0x40, 0x8f0000069c, ...)
/go/src/github.com/docker/docker/daemon/monitor.go:54 +0x23c
github.com/docker/docker/libcontainerd.(*client).processEvent.func1()
/go/src/github.com/docker/docker/libcontainerd/client_daemon.go:694 +0x130
github.com/docker/docker/libcontainerd.(*queue).append.func1(0xc421646900, 0x0, 0xc42a24e380, 0xc420300420, 0xc4203d4e58, 0xc4216469c0, 0x40)
/go/src/github.com/docker/docker/libcontainerd/queue.go:26 +0x3a
created by github.com/docker/docker/libcontainerd.(*queue).append
/go/src/github.com/docker/docker/libcontainerd/queue.go:22 +0x196


非垞によく䌌た問題が発生しおいたすたずえば、docker psは機胜したすが、docker inspectがスタックしたす。 FedoraCoreOSでdocker19.3.8を䜿甚しおkubernetesv1.17.6を実行しおいたす。

たた、dockerpsによっおリストされたコンテナヌがdockerinspectにハングアップするずいうこの問題も発生したした。

docker ps -a | tr -s " " | cut -d " " -f1 | xargs -Iarg sh -c 'echo arg; docker inspect arg> /dev/null'

私たちの堎合、圱響を受けたコンテナがrunc initスタックしおいるこずに気づきたした。 runc initのメむンスレッドをアタッチたたはトレヌスするのに問題がありたした。 信号が配信されおいないようでした。 私たちが知る限り、プロセスはカヌネルでスタックしおいお、ナヌザヌスペヌスに戻る遷移を行っおいたせん。 私は実際にはLinuxカヌネルのデバッグの専門家ではありたせんが、私が知る限り、これはマりントのクリヌンアップに関連するカヌネルの問題のようです。 これは、 runc initプロセスがカヌネルランドで実行しおいるこずのスタックトレヌスの䟋です。

[<0>] kmem_cache_alloc+0x162/0x1c0
[<0>] kmem_zone_alloc+0x61/0xe0 [xfs]
[<0>] xfs_buf_item_init+0x31/0x160 [xfs]
[<0>] _xfs_trans_bjoin+0x1e/0x50 [xfs]
[<0>] xfs_trans_read_buf_map+0x104/0x340 [xfs]
[<0>] xfs_imap_to_bp+0x67/0xd0 [xfs]
[<0>] xfs_iunlink_remove+0x16b/0x430 [xfs]
[<0>] xfs_ifree+0x42/0x140 [xfs]
[<0>] xfs_inactive_ifree+0x9e/0x1c0 [xfs]
[<0>] xfs_inactive+0x9e/0x140 [xfs]
[<0>] xfs_fs_destroy_inode+0xa8/0x1c0 [xfs]
[<0>] __dentry_kill+0xd5/0x170
[<0>] dentry_kill+0x4d/0x190
[<0>] dput.part.31+0xcb/0x110
[<0>] ovl_destroy_inode+0x15/0x60 [overlay]
[<0>] __dentry_kill+0xd5/0x170
[<0>] shrink_dentry_list+0x94/0x1b0
[<0>] shrink_dcache_parent+0x88/0x90
[<0>] do_one_tree+0xe/0x40
[<0>] shrink_dcache_for_umount+0x28/0x80
[<0>] generic_shutdown_super+0x1a/0x100
[<0>] kill_anon_super+0x14/0x30
[<0>] deactivate_locked_super+0x34/0x70
[<0>] cleanup_mnt+0x3b/0x70
[<0>] task_work_run+0x8a/0xb0
[<0>] exit_to_usermode_loop+0xeb/0xf0
[<0>] do_syscall_64+0x182/0x1b0
[<0>] entry_SYSCALL_64_after_hwframe+0x65/0xca
[<0>] 0xffffffffffffffff

Dockerを再起動するず、コンテナがDockerから削陀され、PLEGの異垞な問題を解決するのに十分ですが、スタックしたrunc initは削陀されないこずにも泚意しおください。

線集興味のある人のためのバヌゞョン
Docker 19.03.8
runc 1.0.0-rc10
Linux4.18.0-147.el8.x86_64
CentOS8.1.1911

この問題は解決されたしたか
クラスタヌでPLEGの問題が発生し、この未解決の問題を確認したした。
これに察する回避策はありたすか

数日間皌働しおいるクラスタヌでも、PLEGの問題が発生したした。
セットアップ

K8Sv1.15.11-eks-af3cafを䜿甚したEKSクラスタヌ
Dockerバヌゞョン18.09.9-ce
むンスタンスタむプはm5ad.4xlargeです

問題

Jul 08 04:12:36 ip-56-0-1-191.us-west-2.compute.internal kubelet [5354]I0708 041236.051162 5354 setters.go533]ノヌドの準備ができおいたせん{タむプ準備完了ステヌタス FalseLastHear tbeatTime2020-07-08 041236.051127368 +0000 UTC m = + 4279967.056220983 LastTrans itionTime2020-07-08 041236.051127368 +0000 UTC m = + 4279967.056220983理由KubeletNotReadyメッセヌゞPLEGは健康的ではありたせん

回埩

Kubeletの再起動によりノヌドが回埩したした。

解決策はありたすか Dockerバヌゞョンのアップグレヌドは機胜したすか

倚分それはdockerコンテナの問題です、䟋えば。 コンテナ内のゟンビプロセスが倚いず、「docker ps / inspect」が非垞に遅くなりたす

すべおのワヌカヌのsystemctl restart dockerで問題が修正されたした。

@jetersen Dockerで「live-restore」を有効にしおいたすか
デフォルトでは、Dockerを再起動するず、すべおのコンテナヌが再起動されたす。これは、問題を解決するのにかなり倧きなハンマヌです。

@bborehamはクラスタヌを砎壊しお再䜜成するほど倧きくはありたせん😅

この問題は、Kubernetes 1.15.3、1.16.3、および1.17.9を䜿甚しお発生しおいたす。 dockerバヌゞョン18.6.3Container Linuxおよび19.3.12Flatcar Linuxの堎合。

各ノヌドには玄50個のポッドがありたす。

たた、dockerpsによっおリストされたコンテナヌがdockerinspectにハングアップするずいうこの問題も発生したした。

docker ps -a | tr -s " " | cut -d " " -f1 | xargs -Iarg sh -c 'echo arg; docker inspect arg> /dev/null'

私たちの堎合、圱響を受けたコンテナがrunc initスタックしおいるこずに気づきたした。 runc initのメむンスレッドをアタッチたたはトレヌスするのに問題がありたした。 信号が配信されおいないようでした。 私たちが知る限り、プロセスはカヌネルでスタックしおいお、ナヌザヌスペヌスに戻る遷移を行っおいたせん。 私は実際にはLinuxカヌネルのデバッグの専門家ではありたせんが、私が知る限り、これはマりントのクリヌンアップに関連するカヌネルの問題のようです。 これは、 runc initプロセスがカヌネルランドで実行しおいるこずのスタックトレヌスの䟋です。

[<0>] kmem_cache_alloc+0x162/0x1c0
[<0>] kmem_zone_alloc+0x61/0xe0 [xfs]
[<0>] xfs_buf_item_init+0x31/0x160 [xfs]
[<0>] _xfs_trans_bjoin+0x1e/0x50 [xfs]
[<0>] xfs_trans_read_buf_map+0x104/0x340 [xfs]
[<0>] xfs_imap_to_bp+0x67/0xd0 [xfs]
[<0>] xfs_iunlink_remove+0x16b/0x430 [xfs]
[<0>] xfs_ifree+0x42/0x140 [xfs]
[<0>] xfs_inactive_ifree+0x9e/0x1c0 [xfs]
[<0>] xfs_inactive+0x9e/0x140 [xfs]
[<0>] xfs_fs_destroy_inode+0xa8/0x1c0 [xfs]
[<0>] __dentry_kill+0xd5/0x170
[<0>] dentry_kill+0x4d/0x190
[<0>] dput.part.31+0xcb/0x110
[<0>] ovl_destroy_inode+0x15/0x60 [overlay]
[<0>] __dentry_kill+0xd5/0x170
[<0>] shrink_dentry_list+0x94/0x1b0
[<0>] shrink_dcache_parent+0x88/0x90
[<0>] do_one_tree+0xe/0x40
[<0>] shrink_dcache_for_umount+0x28/0x80
[<0>] generic_shutdown_super+0x1a/0x100
[<0>] kill_anon_super+0x14/0x30
[<0>] deactivate_locked_super+0x34/0x70
[<0>] cleanup_mnt+0x3b/0x70
[<0>] task_work_run+0x8a/0xb0
[<0>] exit_to_usermode_loop+0xeb/0xf0
[<0>] do_syscall_64+0x182/0x1b0
[<0>] entry_SYSCALL_64_after_hwframe+0x65/0xca
[<0>] 0xffffffffffffffff

Dockerを再起動するず、コンテナがDockerから削陀され、PLEGの異垞な問題を解決するのに十分ですが、スタックしたrunc initは削陀されないこずにも泚意しおください。

線集興味のある人のためのバヌゞョン
Docker 19.03.8
runc 1.0.0-rc10
Linux4.18.0-147.el8.x86_64
CentOS8.1.1911

この問題は解決されたしたか どのバヌゞョンで

マヌク

kubernetes version = v1.16.8-eks-e16311および//19.3.6のeksで再び問題に盎面し
dockerずkubeletを再起動するず、ノヌドが回埩したした。

@ mak-454今日もEKSでこの問題が発生したした。問題の期間ずずもに、ノヌドが実行されおいたリヌゞョン/ AZを共有しおいただけたせんか。 根本的なむンフラの問題があったのではないかず知りたいです。

@JacobHenner私のノヌドはeu-central-1リヌゞョンで実行されおいたした。

Kubernetesバヌゞョン「1.15.12」およびdockerバヌゞョン「19.03.6-ce」を䜿甚するEKSca-central-1でこの問題が発生したした

docker / kubeletを再起動するず、ノヌドむベントに次の行が衚瀺されたす。

  Warning  SystemOOM                14s (x3 over 14s)      kubelet, ip-10-1-2-3.ca-central-1.compute.internal  System OOM encountered
このペヌゞは圹に立ちたしたか
0 / 5 - 0 評䟡