صف الخلل
عندما أحاول تثبيت مشغل بروميثيوس على AKS helm install stable/prometheus-operator --name prometheus-operator -f prometheus-operator-values.yaml
، أتلقى هذا الخطأ:
prometheus-worker "فشل: خطأ rpc: code = تم الإلغاء
راجعت مع التاريخ:
helm history prometheus-operator -o yaml
- chart: prometheus-operator-6.3.0
description: 'Release "prometheus-operator" failed: rpc error: code = Canceled desc
= grpc: the client connection is closing'
revision: 1
status: FAILED
updated: Tue Jul 30 12:36:52 2019
جدول
[مستقر / مشغل بروميثيوس]
معلومات إضافية
أستخدم التكوينات أدناه لنشر مخطط:
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
في ملف القيم: تم تعيين createCustomResource
على false
،
الناتج helm version
:
العميل: & version.Version {SemVer: "v2.14.3"، GitCommit: "0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085"، GitTreeState: "clean"}
الخادم: & version.Version {SemVer: "v2.14.3"، GitCommit: "0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085"، GitTreeState: "clean"}
الناتج kubectl version
:
إصدار العميل: version.Info {Major: "1"، Minor: "10"، GitVersion: "v1.10.4"، GitCommit: "5ca598b4ba5abb89bb773071ce452e33fb66339d"، GitTreeState: "clean"، BuildDate: "2018-06-06T08: 13: 03Z "، GoVersion:" go1.9.3 "، المترجم:" gc "، النظام الأساسي:" windows / amd64 "}
إصدار الخادم: version.Info {Major: "1"، Minor: "13"، GitVersion: "v1.13.7"، GitCommit: "4683545293d792934a7a7e12f2cc47d20b2dd01b"، GitTreeState: "clean"، BuildDate: "2019-06-06T01: 39: 30Z "، GoVersion:" go1.11.5 "، المترجم:" gc "، النظام الأساسي:" linux / amd64 "}
مزود / منصة السحابة (AKS ، GKE ، Minikube وما إلى ذلك):
AKS
لدينا نفس المشكلة على minikube لذا لا يبدو أنها خاصة بـ AWS.
لدينا نفس المشكلة على مجموعات kubespray التي تم نشرها.
أرى أيضًا المشكلة في كلٍّ من k8s 12.x و 13.x kubespray مجموعات المجموعات المنشورة في خط الأنابيب الآلي لدينا - معدل فشل بنسبة 100٪. الإصدار السابق من مشغل بروميثيوس (0.30.1) يعمل بدون مشاكل.
الأشياء المضحكة هي أنه إذا قمت بتشغيل الأمر يدويًا بدلاً من تشغيله عبر خط أنابيب القرص المضغوط ، فأنا مرتبك قليلاً بشأن السبب.
رأيت أنه كان هناك تحديث لمخطط بروميثوس اليوم. لقد صدمت به
NAME CHART VERSION APP VERSION
stable/prometheus-operator 6.8.0 0.32.0
ولم أعد أرى المشكلة.
rnkhouse هل يمكنك التحقق من أحدث إصدار من المخطط كما هو مذكور بواسطة @ dlevene1 في https://github.com/helm/helm/issues/6130#issuecomment -526977731؟
لدي نفس المشكلة مع الإصدار 6.8.1 على AKS.
NAME CHART VERSION APP VERSION
stable/prometheus-operator 6.8.1 0.32.0
❯ helm version
Client: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
Server: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
❯ helm install -f prd.yaml --name prometheus --namespace monitoring stable/prometheus-operator
Error: release prometheus failed: grpc: the client connection is closing
>>> elapsed time 1m56s
لدينا نفس المشكلة على مجموعات kubespray التي تم نشرها.
إصدار Kubernete: v1.4.1
إصدار خوذة:
Client: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
Server: &version.Version{SemVer:"v2.14.0", GitCommit:"05811b84a3f93603dd6c2fcfe57944dfa7ab7fd0", GitTreeState:"clean"}
إصدار بروميثيوس المشغل:
NAME CHART VERSION APP VERSION
stable/prometheus-operator 6.8.1 0.32.0
لدي نفس المشكلة على aks.
هل يمكن لأي شخص إعادة إنتاج هذه المشكلة في Helm 3 ، أم أنها تنتشر كخطأ مختلف؟ افترض أنه مع إزالة الحراثة لم يعد هذا مشكلة.
bacongobbler لا تزال هذه مشكلة في Helm 3.
bash$ helm install r-prometheus-operator stable/prometheus-operator --version 6.8.2 -f prometheus-operator/helm/prometheus-operator.yaml
manifest_sorter.go:179: info: skipping unknown hook: "crd-install"
Error: apiVersion "monitoring.coreos.com/v1" in prometheus-operator/templates/exporters/kube-controller-manager/servicemonitor.yaml is not available
يبدو أن هذه مشكلة مختلفة عن المشكلة التي أثارها البروتوكول الاختياري.
الوصف: فشل إصدار "Prometheus-worker": خطأ rpc: code = إلغاء الوصف
= grpc: اتصال العميل يغلق '
هل يمكنك التحقق ومعرفة ما إذا كنت تستخدم أحدث إصدار تجريبي أيضًا؟ تمت معالجة هذا الخطأ على ما يبدو في # 6332 الذي تم إصداره في الإصدار 3.0.0-beta.3. إذا كان الجواب لا يمكنك فتح قضية جديدة؟
bacongobbler أنا أستخدم أحدث إصدار من Helm v3.0.0-beta.3.
اضطررت إلى العودة إلى الإصدار 6.7.3 لتثبيته بشكل صحيح
الحل البديل لدينا هو الاحتفاظ بصورة عامل بروميثيوس على الإصدار 0.31.1.
helm.log
واجهت للتو هذه المشكلة على تثبيت DockerEE kubernetes
بعد بعض العبث بخيارات التثبيت - تصحيح الأخطاء وما شابه ، أحصل الآن على:
Error: release prom failed: context canceled
تحرير: يمكنك محاولة تحديث إصدارات دفتري ، حاليًا في الإصدار 2.12.3
Edit2: تم التحديث إلى 2.14.3 ولا يزال يمثل مشكلة
grpc: the client connection is closing
Edit3: الإصدار المثبت 6.7.3 وفقًا للاقتراحات المذكورة أعلاه لبدء الأمور مرة أخرى
Edit4: مرفق سجل الحارث لتثبيت فشل كـ helm.log
بعد إجراء بعض عمليات البحث باستخدام @ cyp3d ، يبدو أن المشكلة قد تكون ناتجة عن مهلة حذف الدفة قصيرة جدًا بالنسبة لبعض المجموعات. لا يمكنني إعادة إنتاج المشكلة في أي مكان ، لذا إذا كان بإمكان شخص ما يواجه ذلك التحقق من صحة إصلاح محتمل في فرع طلب السحب المرتبط ، فسأكون ممتنًا للغاية!
نفس الشيء هنا في عدة مجموعات تم إنشاؤها باستخدام kops على AWS.
لا توجد مشاكل عند التشغيل على K3S بالرغم من ذلك.
تضمين التغريدة
هل يمكنك تجربة الإصلاح المحتمل في هذا العلاقات العامة؟ https://github.com/helm/charts/pull/17090
لقد أعطيت العلاقات العامة جولة من خلال ولا تزال نفس Error: release prom failed: context canceled
الحارث
vsliouniaev كلا ، لا يصلح المشكلة هنا
شكرا للتحقق من xvzf وpyadminn. لقد أجريت تغييرًا آخر في نفس العلاقات العامة. هل تستطيع أن ترى ما إذا كان هذا يساعد؟
فقط تحقق من PR المحدث لا يزال يرى ما يلي على موقعنا أدناه: Error: release prom failed: rpc error: code = Canceled desc = grpc: the client connection is closing
لمعلوماتك نحن على Kuber 1.14.3
هيلم v2.14.3
تمكنت من التغلب على هذه المشكلة باتباع قسم "فشل Helm في إنشاء CRDs" في readme.md. لست متأكدًا من كيفية ارتباطها ، لكنها نجحت.
الخطوة 1: إنشاء CRDS يدويًا
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml
الخطوة 2:
انتظر حتى يتم إنشاء CRDs ، والتي يجب أن تستغرق بضع ثوانٍ فقط
الخطوه 3:
قم بتثبيت المخطط ، ولكن قم بتعطيل توفير CRD عن طريق تعيين prometheusOperator.createCustomResource = false
$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false
vsliouniaev لا تزال نفس المشكلة! على الرغم من أن الحل البديل من الأسلاك الفتاكة يعمل.
لقد تم حل مشكلة الأسلاك الفتاكة أيضًا.
لذا لمدة 4 أيام عمل الحل البديل وتوقف عن العمل ، كان علي استخدام ملف CRDs من 0.32.0
غير متقن.
لقد واجهت الآن نفس المشكلة مع CRDs حاليًا في الماجستير. شكرًا Typositoire على اقتراحك باستخدام الإصدار السابق الحالي. نجح تكييف تثبيت CRDs مع ما يلي بالنسبة لي:
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/podmonitor.crd.yaml
لهذا السبب غالبًا ما يكون إصلاح الإصدار ممارسة جيدة.
حدثت هذه المشكلة أيضًا ، حاول تعطيل admissionWebhooks
. لقد ساعدت في حالتي.
قم بتثبيت مخطط مشغل بروميثيوس 6.0.0 وقم بإجراء ترقية للدفة - فرض - الإصدار 6.11.0 ، يبدو أن هذا يعمل على rancher kubernetes 1.13.10 و helm v2.14.3
الحل الذي اقترحه Typositoire يعمل بشكل جيد بالنسبة لي على مجموعة 1.13.10 التي تم إنشاؤها بواسطة kops.
نفس المشكلة هنا تحاول التثبيت على Azure AKS مع kubernetes 1.13.10 و helm v2.14.3 مع prometheus-worker-6.18.0. أي اقتراح؟
يتم تثبيت CRD يدويًا.
فشل هذا الأمر:
helm install --name prometheus-operator stable/prometheus-operator --namespace=monitoring --set prometheusOperator.createCustomResource=false
أعط الخطأ
خطأ: فشل تحرير عامل التشغيل Prometheus: خطأ RPC: الرمز = تم إلغاء desc = grpc: اتصال العميل يغلق
تحرير: تثبيت الإصدار 6.11.0 (بالإضافة إلى 6.7.3) من المخطط يعمل:
helm install --name prometheus-operator stable/prometheus-operator --namespace=monitoring --set prometheusOperator.createCustomResource=false --version 6.11.0
حاول تعطيل رابط الويب لوحدة التحكم في القبول؟
https://waynekhan.net/2019/10/09/prometheus-operator-release-failed.html
في 15 أكتوبر 2019 ، الساعة 19:32 ، كتب iMacX [email protected] :
نفس المشكلة هنا تحاول التثبيت على Azure AKS مع kubernetes 1.13.10 و helm v2.14.3 مع prometheus-worker-6.18.0. أي اقتراح؟-
أنت تتلقى هذا لأنك مشترك في هذا الموضوع.
قم بالرد على هذه الرسالة الإلكترونية مباشرةً ، أو اعرضها على GitHub ، أو قم بإلغاء الاشتراك.
كنت أحارب نفس المشكلة ، اضطررت إلى تثبيت crds المحددة بواسطة JBosom يدويًا
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/podmonitor.crd.yaml
helm --tls --tiller-namespace=tiller install --namespace=monitoring --name prom-mfcloud stable/prometheus-operator --set prometheusOperator.createCustomResource=false --set prometheusOperator.admissionWebhooks.enabled=false --values values.yaml --versi
on 6.18.0
كنت أتلقى نفس الخطأ أثناء محاولة تثبيت v8.0.0
على مجموعة K8S المحلية بواسطة Docker for Desktop مع مدير v2.14.3
. لم يكن قادرًا على التثبيت إلا بعد إنشاء CRDs أولاً كما اقترحه
أعتقد أن لدينا حالات كافية هنا لتحديد أن هذه مشكلة محددة في مخطط مشغل بروميثيوس.
سأختتم هذا الأمر باعتباره شيئًا ليس لدينا رد قابل للتنفيذ من جانبنا ، ولكن لا تتردد في استمرار المحادثة.
أنا آسف للتشدق ، لكنني لم أعد أتلقى هذا الخطأ بعد الترقية إلى أحدث منصب v2.15.2
. 👍
يبدو من الغريب أنه لا توجد معلومات متاحة من هيلم حول ما يحدث.
لا توجد سجلات تصحيح أخطاء منشورة هنا ولا يُطلب ذلك ويقوم الأشخاص باستعادة مفاتيح التقليب ومعرفة ما إذا كان ذلك مفيدًا.
ماذا يعني الخطأ في الواقع؟ هل هو مؤشر على مأزق مع الانتظار؟ هل هناك بعض الإجراءات الأخرى التي يمكن أداؤها بخلاف الاستهجان الجماعي؟
نعم. يبدو أن الخطأ الأصلي هو طريق مسدود في انتظار اكتمال رابط الويب الخاص بالدخول ، نظرًا لأن تعطيل ربط الويب يسمح بتثبيت المخطط دون مشكلة. يجب أن يؤكد النظر في سجلات تيلر على المشكلة.
يجب على Helm 3 إبلاغ المستخدم بالخطأ الصحيح نظرًا لعدم وجود طبقة gRPC في مهلة المزيج وإلغاء الطلب من انتهاء المهلة.
لا تتردد في توفير تصحيحات لبرنامج Helm 2. نظرًا لأنه تم تحسين هذا لـ Helm 3 ، فقد تقدمت وأغلقت هذا كما تم إصلاحه في الإصدارات الأحدث.
أتمنى أن يساعدك هذا.
يبدو أن الخطأ الأصلي هو طريق مسدود في انتظار اكتمال رابط الويب الخاص بالدخول ، نظرًا لأن تعطيل ربط الويب يسمح بتثبيت المخطط دون مشكلة.
يبدو هذا غريبًا جدًا مثل الاستنتاج ، نظرًا لأن الحل هو إما تعطيل الوظيفة أو تعطيل تثبيت خطافات CRD. يبدو أن كلاهما يحل المشكلة ، لذلك لا يبدو أنها مشكلة تتعلق بالوظيفة على وجه التحديد.
لأي شخص آخر يواجه هذه المشكلة - هل يمكنك من فضلك تقديم ناتج kubectl describe job
حتى نتمكن من معرفة الوظائف التي تفشل؟ لقد طلبت هذا من قبل ولكن يبدو أن الجميع يشير إلى عدم وجود وظائف.
يقرأ تيلر على النحو التالي:
[kube] 2019/11/15 14:35:46 get relation pod of object: monitoring/PrometheusRule/prometheus-operator-node-time
[kube] 2019/11/15 14:35:46 Doing get for PrometheusRule: "prometheus-operator-kubernetes-apps"
[ A lot of unrelated updates in between... ]
2019/11/15 14:36:38 Cannot patch PrometheusRule: "prometheus-operator-kubernetes-apps" (rpc error: code = Canceled desc = grpc: the client connection is closing)
2019/11/15 14:36:38 Use --force to force recreation of the resource
[kube] 2019/11/15 14:36:38 error updating the resource "prometheus-operator-kubernetes-apps":
rpc error: code = Canceled desc = grpc: the client connection is closing
[tiller] 2019/11/15 14:36:38 warning: Upgrade "prometheus-operator" failed: rpc error: code = Canceled desc = grpc: the client connection is closing
[storage] 2019/11/15 14:36:38 updating release "prometheus-operator.v94"
[storage] 2019/11/15 14:36:38 updating release "prometheus-operator.v95"
[ then rollback... ]
لذلك اضطررت إلى حذف هذا المورد يدويًا. قد يحتوي apiserver على مزيد من المعلومات (يبدو أنه مرتبط بوحدة تحكم الدخول بالفعل).
desaintmartin يبدو أنه يحدث لك عند الترقية ، وليس التثبيت ، أليس كذلك؟
نظرًا لأن Helm 3.0 هو GA الآن ويعمل المخطط من أجله ، يرجى الإبلاغ عما إذا كان يمكنك الحصول عليه هناك وإذا حصلت على أي سجلات أفضل
أنا على Helm3 وما زلت أتلقى هذا الخطأ في Azure AKS :(
حاولت استخدام الرسم البياني v8.2.4: إذا كان prometheusOperator.admissionWebhooks=false
، prometheus.tlsProxy.enabled=false
أيضًا.
أيضًا ، مثل ما قاله vsliouniaev ، ماذا يقول --debug
و --dry-run
؟
@ truealex81 نظرًا لأن الهدف من helm3 هو تقديم مزيد من المعلومات حول هذا الموضوع ، فهل يمكنك نشر سجلات مطولة من عملية التثبيت؟
أتلقى نفس المشكلة أثناء نشر 8.2.4 على Azure AKS.
إصدار خوذة:
version.BuildInfo{Version:"v3.0.0", GitCommit:"e29ce2a54e96cd02ccfce88bee4f58bb6e2a28b6", GitTreeState:"clean", GoVersion:"go1.13.4"}
ينتج Helm --debug هذا الناتج:
install.go:148: [debug] Original chart version: ""
install.go:165: [debug] CHART PATH: /root/.cache/helm/repository/prometheus-operator-8.2.4.tgz
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
install.go:139: [debug] Clearing discovery cache
wait.go:51: [debug] beginning wait for 5 resources with timeout of 1m0s
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:245: [debug] jobs.batch "prometheus-operator-admission-create" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prometheus-operator-admission-create with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:484: [debug] prometheus-operator-admission-create: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:87: [debug] creating 120 resource(s)
Error: context canceled
يمكنني إعادة إنتاج هذا بشكل موثوق. إذا كانت هناك طريقة للحصول على المزيد من السجلات التفصيلية ، فيرجى إبلاغي بذلك وسأقوم بنشر الإخراج هنا
@ pather87 شكرا جزيلا!
إليك ترتيب ما من المفترض أن يحدث في الرسم البياني:
هل يمكنك التحقق مما إذا كان لديك أي وظائف فاشلة لا تزال موجودة؟ يقرأ من السجلات أنه لا ينبغي لك ذلك لأنهم جميعًا كانوا ناجحين.
هل توجد أي موارد أخرى في الكتلة بعد حدوث Error: context canceled
؟
نفس الشيء هنا عند تثبيت مشغل بروميثيوس:
helm install prometheus-operator stable/prometheus-operator \
--namespace=monitoring \
--values=values.yaml
Error: rpc error: code = Canceled desc = grpc: the client connection is closing
vsliouniaev شكرا لإجابتك!
kubectl get all -lrelease = بروميثيوس-عامل
NAME READY STATUS RESTARTS AGE
pod/prometheus-operator-grafana-59d489899-4b5kd 2/2 Running 0 3m56s
pod/prometheus-operator-operator-8549bcd687-4kb2x 2/2 Running 0 3m56s
pod/prometheus-operator-prometheus-node-exporter-4km6x 1/1 Running 0 3m56s
pod/prometheus-operator-prometheus-node-exporter-7dgn6 1/1 Running 0 3m56s
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service/prometheus-operator-alertmanager ClusterIP xxx <none> 9093/TCP 3m57s
service/prometheus-operator-grafana ClusterIP xxx <none> 80/TCP 3m57s
service/prometheus-operator-operator ClusterIP xxx <none> 8080/TCP,443/TCP 3m57s
service/prometheus-operator-prometheus ClusterIP xxx <none> 9090/TCP 3m57s
service/prometheus-operator-prometheus-node-exporter ClusterIP xxx <none> 9100/TCP 3m57s
NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE
daemonset.apps/prometheus-operator-prometheus-node-exporter 2 2 2 2 2 <none> 3m57s
NAME READY UP-TO-DATE AVAILABLE AGE
deployment.apps/prometheus-operator-grafana 1/1 1 1 3m57s
deployment.apps/prometheus-operator-operator 1/1 1 1 3m57s
NAME DESIRED CURRENT READY AGE
replicaset.apps/prometheus-operator-grafana-59d489899 1 1 1 3m57s
replicaset.apps/prometheus-operator-operator-8549bcd687 1 1 1 3m57s
NAME READY AGE
statefulset.apps/alertmanager-prometheus-operator-alertmanager 1/1 3m44s
statefulset.apps/prometheus-prometheus-operator-prometheus 1/1 3m34s
التثبيت مع التصحيح :
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD alertmanagers.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD podmonitors.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD prometheuses.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD prometheusrules.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD servicemonitors.monitoring.coreos.com is already present. Skipping.
install.go:139: [debug] Clearing discovery cache
wait.go:51: [debug] beginning wait for 0 resources with timeout of 1m0s
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:245: [debug] jobs.batch "prometheus-operator-admission-create" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prometheus-operator-admission-create with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:484: [debug] prometheus-operator-admission-create: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:87: [debug] creating 122 resource(s)
Error: context canceled
helm.go:76: [debug] context canceled
بعد ذلك ، أقوم بتنفيذ: kubectl get all -lrelease=prometheus-operator -A
NAMESPACE NAME READY STATUS RESTARTS AGE
monitoring pod/prometheus-operator-grafana-d6676b794-r6cg9 2/2 Running 0 2m45s
monitoring pod/prometheus-operator-operator-6584f4b5f5-wdkrx 2/2 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-2g4tg 1/1 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-798p5 1/1 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-pvk5t 1/1 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-r9j2r 1/1 Running 0 2m45s
NAMESPACE NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kube-system service/prometheus-operator-coredns ClusterIP None <none> 9153/TCP 2m46s
kube-system service/prometheus-operator-kube-controller-manager ClusterIP None <none> 10252/TCP 2m46s
kube-system service/prometheus-operator-kube-etcd ClusterIP None <none> 2379/TCP 2m46s
kube-system service/prometheus-operator-kube-proxy ClusterIP None <none> 10249/TCP 2m46s
kube-system service/prometheus-operator-kube-scheduler ClusterIP None <none> 10251/TCP 2m46s
monitoring service/prometheus-operator-alertmanager ClusterIP 10.0.238.102 <none> 9093/TCP 2m46s
monitoring service/prometheus-operator-grafana ClusterIP 10.0.16.19 <none> 80/TCP 2m46s
monitoring service/prometheus-operator-operator ClusterIP 10.0.97.114 <none> 8080/TCP,443/TCP 2m45s
monitoring service/prometheus-operator-prometheus ClusterIP 10.0.57.153 <none> 9090/TCP 2m46s
monitoring service/prometheus-operator-prometheus-node-exporter ClusterIP 10.0.83.30 <none> 9100/TCP 2m46s
NAMESPACE NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE
monitoring daemonset.apps/prometheus-operator-prometheus-node-exporter 4 4 4 4 4 <none> 2m46s
NAMESPACE NAME READY UP-TO-DATE AVAILABLE AGE
monitoring deployment.apps/prometheus-operator-grafana 1/1 1 1 2m46s
monitoring deployment.apps/prometheus-operator-operator 1/1 1 1 2m46s
NAMESPACE NAME DESIRED CURRENT READY AGE
monitoring replicaset.apps/prometheus-operator-grafana-d6676b794 1 1 1 2m46s
monitoring replicaset.apps/prometheus-operator-operator-6584f4b5f5 1 1 1 2m46s
NAMESPACE NAME READY AGE
monitoring statefulset.apps/alertmanager-prometheus-operator-alertmanager 1/1 2m40s
monitoring statefulset.apps/prometheus-prometheus-operator-prometheus 1/1 2m30s
ما اكتشفته أيضًا من خلال محاولة التغلب على هذا: استمرت المشكلة ، إذا قمت بحذف المخطط و CRDs بعد ذلك وقمت بتثبيت المخطط مرة أخرى ، لكن المشكلة لا تستمر ، إذا لم أحذف crds.
لقد جربت وقمت بتثبيت crds مسبقًا ، وقمت بعمل helm install --skip-crds
، لكن لا تزال المشكلة قائمة. هذا مربك إلى حد ما.
سطر السجل التالي الذي أتوقعه بعد ذلك يتعلق بخطافات ما بعد التثبيت وما بعد الترقية ، لكنه لا يظهر في حالتك. لست متأكدًا مما تنتظره الدفة هنا
...
lient.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission-patch" Job
client.go:245: [debug] jobs.batch "prom-op-prometheus-operato-admission-patch" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prom-op-prometheus-operato-admission-patch with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prom-op-prometheus-operato-admission-patch: MODIFIED
client.go:484: [debug] prom-op-prometheus-operato-admission-patch: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prom-op-prometheus-operato-admission-patch: MODIFIED
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" RoleBinding
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" Role
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRole
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission-patch" Job
يساعد إنشاء CRDs يدويًا على Azure على الأقل.
أولاً ، قم بإنشاء crds من هذا الرابط https://github.com/coreos/prometheus-operator/tree/release-0.34/example/prometheus-operator-crd
"kubectl create -f alertmanager.crd.yaml" وهكذا لجميع الملفات
ثم
تثبيت خوذة بروميثيوس-عامل تشغيل مستقر / مشغل بروميثيوس - مراقبة مساحة الاسم - الإصدار 8.2.4 - تعيين بروميثيوسOperator.createCustomResource = خطأ
شكرا @ truealex81 ! هذا يعمل على Azure.
myenv:
k8s 1.11.2 helm 2.13.1 الحارث 2.13.1
بروميثيوس-عامل-5.5 إصدار التطبيق 0.29 على ما يرام !!!
لكن:
بروميثيوس-عامل -8 نسخة التطبيق 0.32 هافا نفس المشكلة:
"تم إلغاء السياق" أو "grpc: اتصال العميل يتم إغلاقه" !!!
أعتقد أن أحدث إصدار من مشغل بروميثيوس غير متوافق؟ !!!
bierhov من فضلك هل يمكنك نشر الموارد في مساحة الاسم بعد الفشل؟
نعم!
تنفيذ shell "helm ls" يمكنني رؤية حالة إصدار عامل التشغيل بروميثيوس "فشل" ، ولكن مساحة الاسم حيث يوجد مشغل بروميثيوس الذي قمت بتثبيته به جميع موارد مشغل بروميثيوس
لكن،
لا يمكن لشبكة Promethues الحصول على أي بيانات!
هل يمكنك نشر الموارد بالرغم من ذلك؟
هل يمكنك نشر الموارد بالرغم من ذلك؟
آسف ، لا أستطيع الظهور مرة أخرى ، ما لم أزل دفة دفة المستقرة وأقوم بذلك مرة أخرى!
bierhov هل لديك أي وظائف فاشلة متبقية بعد التثبيت؟
bierhov هل لديك أي وظائف فاشلة متبقية بعد التثبيت؟
إصدار k8s الخاص بي هو 1.11.2 إصدار الحارث هو 2.13.1
إذا قمت بتثبيت الإصدار 8.x من مشغل بروميثيوس
shell exec command "helm ls" ، فإن حالة الوظيفة فشلت
لكني قمت بتثبيت الإصدار 5.x من مشغل بروميثيوس
أمر exec shell "helm ls" ، يتم نشر حالة الوظيفة !!!
لا يمكن استنساخه باستخدام:
إصدار Kubernetes: v1.13.12"
إصدار Kubectl: v1.16.2
إصدار خوذة: 3.0.1
إصدار بروميثيوس المشغل: 8.3.3
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/podmonitor.crd.yaml
--set prometheusOperator.createCustomResource=false
prometheusOperator: createCustomResource: false
تضمين التغريدة
ماذا لو لم تقم بإنشاء CRDs يدويًا؟ هذا أحد الحلول البديلة لهذه المشكلة
vsliouniaev إذا لم
ولكن في الإصدار الأصلي في معلومات إضافية rnkhouse ذكر أنه كان ينشئ CRDs يدويًا.
نحن نستخدم مشغل بروميثيوس في نشرنا ، باختصار ، قمنا بترقية prom-op من 6.9.3 إلى 8.3.3 وفشلنا دائمًا مع "خطأ: تم إلغاء السياق".
كما نقوم دائمًا بتثبيت crds قبل تثبيت / ترقية مشغل بروميثيوس ، ولم نقم بتغيير أو تحديث هذه crd-s.
أحاول تحديث crds ، والتي تذكرها في "github.com/helm/charts/tree/master/stable/prometheus-operator" (مثل هذا kubectl ينطبق -f https://raw.githubusercontent.com/coreos/prometheus-operator /master/example/prometheus-operator-crd/alertmanager.crd.yaml) ، لكنها لم تعد موجودة.
بعد ذلك أحاول الوصول إلى هؤلاء من هنا: https://github.com/helm/charts/tree/master/stable/prometheus-operator/crds
لكنها فشلت مرة أخرى.
كدت أستسلم ، لكن مع هذه الحشود ، نجح نشر الدفة! yeyyyy
https://github.com/coreos/kube-prometheus/tree/master/manifests/setup
الإعداد الخاص بي:
إصدار Kubernetes: v1.14.3
إصدار Kubectl: v1.14.2
إصدار خوذة: 2.14.3
إصدار بروميثيوس المشغل: 8.3.3
تطهير بروميثيوس-عامل من k8s!
ثم:
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0alertmanagerCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0podmonitorCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0prometheusCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0prometheusruleCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0servicemonitorCustomResourceDefinition.yaml
helm upgrade -i prom-op \
--version 8.3.3 \
--set prometheusOperator.createCustomResource=false \
stable/prometheus-operator
هذا كل شئ !
هل هذا يعني أنه من الضروري إجراء تثبيت نظيف وفقدان بيانات المقاييس التاريخية؟
بعد ترقية AKS k8s إلى 1.15.5 ، اختفت المشكلة إلى 3.0.1 ومخطط بروميثيوس المشغل إلى 8.3.3.
الحل البديل لدينا هو الاحتفاظ بصورة عامل بروميثيوس على الإصدار 0.31.1.
عملت معي أيضًا على AKS v1.14.8
و helm +iller v2.16.1
وتغيير صورة المشغل إلى v0.31.1
يساعد إنشاء CRDs يدويًا على Azure على الأقل.
أولاً ، قم بإنشاء crds من هذا الرابط https://github.com/coreos/prometheus-operator/tree/release-0.34/example/prometheus-operator-crd
"kubectl create -f alertmanager.crd.yaml" وهكذا لجميع الملفات
ثم
تثبيت خوذة بروميثيوس-عامل تشغيل مستقر / مشغل بروميثيوس - مراقبة مساحة الاسم - الإصدار 8.2.4 - تعيين بروميثيوسOperator.createCustomResource = خطأ
في أعمال kubernetes اللازوردية ، شكرًا
تمكنت من التغلب على هذه المشكلة باتباع قسم "فشل Helm في إنشاء CRDs" في readme.md. لست متأكدًا من كيفية ارتباطها ، لكنها نجحت.
الخطوة 1: إنشاء CRDS يدويًا
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml
الخطوة 2:
انتظر حتى يتم إنشاء CRDs ، والتي يجب أن تستغرق بضع ثوانٍ فقطالخطوه 3:
قم بتثبيت المخطط ، ولكن قم بتعطيل توفير CRD عن طريق تعيين prometheusOperator.createCustomResource = false$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false
شكرًا ، لقد نجح هذا معي مع مجموعة AKS. اضطررت إلى تغيير عنوان URL الخاص بـ CRD.
تطبيق kubectl -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_alertmanagers.yaml --validate = false
تطبيق kubectl -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_podmonitors.yaml --validate = false
تطبيق kubectl -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_prometheuses.yaml --validate = false
تطبيق kubectl -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_prometheusrules.yaml --validate = false
تطبيق kubectl -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_servicemonitors.yaml --validate = false
تطبيق kubectl -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_thanosrulers.yaml --validate = false
تثبيت خوذة مستقر / مشغل بروميثيوس - اسم بروميثيوس-عامل - مراقبة مساحة الاسم - تعيين بروميثيوسOperator.createCustomResource = خطأ
إغلاق. يبدو أن هذا قد تم حله منذ ذلك الحين ، وفقًا لآخر ثلاثة معلقين. شكرا!
التعليق الأكثر فائدة
تمكنت من التغلب على هذه المشكلة باتباع قسم "فشل Helm في إنشاء CRDs" في readme.md. لست متأكدًا من كيفية ارتباطها ، لكنها نجحت.
الخطوة 1: إنشاء CRDS يدويًا
الخطوة 2:
انتظر حتى يتم إنشاء CRDs ، والتي يجب أن تستغرق بضع ثوانٍ فقط
الخطوه 3:
قم بتثبيت المخطط ، ولكن قم بتعطيل توفير CRD عن طريق تعيين prometheusOperator.createCustomResource = false