Beschreibe den Fehler
Wenn ich versuche, den prometheus-Operator mit helm install stable/prometheus-operator --name prometheus-operator -f prometheus-operator-values.yaml
auf AKS zu installieren, wird folgende Fehlermeldung angezeigt:
prometheus-operator "fehlgeschlagen: rpc error: code = Abgebrochen
Ich habe mit der Geschichte nachgesehen:
helm history prometheus-operator -o yaml
- chart: prometheus-operator-6.3.0
description: 'Release "prometheus-operator" failed: rpc error: code = Canceled desc
= grpc: the client connection is closing'
revision: 1
status: FAILED
updated: Tue Jul 30 12:36:52 2019
Diagramm
[Stall / Prometheus-Operator]
Zusätzliche Information
Ich verwende die folgenden Konfigurationen, um ein Diagramm bereitzustellen:
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
In der Wertedatei: createCustomResource
ist auf false
,
Ausgabe von helm version
:
Client: & version.Version {SemVer: "v2.14.3", GitCommit: "0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState: "clean"}
Server: & version.Version {SemVer: "v2.14.3", GitCommit: "0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState: "clean"}
Ausgabe von kubectl version
:
Client-Version: version.Info {Major: "1", Minor: "10", GitVersion: "v1.10.4", GitCommit: "5ca598b4ba5abb89bb773071ce452e33fb66339d", GitTreeState: "clean", BuildDate: "2018-06-06T08: 13: 03Z ", GoVersion:" go1.9.3 ", Compiler:" gc ", Plattform:" windows / amd64 "}
Serverversion: version.Info {Major: "1", Minor: "13", GitVersion: "v1.13.7", GitCommit: "4683545293d792934a7a7e12f2cc47d20b2dd01b", GitTreeState: "clean", BuildDate: "2019-06-06T01: 39: 30Z ", GoVersion:" go1.11.5 ", Compiler:" gc ", Plattform:" linux / amd64 "}
Cloud-Anbieter / Plattform (AKS, GKE, Minikube usw.):
AKS
Wir haben das gleiche Problem bei Minikube, daher scheint es nicht spezifisch für AWS zu sein.
Wir haben das gleiche Problem bei von Kubespray bereitgestellten Clustern.
Ich sehe das Problem auch bei k8s 12.x und 13.x k8s kubespray bereitgestellten Clustern in unserer automatisierten Pipeline - 100% Ausfallrate. Die vorherige Version von prometheus-operator (0.30.1) funktioniert ohne Probleme.
Lustige Dinge sind - wenn ich den Befehl manuell anstatt über die CD-Pipeline ausführe, funktioniert er -, bin ich ein wenig verwirrt, was die Ursache sein würde.
Ich habe gesehen, dass es heute ein Update für Promethus Chart gibt. Ich habe es gestoßen
NAME CHART VERSION APP VERSION
stable/prometheus-operator 6.8.0 0.32.0
und ich sehe das Problem nicht mehr.
@rnkhouse Können Sie mit der neuesten Diagrammversion überprüfen, wie von @ dlevene1 unter https://github.com/helm/helm/issues/6130#issuecomment -526977731 erwähnt?
Ich habe das gleiche Problem mit Version 6.8.1 auf AKS.
NAME CHART VERSION APP VERSION
stable/prometheus-operator 6.8.1 0.32.0
❯ helm version
Client: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
Server: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
❯ helm install -f prd.yaml --name prometheus --namespace monitoring stable/prometheus-operator
Error: release prometheus failed: grpc: the client connection is closing
>>> elapsed time 1m56s
Wir haben das gleiche Problem bei von Kubespray bereitgestellten Clustern.
Kubernete-Version: v1.4.1
Helmversion:
Client: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
Server: &version.Version{SemVer:"v2.14.0", GitCommit:"05811b84a3f93603dd6c2fcfe57944dfa7ab7fd0", GitTreeState:"clean"}
Prometheus-Operator-Version:
NAME CHART VERSION APP VERSION
stable/prometheus-operator 6.8.1 0.32.0
Ich habe das gleiche Problem bei aks.
Kann jemand dieses Problem in Helm 3 reproduzieren oder verbreitet es sich als anderer Fehler? Ich gehe davon aus, dass dies mit dem Entfernen der Pinne kein Problem mehr sein sollte.
@bacongobbler Dies ist immer noch ein Problem in Helm 3.
bash$ helm install r-prometheus-operator stable/prometheus-operator --version 6.8.2 -f prometheus-operator/helm/prometheus-operator.yaml
manifest_sorter.go:179: info: skipping unknown hook: "crd-install"
Error: apiVersion "monitoring.coreos.com/v1" in prometheus-operator/templates/exporters/kube-controller-manager/servicemonitor.yaml is not available
Dies scheint jedoch ein anderes Thema zu sein als das vom OP aufgeworfene.
Beschreibung: 'Release "prometheus-operator" fehlgeschlagen: rpc error: code = Cancelled desc
= grpc: Die Client-Verbindung wird geschlossen. '
Können Sie überprüfen, ob Sie auch die neueste Beta-Version verwenden? Dieser Fehler wurde anscheinend in # 6332 behoben, das in 3.0.0-beta.3 veröffentlicht wurde. Wenn nicht, können Sie eine neue Ausgabe eröffnen?
@bacongobbler Ich verwende den neuesten Helm v3.0.0-beta.3.
Ich musste zu --version 6.7.3 zurückkehren, damit es richtig installiert werden konnte
Unsere Problemumgehung besteht darin, das Prometheus-Operator-Image auf Version 0.31.1 beizubehalten.
helm.log
Dieses Problem trat auch gerade bei der Installation von DockerEE kubernetes auf
Nach einigem Fummeln mit Installationsoptionen --debug und so, bekomme ich jetzt:
Error: release prom failed: context canceled
Bearbeiten: Möglicherweise wird versucht, meine Steuerversionen zu aktualisieren, die sich derzeit in Version 2.12.3 befinden
Edit2: Auf 2.14.3 aktualisiert und immer noch problematisch
grpc: the client connection is closing
Edit3: Installierte Version 6.7.3 gemäß den obigen Vorschlägen, um die Dinge wieder in Gang zu bringen
Edit4: Angefügtes Pinnenprotokoll für eine fehlgeschlagene Installation als helm.log
Verwandte: https://github.com/helm/charts/issues/15977
Nach einigem Graben mit @ cyp3d scheint das Problem durch ein Zeitlimit für das Löschen des Helms verursacht zu werden, das für einige Cluster zu kurz ist. Ich kann das Problem nirgendwo reproduzieren. Wenn also jemand, bei dem dies auftritt, eine mögliche Korrektur im Zweig für verknüpfte Pull-Anforderungen validieren könnte, wäre ich Ihnen sehr dankbar!
Gleiches gilt hier für mehrere Cluster, die mit Kops in AWS erstellt wurden.
Keine Probleme beim Ausführen auf K3S.
@xvzf
Könnten Sie die mögliche Lösung in dieser PR ausprobieren? https://github.com/helm/charts/pull/17090
Ich habe der PR einen Durchlauf gegeben und immer noch das gleiche Error: release prom failed: context canceled
tiller.log
@vsliouniaev Nein, behebt das Problem hier nicht
Vielen Dank, dass Sie @xvzf und @pyadminn überprüft haben. Ich habe eine weitere Änderung in derselben PR vorgenommen. Könnten Sie sehen, ob dies hilft?
Wir haben gerade die aktualisierte PR überprüft und sehen in unserer Infra immer noch Folgendes: Error: release prom failed: rpc error: code = Canceled desc = grpc: the client connection is closing
Zu Ihrer Information, wir sind auf Kuber 1.14.3
Helm vers v2.14.3
Ich konnte dieses Problem umgehen, indem ich dem Abschnitt "Helm kann keine CRDs erstellen" in readme.md folgte. Ich bin nicht sicher, wie sie zusammenhängen, aber es hat funktioniert.
Schritt 1: Erstellen Sie das CRDS manuell
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml
Schritt 2:
Warten Sie, bis CRDs erstellt wurden. Dies sollte nur einige Sekunden dauern
Schritt 3:
Installieren Sie das Diagramm, deaktivieren Sie jedoch die CRD-Bereitstellung, indem Sie prometheusOperator.createCustomResource = false festlegen
$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false
@vsliouniaev Immer noch das gleiche Problem! Obwohl die Problemumgehung von lethalwire funktioniert.
Die tödliche Problemumgehung hat mich ebenfalls gelöst.
Also 4 Tage pro Teil funktionierte die Problemumgehung und hörte auf zu arbeiten. Ich musste die CRDs-Datei von 0.32.0
not master verwenden.
Ich habe gerade das gleiche Problem mit den CRDs erlebt, die derzeit auf Master sind. Vielen Dank an @Typositoire für Ihren Vorschlag, die aktuell vorherige Version zu verwenden. Das Anpassen der CRD-Installation an Folgendes hat bei mir funktioniert:
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/podmonitor.crd.yaml
Aus diesem Grund ist das Korrigieren der Version häufig eine gute Vorgehensweise.
Hatte auch dieses Problem, versuche admissionWebhooks
zu deaktivieren. Es hat in meinem Fall geholfen.
Installieren Sie prometheus-operator chart 6.0.0 und führen Sie ein Helm-Upgrade durch --force --version 6.11.0. Dies scheint auf Rancher Kubernetes 1.13.10 und Helm v2.14.3 zu funktionieren
Die von @Typositoire vorgeschlagene
Das gleiche Problem hier beim Versuch, auf Azure AKS mit kubernetes 1.13.10 und helm v2.14.3 mit prometheus-operator-6.18.0 zu installieren. Irgendein Vorschlag?
CRD manuell installiert.
Dieser Befehl ist fehlgeschlagen:
helm install --name prometheus-operator stable/prometheus-operator --namespace=monitoring --set prometheusOperator.createCustomResource=false
Gib den Fehler
Fehler: Release Prometheus-Operator fehlgeschlagen: RPC-Fehler: Code = Abgebrochen desc = grpc: Die Client-Verbindung wird geschlossen
BEARBEITEN: Die Installation der Version 6.11.0 (sowie der Version 6.7.3) des Diagramms funktioniert:
helm install --name prometheus-operator stable/prometheus-operator --namespace=monitoring --set prometheusOperator.createCustomResource=false --version 6.11.0
Versuchen Sie, den Web-Hook des Admissions Controllers zu deaktivieren?
https://waynekhan.net/2019/10/09/prometheus-operator-release-failed.html
Am 15. Oktober 2019, um 19:32 Uhr, schrieb iMacX [email protected] :
.
Das gleiche Problem hier beim Versuch, auf Azure AKS mit kubernetes 1.13.10 und helm v2.14.3 mit prometheus-operator-6.18.0 zu installieren. Irgendein Vorschlag?- -
Sie erhalten dies, weil Sie diesen Thread abonniert haben.
Antworten Sie direkt auf diese E-Mail, zeigen Sie sie auf GitHub an oder melden Sie sich ab.
Ich kämpfte mit dem gleichen Problem, ich musste die von @JBosom angegebenen crds manuell installieren und mit deaktiviertem Web-Hook installieren.
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/podmonitor.crd.yaml
helm --tls --tiller-namespace=tiller install --namespace=monitoring --name prom-mfcloud stable/prometheus-operator --set prometheusOperator.createCustomResource=false --set prometheusOperator.admissionWebhooks.enabled=false --values values.yaml --versi
on 6.18.0
Ich habe den gleichen Fehler beim Versuch erhalten, v8.0.0
auf dem lokalen K8S-Cluster von Docker for Desktop mit dem Helm v2.14.3
zu installieren. Konnte erst installiert werden, nachdem zuerst CRDs erstellt wurden, wie von @lethalwire vorgeschlagen
Ich denke, wir haben hier genug Fälle, um festzustellen, dass dies ein spezifisches Problem mit der Prometheus-Operator-Tabelle ist.
Ich werde dies als etwas schließen, auf das wir keine umsetzbare Antwort haben, aber bitte zögern Sie nicht, das Gespräch am Laufen zu halten.
Es tut mir leid für die Beschimpfung, aber ich erhalte diesen Fehler nicht mehr, nachdem ich auf das neueste Ruder v2.15.2
aktualisiert habe. 👍
Es scheint ziemlich seltsam, dass Helm keine Informationen darüber zur Verfügung stellt, was passiert.
Es werden hier keine Debug-Protokolle veröffentlicht oder angefordert, und die Leute stellen das Umlegen von Schaltern wieder her und prüfen, ob dies hilfreich ist.
Was bedeutet der Fehler eigentlich? Ist es ein Indikator für einen Deadlock mit Wartezeiten? Gibt es andere Aktionen, die ausgeführt werden können, als nur ein kollektives Achselzucken?
Ja. Der ursprüngliche Fehler scheint ein Deadlock zu sein, der darauf wartet, dass der Zulassungs-Web-Hook abgeschlossen ist, da durch Deaktivieren des Web-Hooks das Diagramm problemlos installiert werden kann. Ein Blick auf Tillers Protokolle sollte das Problem bestätigen.
Helm 3 sollte den korrekten Fehler an den Benutzer zurückmelden, da das Mix-Timeout keine gRPC-Schicht enthält und die Anforderung von einem Timeout abgebrochen wird.
Fühlen Sie sich frei, Patches für Helm 2 bereitzustellen. Da dies für Helm 3 verbessert wurde, habe ich dies geschlossen, wie in neueren Versionen behoben.
Hoffe das hilft.
Der ursprüngliche Fehler scheint ein Deadlock zu sein, der darauf wartet, dass der Zulassungs-Web-Hook abgeschlossen ist, da durch Deaktivieren des Web-Hooks das Diagramm problemlos installiert werden kann.
Dies scheint als Schlussfolgerung ziemlich seltsam, da die Lösung darin besteht, entweder den Job zu deaktivieren oder die Installation der CRD-Hooks zu deaktivieren. Beide scheinen das Problem zu lösen, so dass es kein Problem speziell für den Job zu sein scheint.
Für alle anderen, die auf dieses Problem stoßen - können Sie bitte die Ausgabe von kubectl describe job
bereitstellen, damit wir herausfinden können, welche Jobs fehlschlagen? Ich habe schon früher darum gebeten, aber alle scheinen darauf hinzuweisen, dass keine Jobs vorhanden sind.
Pinne liest wie folgt:
[kube] 2019/11/15 14:35:46 get relation pod of object: monitoring/PrometheusRule/prometheus-operator-node-time
[kube] 2019/11/15 14:35:46 Doing get for PrometheusRule: "prometheus-operator-kubernetes-apps"
[ A lot of unrelated updates in between... ]
2019/11/15 14:36:38 Cannot patch PrometheusRule: "prometheus-operator-kubernetes-apps" (rpc error: code = Canceled desc = grpc: the client connection is closing)
2019/11/15 14:36:38 Use --force to force recreation of the resource
[kube] 2019/11/15 14:36:38 error updating the resource "prometheus-operator-kubernetes-apps":
rpc error: code = Canceled desc = grpc: the client connection is closing
[tiller] 2019/11/15 14:36:38 warning: Upgrade "prometheus-operator" failed: rpc error: code = Canceled desc = grpc: the client connection is closing
[storage] 2019/11/15 14:36:38 updating release "prometheus-operator.v94"
[storage] 2019/11/15 14:36:38 updating release "prometheus-operator.v95"
[ then rollback... ]
Also musste ich diese Ressource manuell löschen. Ein Apiserver verfügt möglicherweise über weitere Informationen (es scheint, als ob er tatsächlich mit dem Zulassungscontroller zusammenhängt).
@desaintmartin Das sieht so aus, als ob es für Sie eher bei einem Upgrade als bei einer Installation passiert, oder?
Da Helm 3.0 jetzt GA ist und das Diagramm dafür funktioniert, melden Sie bitte, ob dies dort möglich ist und ob Sie bessere Protokolle erhalten
Ich bin auf Helm3 und erhalte immer noch diesen Fehler auf Azure AKS :(
Ich habe es mit Chart v8.2.4 versucht: Wenn prometheusOperator.admissionWebhooks=false
, prometheus.tlsProxy.enabled=false
auch.
Und wie sagen vsliouniaev, was sagen --debug
und --dry-run
?
@ truealex81 Da helm3 weitere Informationen dazu geben soll, können Sie bitte ausführliche Protokolle aus dem Installationsprozess veröffentlichen?
Ich erhalte das gleiche Problem bei der Bereitstellung von 8.2.4 unter Azure AKS.
Helm Version:
version.BuildInfo{Version:"v3.0.0", GitCommit:"e29ce2a54e96cd02ccfce88bee4f58bb6e2a28b6", GitTreeState:"clean", GoVersion:"go1.13.4"}
Helm --debug erzeugt diese Ausgabe:
install.go:148: [debug] Original chart version: ""
install.go:165: [debug] CHART PATH: /root/.cache/helm/repository/prometheus-operator-8.2.4.tgz
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
install.go:139: [debug] Clearing discovery cache
wait.go:51: [debug] beginning wait for 5 resources with timeout of 1m0s
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:245: [debug] jobs.batch "prometheus-operator-admission-create" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prometheus-operator-admission-create with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:484: [debug] prometheus-operator-admission-create: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:87: [debug] creating 120 resource(s)
Error: context canceled
Ich kann das zuverlässig reproduzieren. Wenn es eine Möglichkeit gibt, ausführlichere Protokolle zu erhalten, lassen Sie es mich bitte wissen und ich poste die Ausgabe hier
@ pather87 vielen dank!
Hier ist die Reihenfolge der Vorgänge in der Tabelle:
Könnten Sie bitte überprüfen, ob noch fehlerhafte Jobs vorhanden sind? Aus den Protokollen geht hervor, dass Sie es nicht sollten, weil sie alle erfolgreich waren.
Sind nach dem Error: context canceled
weitere Ressourcen im Cluster vorhanden?
Gleiches hier bei der Installation von prometheus-operator:
helm install prometheus-operator stable/prometheus-operator \
--namespace=monitoring \
--values=values.yaml
Error: rpc error: code = Canceled desc = grpc: the client connection is closing
@vsliouniaev danke für deine Antwort!
kubectl get all -lrelease = prometheus-operator
NAME READY STATUS RESTARTS AGE
pod/prometheus-operator-grafana-59d489899-4b5kd 2/2 Running 0 3m56s
pod/prometheus-operator-operator-8549bcd687-4kb2x 2/2 Running 0 3m56s
pod/prometheus-operator-prometheus-node-exporter-4km6x 1/1 Running 0 3m56s
pod/prometheus-operator-prometheus-node-exporter-7dgn6 1/1 Running 0 3m56s
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service/prometheus-operator-alertmanager ClusterIP xxx <none> 9093/TCP 3m57s
service/prometheus-operator-grafana ClusterIP xxx <none> 80/TCP 3m57s
service/prometheus-operator-operator ClusterIP xxx <none> 8080/TCP,443/TCP 3m57s
service/prometheus-operator-prometheus ClusterIP xxx <none> 9090/TCP 3m57s
service/prometheus-operator-prometheus-node-exporter ClusterIP xxx <none> 9100/TCP 3m57s
NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE
daemonset.apps/prometheus-operator-prometheus-node-exporter 2 2 2 2 2 <none> 3m57s
NAME READY UP-TO-DATE AVAILABLE AGE
deployment.apps/prometheus-operator-grafana 1/1 1 1 3m57s
deployment.apps/prometheus-operator-operator 1/1 1 1 3m57s
NAME DESIRED CURRENT READY AGE
replicaset.apps/prometheus-operator-grafana-59d489899 1 1 1 3m57s
replicaset.apps/prometheus-operator-operator-8549bcd687 1 1 1 3m57s
NAME READY AGE
statefulset.apps/alertmanager-prometheus-operator-alertmanager 1/1 3m44s
statefulset.apps/prometheus-prometheus-operator-prometheus 1/1 3m34s
Installation mit Debug :
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD alertmanagers.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD podmonitors.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD prometheuses.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD prometheusrules.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD servicemonitors.monitoring.coreos.com is already present. Skipping.
install.go:139: [debug] Clearing discovery cache
wait.go:51: [debug] beginning wait for 0 resources with timeout of 1m0s
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:245: [debug] jobs.batch "prometheus-operator-admission-create" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prometheus-operator-admission-create with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:484: [debug] prometheus-operator-admission-create: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:87: [debug] creating 122 resource(s)
Error: context canceled
helm.go:76: [debug] context canceled
Danach führe ich aus: kubectl get all -lrelease=prometheus-operator -A
NAMESPACE NAME READY STATUS RESTARTS AGE
monitoring pod/prometheus-operator-grafana-d6676b794-r6cg9 2/2 Running 0 2m45s
monitoring pod/prometheus-operator-operator-6584f4b5f5-wdkrx 2/2 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-2g4tg 1/1 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-798p5 1/1 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-pvk5t 1/1 Running 0 2m45s
monitoring pod/prometheus-operator-prometheus-node-exporter-r9j2r 1/1 Running 0 2m45s
NAMESPACE NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kube-system service/prometheus-operator-coredns ClusterIP None <none> 9153/TCP 2m46s
kube-system service/prometheus-operator-kube-controller-manager ClusterIP None <none> 10252/TCP 2m46s
kube-system service/prometheus-operator-kube-etcd ClusterIP None <none> 2379/TCP 2m46s
kube-system service/prometheus-operator-kube-proxy ClusterIP None <none> 10249/TCP 2m46s
kube-system service/prometheus-operator-kube-scheduler ClusterIP None <none> 10251/TCP 2m46s
monitoring service/prometheus-operator-alertmanager ClusterIP 10.0.238.102 <none> 9093/TCP 2m46s
monitoring service/prometheus-operator-grafana ClusterIP 10.0.16.19 <none> 80/TCP 2m46s
monitoring service/prometheus-operator-operator ClusterIP 10.0.97.114 <none> 8080/TCP,443/TCP 2m45s
monitoring service/prometheus-operator-prometheus ClusterIP 10.0.57.153 <none> 9090/TCP 2m46s
monitoring service/prometheus-operator-prometheus-node-exporter ClusterIP 10.0.83.30 <none> 9100/TCP 2m46s
NAMESPACE NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE
monitoring daemonset.apps/prometheus-operator-prometheus-node-exporter 4 4 4 4 4 <none> 2m46s
NAMESPACE NAME READY UP-TO-DATE AVAILABLE AGE
monitoring deployment.apps/prometheus-operator-grafana 1/1 1 1 2m46s
monitoring deployment.apps/prometheus-operator-operator 1/1 1 1 2m46s
NAMESPACE NAME DESIRED CURRENT READY AGE
monitoring replicaset.apps/prometheus-operator-grafana-d6676b794 1 1 1 2m46s
monitoring replicaset.apps/prometheus-operator-operator-6584f4b5f5 1 1 1 2m46s
NAMESPACE NAME READY AGE
monitoring statefulset.apps/alertmanager-prometheus-operator-alertmanager 1/1 2m40s
monitoring statefulset.apps/prometheus-prometheus-operator-prometheus 1/1 2m30s
Was ich auch entdeckt habe, als ich versucht habe, dies zu umgehen: Das Problem bleibt bestehen, wenn ich das Diagramm und die CRDs anschließend lösche und das Diagramm erneut installiere, aber das Problem bleibt nicht bestehen, wenn ich die crds nicht lösche.
Ich habe die crds vorher ausprobiert und installiert und mache ein helm install --skip-crds
, aber das Problem bleibt weiterhin bestehen. Das ist etwas verwirrend.
Die nächste Protokollzeile, die ich danach erwarten würde, handelt von Hooks nach der Installation und nach dem Upgrade, wird jedoch in Ihrem Fall nicht angezeigt. Ich bin mir nicht sicher, worauf das Ruder hier wartet
...
lient.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission-patch" Job
client.go:245: [debug] jobs.batch "prom-op-prometheus-operato-admission-patch" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prom-op-prometheus-operato-admission-patch with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prom-op-prometheus-operato-admission-patch: MODIFIED
client.go:484: [debug] prom-op-prometheus-operato-admission-patch: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prom-op-prometheus-operato-admission-patch: MODIFIED
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" RoleBinding
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" Role
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRole
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission-patch" Job
Die manuelle Erstellung von CRDs hilft zumindest in Azure.
Erstellen Sie zunächst crds über diesen Link https://github.com/coreos/prometheus-operator/tree/release-0.34/example/prometheus-operator-crd
"kubectl create -f alertmanager.crd.yaml" usw. für alle Dateien
Dann
helm install prometheus-operator stabil / prometheus-operator --Namespace-Überwachung --version 8.2.4 --set prometheusOperator.createCustomResource = false
Danke @ truealex81 ! Das funktioniert unter Azure.
myenv:
k8s 1.11.2 Ruder 2.13.1 Pinne 2.13.1
prometheus-operator-5.5 APP VERSION 0.29 ist OK !!!
aber:
prometheus-operator-8 APP VERSION 0.32 hat das gleiche Problem:
"Kontext abgebrochen" oder "grpc: Die Client-Verbindung wird geschlossen" !!!
Ich denke, die neueste Version von Prometheus-Operator ist nicht kompatibel? !!!
@bierhov können Sie bitte die Ressourcen nach einem Fehler im Namespace veröffentlichen?
Ja!
Shell ausführen "helm ls" Ich kann sehen, dass mein Prometheus-Operator-Release-Status "fehlgeschlagen" ist, aber der Namespace, in dem Prometheus-Operator installiert ist, hat alle Prometheus-Operator-Ressourcen
aber,
promethues web kann keine daten bekommen!
Können Sie bitte die Ressourcen posten?
Können Sie bitte die Ressourcen posten?
Entschuldigung, ich kann nicht wieder auftauchen, es sei denn, ich entferne meine stabile Helmumgebung und mache es erneut!
@bierhov Haben Sie nach der Installation noch fehlgeschlagene Jobs?
@bierhov Haben Sie nach der Installation noch fehlgeschlagene Jobs?
meine k8s version ist 1.11.2 helm eine pinnenversion ist 2.13.1
wenn ich prometheus-operator version 8.x installiere
Shell Exec-Befehl "helm ls", der Jobstatus ist fehlgeschlagen
aber ich installiere prometheus-operator version 5.x.
Shell Exec Befehl "helm ls", der Jobstatus wird bereitgestellt !!!
Nicht reproduzierbar mit:
Kubernetes-Version: v1.13.12"
Kubectl-Version: v1.16.2
Helmversion: 3.0.1
Prometheus-Operator-Version: 8.3.3
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/podmonitor.crd.yaml
--set prometheusOperator.createCustomResource=false
prometheusOperator: createCustomResource: false
@GramozKrasniqi
Was ist, wenn Sie CRDs nicht manuell erstellen? Dies ist eine der Problemumgehungen für das Problem
@vsliouniaev Wenn Sie sie nicht erstellen, erhalten Sie den Fehler.
In der ursprünglichen Ausgabe in Additional Info gab @rnkhouse jedoch an, dass er die CRDs manuell erstellt.
Wir verwenden prometheus-operator in unserer Bereitstellung. Kurz gesagt, wir haben prom-op von 6.9.3 auf 8.3.3 aktualisiert und sind immer mit "Fehler: Kontext abgebrochen" fehlgeschlagen.
Außerdem installieren wir immer crds vor der Installation / Aktualisierung von prometheus-operator, und ofc haben wir diese crd-s nicht geändert oder aktualisiert.
Ich versuche, crds zu aktualisieren, die in 'github.com/helm/charts/tree/master/stable/prometheus-operator' erwähnt werden (wie dieses kubectl gilt -f https://raw.githubusercontent.com/coreos/prometheus-operator) /master/example/prometheus-operator-crd/alertmanager.crd.yaml), aber diese existieren nicht mehr.
Danach versuche ich diese von hier aus: https://github.com/helm/charts/tree/master/stable/prometheus-operator/crds
Aber es ist wieder gescheitert.
Ich hätte fast aufgegeben, aber mit diesen crds war der Helmeinsatz erfolgreich! yeyyyy
https://github.com/coreos/kube-prometheus/tree/master/manifests/setup
Mein Setup:
Kubernetes-Version: v1.14.3
Kubectl-Version: v1.14.2
Helmversion: 2.14.3
Prometheus-Operator-Version: 8.3.3
Prometheus-Operator von k8s entfernen!
Dann:
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0alertmanagerCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0podmonitorCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0prometheusCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0prometheusruleCustomResourceDefinition.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0servicemonitorCustomResourceDefinition.yaml
helm upgrade -i prom-op \
--version 8.3.3 \
--set prometheusOperator.createCustomResource=false \
stable/prometheus-operator
Das ist alles !
Bedeutet dies, dass eine Neuinstallation erforderlich ist und historische Metrikdaten verloren gehen?
Nach dem Aufrüsten von AKS k8s auf 1.15.5, Ruder auf 3.0.1 und Prometheus-Operator-Diagramm auf 8.3.3 ist das Problem behoben.
Unsere Problemumgehung besteht darin, das Prometheus-Operator-Image auf Version 0.31.1 beizubehalten.
arbeitete auch für mich an AKS v1.14.8
und Helm + Pinne v2.16.1
und änderte das Bedienerbild in v0.31.1
Die manuelle Erstellung von CRDs hilft zumindest in Azure.
Erstellen Sie zunächst crds über diesen Link https://github.com/coreos/prometheus-operator/tree/release-0.34/example/prometheus-operator-crd
"kubectl create -f alertmanager.crd.yaml" usw. für alle Dateien
Dann
helm install prometheus-operator stabil / prometheus-operator --Namespace-Überwachung --version 8.2.4 --set prometheusOperator.createCustomResource = false
in azurblau funktioniert kubernetes, danke
Ich konnte dieses Problem umgehen, indem ich dem Abschnitt "Helm kann keine CRDs erstellen" in readme.md folgte. Ich bin nicht sicher, wie sie zusammenhängen, aber es hat funktioniert.
Schritt 1: Erstellen Sie das CRDS manuell
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml
Schritt 2:
Warten Sie, bis CRDs erstellt wurden. Dies sollte nur einige Sekunden dauernSchritt 3:
Installieren Sie das Diagramm, deaktivieren Sie jedoch die CRD-Bereitstellung, indem Sie prometheusOperator.createCustomResource = false festlegen$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false
Danke, das hat bei mir mit AKS Cluster funktioniert. musste die URL für die CRDs ändern.
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_alertmanagers.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_podmonitors.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_prometheuses.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_prometheusrules.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_servicemonitors.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_thanosrulers.yaml --validate = false
helm installstable / prometheus-operator --name prometheus-operator --Namespace-Überwachung --set prometheusOperator.createCustomResource = false
Schließen. Laut den letzten drei Kommentatoren scheint dies inzwischen behoben worden zu sein. Vielen Dank!
Hilfreichster Kommentar
Ich konnte dieses Problem umgehen, indem ich dem Abschnitt "Helm kann keine CRDs erstellen" in readme.md folgte. Ich bin nicht sicher, wie sie zusammenhängen, aber es hat funktioniert.
Schritt 1: Erstellen Sie das CRDS manuell
Schritt 2:
Warten Sie, bis CRDs erstellt wurden. Dies sollte nur einige Sekunden dauern
Schritt 3:
Installieren Sie das Diagramm, deaktivieren Sie jedoch die CRD-Bereitstellung, indem Sie prometheusOperator.createCustomResource = false festlegen