Helm: Rilis "prometheus-operator" gagal: kesalahan rpc: code = Dibatalkan

Dibuat pada 31 Jul 2019  ·  71Komentar  ·  Sumber: helm/helm

Jelaskan bugnya
Ketika saya mencoba menginstal operator prometheus di AKS dengan helm install stable/prometheus-operator --name prometheus-operator -f prometheus-operator-values.yaml saya mendapatkan kesalahan ini:

prometheus-operator "gagal: rpc error: code = Dibatalkan

Saya memeriksa dengan sejarah:

helm history prometheus-operator -o yaml
- chart: prometheus-operator-6.3.0
  description: 'Release "prometheus-operator" failed: rpc error: code = Canceled desc
    = grpc: the client connection is closing'
  revision: 1
  status: FAILED
  updated: Tue Jul 30 12:36:52 2019

Grafik
[stabil / prometheus-operator]

Informasi tambahan
Saya menggunakan konfigurasi di bawah ini untuk menerapkan grafik:

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
 kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml

Dalam file nilai: createCustomResource disetel ke false ,

Output dari helm version :
Klien: & version.Version {SemVer: "v2.14.3", GitCommit: "0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState: "clean"}
Server: & version.Version {SemVer: "v2.14.3", GitCommit: "0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState: "clean"}

Output dari kubectl version :
Versi Klien: version.Info {Major: "1", Minor: "10", GitVersion: "v1.10.4", GitCommit: "5ca598b4ba5abb89bb773071ce452e33fb66339d", GitTreeState: "clean", BuildDate: "2018-06-06T08: 13: 03Z ", GoVersion:" go1.9.3 ", Penyusun:" gc ", Platform:" windows / amd64 "}
Versi Server: version.Info {Mayor: "1", Minor: "13", GitVersion: "v1.13.7", GitCommit: "4683545293d792934a7a7e12f2cc47d20b2dd01b", GitTreeState: "clean", BuildDate: "2019-06-06T01: 39: 30Z ", GoVersion:" go1.11.5 ", Penyusun:" gc ", Platform:" linux / amd64 "}

Penyedia / Platform Cloud (AKS, GKE, Minikube, dll.):
AKS

questiosupport

Komentar yang paling membantu

Saya dapat mengatasi masalah ini dengan mengikuti bagian 'Helm gagal membuat CRD' di readme.md. Saya tidak yakin bagaimana mereka terkait, tetapi berhasil.

Langkah 1: Buat CRDS secara manual

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml

Langkah 2:
Tunggu hingga CRD dibuat, yang hanya membutuhkan waktu beberapa detik

Langkah 3:
Instal diagram, tetapi nonaktifkan penyediaan CRD dengan menyetel prometheusOperator.createCustomResource = false

$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false

Semua 71 komentar

Kami memiliki masalah yang sama di minikube sehingga tampaknya tidak spesifik untuk AWS.

Kami memiliki masalah yang sama pada cluster kubespray-deployed.

Saya juga melihat masalah pada cluster k8s 12.x dan 13.x k8s kubespray yang di-deploy di pipeline otomatis kami - tingkat kegagalan 100%. Versi sebelumnya dari prometheus-operator (0.30.1) berfungsi tanpa masalah.
Lucunya - jika saya menjalankan perintah secara manual daripada melalui pipeline CD, itu berfungsi - jadi saya agak bingung apa penyebabnya.

Melihat ada pembaruan untuk grafik promethus hari ini. Aku menabraknya

NAME                            CHART VERSION   APP VERSION
stable/prometheus-operator      6.8.0           0.32.0     

dan saya tidak lagi melihat masalahnya.

@rnkhouse Dapatkah Anda memeriksa versi grafik terbaru seperti yang disebutkan oleh @ dlevene1 di https://github.com/helm/helm/issues/6130#issuecomment -526977731?

Saya memiliki masalah yang sama dengan versi 6.8.1 di AKS.

NAME                        CHART VERSION   APP VERSION
stable/prometheus-operator  6.8.1           0.32.0
❯ helm version 
Client: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
Server: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
 ❯ helm install -f prd.yaml --name prometheus --namespace monitoring stable/prometheus-operator 
Error: release prometheus failed: grpc: the client connection is closing
>>> elapsed time 1m56s

Kami memiliki masalah yang sama pada cluster kubespray-deployed.

Versi Kubernete: v1.4.1
Versi helm:

Client: &version.Version{SemVer:"v2.14.3", GitCommit:"0e7f3b6637f7af8fcfddb3d2941fcc7cbebb0085", GitTreeState:"clean"}
Server: &version.Version{SemVer:"v2.14.0", GitCommit:"05811b84a3f93603dd6c2fcfe57944dfa7ab7fd0", GitTreeState:"clean"}

Versi operator-Prometheus:

NAME                            CHART VERSION   APP VERSION
stable/prometheus-operator      6.8.1           0.32.0  

Saya memiliki masalah yang sama di aks.

Adakah yang bisa mereproduksi masalah ini di Helm 3, atau apakah itu menyebar sebagai kesalahan yang berbeda? Asumsi saya adalah dengan mencabut anakan seharusnya hal ini tidak lagi menjadi masalah.

@bacongobbler Ini masih menjadi masalah di Helm 3.

bash$ helm install r-prometheus-operator stable/prometheus-operator --version 6.8.2 -f prometheus-operator/helm/prometheus-operator.yaml

manifest_sorter.go:179: info: skipping unknown hook: "crd-install"
Error: apiVersion "monitoring.coreos.com/v1" in prometheus-operator/templates/exporters/kube-controller-manager/servicemonitor.yaml is not available

Itu tampaknya menjadi masalah yang berbeda dari masalah yang diangkat oleh OP.

deskripsi: 'Rilis "prometheus-operator" gagal: kesalahan rpc: code = Dibatalkan desc
= grpc: koneksi klien ditutup '

Dapatkah Anda memeriksa dan melihat apakah Anda juga menggunakan rilis beta terbaru? Kesalahan itu tampaknya telah diatasi di # 6332 yang dirilis di 3.0.0-beta.3. Jika tidak, bisakah Anda membuka terbitan baru?

@bacongobbler Saya menggunakan Helm v3.0.0-beta.3 terbaru.

Saya harus kembali ke --version 6.7.3 untuk menginstalnya dengan benar

Solusi kami adalah mempertahankan gambar operator prometheus di v0.31.1.

helm.log
Juga baru saja mengalami masalah ini di DockerEE kubernetes install

Setelah beberapa mengutak-atik opsi penginstalan --debug dan semacamnya, sekarang saya mendapatkan:

Error: release prom failed: context canceled

Edit: Dapat mencoba memperbarui versi helm saya, saat ini di v2.12.3
Edit2: Diperbarui ke 2.14.3 dan masih bermasalah
grpc: the client connection is closing
Edit3: Menginstal versi 6.7.3 sesuai saran di atas agar semuanya berjalan kembali
Sunting4: Log anakan terlampir untuk instalasi yang gagal sebagai helm.log

terkait: https://github.com/helm/charts/issues/15977

Setelah melakukan penggalian dengan @ cyp3d , tampaknya masalah tersebut dapat disebabkan oleh waktu tunggu penghapusan helm yang terlalu singkat untuk beberapa kluster. Saya tidak dapat mereproduksi masalah di mana pun, jadi jika seseorang yang mengalami ini dapat memvalidasi potensi perbaikan di cabang permintaan penarikan yang ditautkan, saya akan sangat menghargainya!

https://github.com/helm/charts/pull/17090

Sama di sini di beberapa Cluster yang dibuat dengan kops di AWS.
Tidak ada masalah saat menjalankan K3S.

@bayu_joo

Bisakah Anda mencoba perbaikan potensial dalam PR ini? https://github.com/helm/charts/pull/17090

Saya memberikan PR berjalan melalui dan masih sama Error: release prom failed: context canceled
tiller.log

@vsliouniaev Tidak, tidak memperbaiki masalah di sini

Terima kasih telah memeriksa @xvzf dan @pyadminn. Saya telah membuat perubahan lain pada PR yang sama. Bisakah Anda melihat apakah ini membantu?

Baru saja memeriksa PR yang diperbarui masih melihat yang berikut di infra kami: Error: release prom failed: rpc error: code = Canceled desc = grpc: the client connection is closing

FYI kami ada di Kuber 1.14.3
Helm vers v2.14.3

Saya dapat mengatasi masalah ini dengan mengikuti bagian 'Helm gagal membuat CRD' di readme.md. Saya tidak yakin bagaimana mereka terkait, tetapi berhasil.

Langkah 1: Buat CRDS secara manual

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml

Langkah 2:
Tunggu hingga CRD dibuat, yang hanya membutuhkan waktu beberapa detik

Langkah 3:
Instal diagram, tetapi nonaktifkan penyediaan CRD dengan menyetel prometheusOperator.createCustomResource = false

$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false

@vsliouniaev Masih masalah yang sama! Meskipun solusi dari lethalwire berhasil.

Solusi kabel mematikan telah saya selesaikan juga.

Jadi 4 hari bagian solusi bekerja dan berhenti bekerja saya harus menggunakan file CRD dari 0.32.0 bukan master.

Saya baru saja mengalami masalah yang sama dengan CRD yang saat ini ada di master. Terima kasih @Typositoire atas saran Anda untuk menggunakan versi sebelumnya saat ini. Mengadaptasi instalasi CRD ke yang berikut berhasil untuk saya:

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/podmonitor.crd.yaml

Itulah mengapa memperbaiki versi sering kali merupakan praktik yang baik.

Juga mengalami masalah ini, coba nonaktifkan admissionWebhooks . Ini membantu dalam kasus saya.

Instal prometheus-operator chart 6.0.0 dan lakukan peningkatan helm --force --version 6.11.0, ini tampaknya berfungsi pada rancher kubernetes 1.13.10 dan helm v2.14.3

Solusi yang disarankan oleh @Typositoire berfungsi dengan baik untuk saya pada kluster 1.13.10 yang dihasilkan kops.

Masalah yang sama di sini mencoba menginstal di Azure AKS dengan kubernetes 1.13.10 dan helm v2.14.3 dengan prometheus-operator-6.18.0. Ada saran?

CRD diinstal secara manual.

Perintah ini gagal:
helm install --name prometheus-operator stable/prometheus-operator --namespace=monitoring --set prometheusOperator.createCustomResource=false

berikan kesalahan

Kesalahan: rilis prometheus-operator gagal: kesalahan rpc: code = Dibatalkan desc = grpc: koneksi klien ditutup

EDIT: menginstal versi 6.11.0 (serta 6.7.3) bagan berfungsi:

helm install --name prometheus-operator stable/prometheus-operator --namespace=monitoring --set prometheusOperator.createCustomResource=false --version 6.11.0

Coba nonaktifkan web hook pengontrol penerimaan?

https://waynekhan.net/2019/10/09/prometheus-operator-release-failed.html

Pada 15 Okt 2019, pada 19:32, iMacX [email protected] menulis:

</s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> </s> orang </s>
Masalah yang sama di sini mencoba menginstal di Azure AKS dengan kubernetes 1.13.10 dan helm v2.14.3 dengan prometheus-operator-6.18.0. Ada saran?

-
Anda menerima ini karena Anda berlangganan utas ini.
Balas email ini secara langsung, lihat di GitHub, atau berhenti berlangganan.

Saya berjuang untuk masalah yang sama, saya harus menginstal crds yang ditentukan oleh @JBosom secara

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.32/example/prometheus-operator-crd/podmonitor.crd.yaml

helm --tls --tiller-namespace=tiller install --namespace=monitoring --name prom-mfcloud stable/prometheus-operator --set prometheusOperator.createCustomResource=false --set prometheusOperator.admissionWebhooks.enabled=false --values values.yaml --versi on 6.18.0

Saya menerima kesalahan yang sama saat mencoba menginstal v8.0.0 pada cluster K8S lokal oleh Docker untuk Desktop dengan helm v2.14.3 . Dapat menginstal hanya setelah membuat CRD terlebih dahulu seperti yang disarankan oleh @lethalwire

Saya pikir kami memiliki cukup banyak kasus di sini untuk menentukan ini adalah masalah khusus dengan bagan operator prometheus.

Saya akan menutup ini karena kami tidak memiliki respons yang dapat ditindaklanjuti, tetapi jangan ragu untuk menjaga percakapan tetap berjalan.

Saya minta maaf atas kata-kata kasarnya, tetapi saya tidak mendapatkan kesalahan ini lagi setelah memutakhirkan ke helm terbaru v2.15.2 . 👍

Tampaknya cukup aneh bahwa tidak ada informasi yang tersedia dari Helm tentang apa yang terjadi.

Tidak ada log debug yang diposting di sini atau diminta dan orang-orang memulihkan ke flipping switch dan melihat apakah itu membantu.

Apa sebenarnya arti kesalahan itu? Apakah ini merupakan indikator kebuntuan dengan menunggu? Apakah ada tindakan lain yang dapat dilakukan selain hanya mengangkat bahu bersama?

Iya. Kesalahan asli tampaknya menjadi jalan buntu menunggu pengait web masuk selesai, karena menonaktifkan pengait web memungkinkan bagan untuk dipasang tanpa masalah. Melihat log Tiller harus mengonfirmasi masalah.

Helm 3 harus melaporkan kembali kesalahan yang benar kepada pengguna karena tidak ada lapisan gRPC dalam waktu campuran habis dan membatalkan permintaan dari waktu tunggu.

Jangan ragu untuk memberikan tambalan untuk Helm 2. Mengingat bahwa ini telah ditingkatkan untuk Helm 3, saya melanjutkan dan menutup ini sebagaimana diperbaiki pada rilis yang lebih baru.

Semoga ini membantu.

Kesalahan asli tampaknya menjadi jalan buntu menunggu pengait web masuk selesai, karena menonaktifkan pengait web memungkinkan bagan untuk dipasang tanpa masalah.

Ini tampaknya cukup aneh sebagai kesimpulannya, karena solusinya adalah menonaktifkan pekerjaan atau menonaktifkan penginstalan CRD. Keduanya tampaknya menyelesaikan masalah, jadi tampaknya tidak menjadi masalah khusus dengan pekerjaan tersebut.

Kepada orang lain yang mengalami masalah ini - dapatkah Anda memberikan output kubectl describe job sehingga kami dapat mengetahui pekerjaan apa yang gagal? Saya telah meminta ini sebelumnya tetapi semua orang tampaknya menunjukkan bahwa tidak ada pekerjaan yang hadir.

Tiller berbunyi sebagai berikut:

[kube] 2019/11/15 14:35:46 get relation pod of object: monitoring/PrometheusRule/prometheus-operator-node-time
[kube] 2019/11/15 14:35:46 Doing get for PrometheusRule: "prometheus-operator-kubernetes-apps"
[ A lot of unrelated updates in between... ]
2019/11/15 14:36:38 Cannot patch PrometheusRule: "prometheus-operator-kubernetes-apps" (rpc error: code = Canceled desc = grpc: the client connection is closing)
2019/11/15 14:36:38 Use --force to force recreation of the resource
[kube] 2019/11/15 14:36:38 error updating the resource "prometheus-operator-kubernetes-apps":
     rpc error: code = Canceled desc = grpc: the client connection is closing
[tiller] 2019/11/15 14:36:38 warning: Upgrade "prometheus-operator" failed: rpc error: code = Canceled desc = grpc: the client connection is closing
[storage] 2019/11/15 14:36:38 updating release "prometheus-operator.v94"
[storage] 2019/11/15 14:36:38 updating release "prometheus-operator.v95"
[ then rollback... ]

Jadi saya harus menghapus sumber ini secara manual. apiserver mungkin memiliki lebih banyak informasi (sepertinya memang terkait dengan admission controller).

@desaintmartin Sepertinya ini terjadi pada Anda pada peningkatan, bukan pemasangan, bukan?

Karena Helm 3.0 adalah GA sekarang dan bagan berfungsi untuk itu, harap laporkan jika Anda bisa mewujudkannya di sana dan jika Anda mendapatkan log yang lebih baik

Saya menggunakan Helm3 dan masih mendapatkan kesalahan ini di Azure AKS :(

Saya mencoba pada grafik v8.2.4: jika prometheusOperator.admissionWebhooks=false , prometheus.tlsProxy.enabled=false juga.

Juga, seperti yang dikatakan vsliouniaev, apa yang dikatakan --debug dan --dry-run ?

@ truealex81 Karena helm3 dimaksudkan untuk memberikan informasi lebih lanjut tentang ini, dapatkah Anda memposting log verbose dari proses instalasi?

Saya menerima masalah yang sama saat menerapkan 8.2.4 di Azure AKS.

Versi Helm:
version.BuildInfo{Version:"v3.0.0", GitCommit:"e29ce2a54e96cd02ccfce88bee4f58bb6e2a28b6", GitTreeState:"clean", GoVersion:"go1.13.4"}

Helm --debug menghasilkan keluaran ini:

install.go:148: [debug] Original chart version: ""
install.go:165: [debug] CHART PATH: /root/.cache/helm/repository/prometheus-operator-8.2.4.tgz
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
client.go:87: [debug] creating 1 resource(s)
install.go:139: [debug] Clearing discovery cache
wait.go:51: [debug] beginning wait for 5 resources with timeout of 1m0s
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:245: [debug] jobs.batch "prometheus-operator-admission-create" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prometheus-operator-admission-create with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:484: [debug] prometheus-operator-admission-create: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:87: [debug] creating 120 resource(s)
Error: context canceled

Saya dapat mereproduksi ini dengan andal. Jika ada cara untuk mendapatkan lebih banyak log verbose, beri tahu saya dan saya memposting hasilnya di sini

@ pather87 terima kasih banyak!

Berikut urutan dari apa yang seharusnya terjadi di bagan:

  1. CRD disediakan
  2. Ada pekerjaan pra-instal; pra-peningkatan yang menjalankan wadah untuk membuat rahasia dengan sertifikat untuk kait masuk. Pekerjaan ini dan sumber dayanya dibersihkan dari kesuksesan
  3. Semua sumber daya dibuat
  4. Ada pekerjaan pasca-pemasangan; pasca-peningkatan yang menjalankan wadah untuk menambal konfigurasi validationgwebhook yang dibuat dan mutatingwebhookconfiguration dengan CA dari sertifikat yang dibuat di langkah 2. Pekerjaan ini dan sumber dayanya dibersihkan setelah berhasil

Bisakah Anda memeriksa apakah masih ada pekerjaan yang gagal? Dari log terbaca seperti Anda tidak seharusnya karena semuanya berhasil.

Apakah ada sumber daya lain yang ada di kluster setelah Error: context canceled terjadi?

Sama di sini saat menginstal prometheus-operator:

helm install prometheus-operator stable/prometheus-operator \
  --namespace=monitoring \
  --values=values.yaml

Error: rpc error: code = Canceled desc = grpc: the client connection is closing

@vsliouniaev terima kasih atas jawaban Anda!

  1. Tidak ada pekerjaan yang tersedia setelah penerapan.
  2. Deployment dan layanan ada di Cluster setelah penerapan, lihat kubectl output:

kubectl get all -lrelease = prometheus-operator

NAME                                                     READY   STATUS    RESTARTS   AGE
pod/prometheus-operator-grafana-59d489899-4b5kd          2/2     Running   0          3m56s
pod/prometheus-operator-operator-8549bcd687-4kb2x        2/2     Running   0          3m56s
pod/prometheus-operator-prometheus-node-exporter-4km6x   1/1     Running   0          3m56s
pod/prometheus-operator-prometheus-node-exporter-7dgn6   1/1     Running   0          3m56s

NAME                                                   TYPE        CLUSTER-IP     EXTERNAL-IP   PORT(S)            AGE
service/prometheus-operator-alertmanager               ClusterIP   xxx   <none>        9093/TCP           3m57s
service/prometheus-operator-grafana                    ClusterIP   xxx   <none>        80/TCP             3m57s
service/prometheus-operator-operator                   ClusterIP   xxx     <none>        8080/TCP,443/TCP   3m57s
service/prometheus-operator-prometheus                 ClusterIP   xxx   <none>        9090/TCP           3m57s
service/prometheus-operator-prometheus-node-exporter   ClusterIP   xxx    <none>        9100/TCP           3m57s

NAME                                                          DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
daemonset.apps/prometheus-operator-prometheus-node-exporter   2         2         2       2            2           <none>          3m57s

NAME                                           READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/prometheus-operator-grafana    1/1     1            1           3m57s
deployment.apps/prometheus-operator-operator   1/1     1            1           3m57s

NAME                                                      DESIRED   CURRENT   READY   AGE
replicaset.apps/prometheus-operator-grafana-59d489899     1         1         1       3m57s
replicaset.apps/prometheus-operator-operator-8549bcd687   1         1         1       3m57s

NAME                                                             READY   AGE
statefulset.apps/alertmanager-prometheus-operator-alertmanager   1/1     3m44s
statefulset.apps/prometheus-prometheus-operator-prometheus       1/1     3m34s

Instalasi dengan debug :

client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD alertmanagers.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD podmonitors.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD prometheuses.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD prometheusrules.monitoring.coreos.com is already present. Skipping.
client.go:87: [debug] creating 1 resource(s)
install.go:126: [debug] CRD servicemonitors.monitoring.coreos.com is already present. Skipping.
install.go:139: [debug] Clearing discovery cache
wait.go:51: [debug] beginning wait for 0 resources with timeout of 1m0s
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prometheus-operator-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:245: [debug] jobs.batch "prometheus-operator-admission-create" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prometheus-operator-admission-create with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:484: [debug] prometheus-operator-admission-create: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prometheus-operator-admission-create: MODIFIED
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" RoleBinding
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ClusterRole
client.go:220: [debug] Starting delete for "prometheus-operator-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prometheus-operator-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prometheus-operator-admission" Role
client.go:220: [debug] Starting delete for "prometheus-operator-admission-create" Job
client.go:87: [debug] creating 122 resource(s)
Error: context canceled
helm.go:76: [debug] context canceled

Setelah itu, barulah saya mengeksekusi: kubectl get all -lrelease=prometheus-operator -A

NAMESPACE    NAME                                                     READY   STATUS    RESTARTS   AGE
monitoring   pod/prometheus-operator-grafana-d6676b794-r6cg9          2/2     Running   0          2m45s
monitoring   pod/prometheus-operator-operator-6584f4b5f5-wdkrx        2/2     Running   0          2m45s
monitoring   pod/prometheus-operator-prometheus-node-exporter-2g4tg   1/1     Running   0          2m45s
monitoring   pod/prometheus-operator-prometheus-node-exporter-798p5   1/1     Running   0          2m45s
monitoring   pod/prometheus-operator-prometheus-node-exporter-pvk5t   1/1     Running   0          2m45s
monitoring   pod/prometheus-operator-prometheus-node-exporter-r9j2r   1/1     Running   0          2m45s

NAMESPACE     NAME                                                   TYPE        CLUSTER-IP     EXTERNAL-IP   PORT(S)            AGE
kube-system   service/prometheus-operator-coredns                    ClusterIP   None           <none>        9153/TCP           2m46s
kube-system   service/prometheus-operator-kube-controller-manager    ClusterIP   None           <none>        10252/TCP          2m46s
kube-system   service/prometheus-operator-kube-etcd                  ClusterIP   None           <none>        2379/TCP           2m46s
kube-system   service/prometheus-operator-kube-proxy                 ClusterIP   None           <none>        10249/TCP          2m46s
kube-system   service/prometheus-operator-kube-scheduler             ClusterIP   None           <none>        10251/TCP          2m46s
monitoring    service/prometheus-operator-alertmanager               ClusterIP   10.0.238.102   <none>        9093/TCP           2m46s
monitoring    service/prometheus-operator-grafana                    ClusterIP   10.0.16.19     <none>        80/TCP             2m46s
monitoring    service/prometheus-operator-operator                   ClusterIP   10.0.97.114    <none>        8080/TCP,443/TCP   2m45s
monitoring    service/prometheus-operator-prometheus                 ClusterIP   10.0.57.153    <none>        9090/TCP           2m46s
monitoring    service/prometheus-operator-prometheus-node-exporter   ClusterIP   10.0.83.30     <none>        9100/TCP           2m46s

NAMESPACE    NAME                                                          DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
monitoring   daemonset.apps/prometheus-operator-prometheus-node-exporter   4         4         4       4            4           <none>          2m46s

NAMESPACE    NAME                                           READY   UP-TO-DATE   AVAILABLE   AGE
monitoring   deployment.apps/prometheus-operator-grafana    1/1     1            1           2m46s
monitoring   deployment.apps/prometheus-operator-operator   1/1     1            1           2m46s

NAMESPACE    NAME                                                      DESIRED   CURRENT   READY   AGE
monitoring   replicaset.apps/prometheus-operator-grafana-d6676b794     1         1         1       2m46s
monitoring   replicaset.apps/prometheus-operator-operator-6584f4b5f5   1         1         1       2m46s

NAMESPACE    NAME                                                             READY   AGE
monitoring   statefulset.apps/alertmanager-prometheus-operator-alertmanager   1/1     2m40s
monitoring   statefulset.apps/prometheus-prometheus-operator-prometheus       1/1     2m30s

Apa yang saya juga temukan dengan mencoba untuk mengatasi ini: Masalah tetap ada, jika saya menghapus grafik dan CRD sesudahnya dan menginstal grafik lagi, tetapi masalah tidak berlanjut, jika saya tidak menghapus crds.

Saya mencoba dan menginstal crds sebelumnya, dan melakukan helm install --skip-crds , tetapi masalah tetap ada. Ini agak membingungkan.

Baris log berikutnya yang saya harapkan setelah ini adalah tentang kait pasca-pemasangan, pasca-peningkatan, tetapi tidak muncul dalam kasus Anda. Saya tidak yakin helm apa yang menunggu di sini

...
lient.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" RoleBinding
client.go:245: [debug] rolebindings.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" Role
client.go:245: [debug] roles.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRole
client.go:245: [debug] clusterroles.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ServiceAccount
client.go:245: [debug] serviceaccounts "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRoleBinding
client.go:245: [debug] clusterrolebindings.rbac.authorization.k8s.io "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" PodSecurityPolicy
client.go:245: [debug] podsecuritypolicies.policy "prom-op-prometheus-operato-admission" not found
client.go:87: [debug] creating 1 resource(s)
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission-patch" Job
client.go:245: [debug] jobs.batch "prom-op-prometheus-operato-admission-patch" not found
client.go:87: [debug] creating 1 resource(s)
client.go:420: [debug] Watching for changes to Job prom-op-prometheus-operato-admission-patch with timeout of 5m0s
client.go:445: [debug] Add/Modify event for prom-op-prometheus-operato-admission-patch: MODIFIED
client.go:484: [debug] prom-op-prometheus-operato-admission-patch: Jobs active: 1, jobs failed: 0, jobs succeeded: 0
client.go:445: [debug] Add/Modify event for prom-op-prometheus-operato-admission-patch: MODIFIED
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" RoleBinding
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" Role
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRole
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ServiceAccount
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" ClusterRoleBinding
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission" PodSecurityPolicy
client.go:220: [debug] Starting delete for "prom-op-prometheus-operato-admission-patch" Job

Pembuatan CRD manual setidaknya membantu di Azure.
Pertama buat crds dari tautan ini https://github.com/coreos/prometheus-operator/tree/release-0.34/example/prometheus-operator-crd
"kubectl create -f alertmanager.crd.yaml" dan seterusnya untuk semua file
Kemudian
helm instal prometheus-operator stable / prometheus-operator --namespace monitoring --version 8.2.4 --set prometheusOperator.createCustomResource = false

Terima kasih @ truealex81 ! Itu berfungsi di Azure.

myenv:
k8s 1.11.2 helm 2.13.1 anakan 2.13.1
prometheus-operator-5.5 APP VERSION 0.29 OK !!!

tapi:
prometheus-operator-8 APP VERSION 0.32 hava masalah yang sama:
"konteks dibatalkan" atau "grpc: koneksi klien ditutup" !!!

Saya kira versi terbaru dari prometheus-operator tidak kompatibel? !!!

@bierhov tolong dapatkah Anda memposting sumber daya di namespace setelah kegagalan?

Iya!
shell mengeksekusi "helm ls" saya dapat melihat status rilis operator-prometheus "gagal", tetapi namespace tempat operator-prometheus yang saya instal memiliki semua sumber daya operator-prometheus
tapi,
promethues web tidak bisa mendapatkan data apa pun!

Bisakah Anda memposting sumber daya?

Bisakah Anda memposting sumber daya?

maaf, saya tidak dapat muncul kembali, kecuali saya melepaskan env helm stabil saya dan melakukannya lagi!

@bierhov apakah Anda masih memiliki pekerjaan yang gagal setelah penginstalan?

@bierhov apakah Anda masih memiliki pekerjaan yang gagal setelah penginstalan?

versi k8s saya adalah 1.11.2 dan versi anakannya adalah 2.13.1
jika saya menginstal prometheus-operator versi 8.x
shell exec perintah "helm ls", status pekerjaan gagal
tetapi saya menginstal prometheus-operator versi 5.x
shell exec perintah "helm ls", status pekerjaan telah diterapkan !!!

Tidak dapat direproduksi menggunakan:

Versi Kubernetes: v1.13.12"
Versi Kubectl: v1.16.2
Versi helm: 3.0.1
Versi operator-Prometheus: 8.3.3

  1. Instal CRD secara manual:

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/alertmanager.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/prometheus.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/prometheusrule.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/servicemonitor.crd.yaml kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/v0.34.0/example/prometheus-operator-crd/podmonitor.crd.yaml

  1. Konfigurasikan operator agar tidak membuat crds di Values.yaml atau saat menginstal menggunakan

--set prometheusOperator.createCustomResource=false

prometheusOperator: createCustomResource: false

@Rumahsakitotak
Bagaimana jika Anda tidak membuat CRD secara manual? Itulah salah satu solusi untuk masalah ini

@vsliouniaev jika Anda tidak membuatnya, Anda akan mendapatkan error.
Namun dalam edisi asli di Info Tambahan @rnkhouse disebutkan bahwa dia membuat CRD secara manual.

Kami menggunakan operator prometheus dalam penerapan kami, singkatnya, kami meningkatkan prom-op dari 6.9.3 menjadi 8.3.3 dan selalu gagal dengan "Kesalahan: konteks dibatalkan".
Juga kami selalu menginstal crds sebelum menginstal / memutakhirkan prometheus-operator, dan seringkali kami tidak mengubah atau memperbarui crd-s ini.

Saya mencoba menyegarkan crds, yang di 'github.com/helm/charts/tree/master/stable/prometheus-operator' menyebutkan (seperti ini kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator /master/example/prometheus-operator-crd/alertmanager.crd.yaml), tapi ini sudah tidak ada lagi.
Setelah itu saya mencoba ini dari sini: https://github.com/helm/charts/tree/master/stable/prometheus-operator/crds
Tapi itu gagal lagi.

Saya hampir menyerah, tetapi dengan crds ini, penyebaran helm berhasil! yeyyyy
https://github.com/coreos/kube-prometheus/tree/master/manifests/setup

Setup saya:

Versi Kubernetes: v1.14.3
Versi Kubectl: v1.14.2
Versi helm: 2.14.3
Versi operator-Prometheus: 8.3.3

Bersihkan operator prometheus dari k8s!

Kemudian:

kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0alertmanagerCustomResourceDefinition.yaml   
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0podmonitorCustomResourceDefinition.yaml     
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0prometheusCustomResourceDefinition.yaml     
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0prometheusruleCustomResourceDefinition.yaml 
kubectl apply -f https://raw.githubusercontent.com/coreos/kube-prometheus/master/manifests/setup/prometheus-operator-0servicemonitorCustomResourceDefinition.yaml 
helm upgrade -i prom-op                               \
  --version 8.3.3                                     \
  --set prometheusOperator.createCustomResource=false \
  stable/prometheus-operator

Itu saja !

Apakah ini berarti perlu melakukan penginstalan bersih dan kehilangan data metrik historis?

АSetelah menaikkan AKS k8s ke 1.15.5, helm ke 3.0.1 dan bagan operator Prometheus ke 8.3.3, masalah hilang.

Solusi kami adalah mempertahankan gambar operator prometheus di v0.31.1.

bekerja untuk saya juga pada AKS v1.14.8 dan helm + tiller v2.16.1 dan mengubah citra operator menjadi v0.31.1

Pembuatan CRD manual setidaknya membantu di Azure.
Pertama buat crds dari tautan ini https://github.com/coreos/prometheus-operator/tree/release-0.34/example/prometheus-operator-crd
"kubectl create -f alertmanager.crd.yaml" dan seterusnya untuk semua file
Kemudian
helm instal prometheus-operator stable / prometheus-operator --namespace monitoring --version 8.2.4 --set prometheusOperator.createCustomResource = false

dalam karya kubernetes biru, terima kasih

Saya dapat mengatasi masalah ini dengan mengikuti bagian 'Helm gagal membuat CRD' di readme.md. Saya tidak yakin bagaimana mereka terkait, tetapi berhasil.

Langkah 1: Buat CRDS secara manual

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/alertmanager.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheus.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/prometheusrule.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/servicemonitor.crd.yaml
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/master/example/prometheus-operator-crd/podmonitor.crd.yaml

Langkah 2:
Tunggu hingga CRD dibuat, yang hanya membutuhkan waktu beberapa detik

Langkah 3:
Instal diagram, tetapi nonaktifkan penyediaan CRD dengan menyetel prometheusOperator.createCustomResource = false

$ helm install --name my-release stable/prometheus-operator --set prometheusOperator.createCustomResource=false

Terima kasih, ini berhasil untuk saya dengan cluster AKS. harus mengubah URL untuk CRD.

kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_alertmanagers.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_podmonitors.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_prometheuses.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_prometheusrules.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_servicemonitors.yaml --validate = false
kubectl apply -f https://raw.githubusercontent.com/coreos/prometheus-operator/release-0.37/example/prometheus-operator-crd/monitoring.coreos.com_thanosrulers.yaml --validate = false

helm instal stable / prometheus-operator --name prometheus-operator --namespace monitoring --set prometheusOperator.createCustomResource = false

Penutupan. Sepertinya ini sudah diselesaikan, menurut tiga komentator terakhir. Terima kasih!

Apakah halaman ini membantu?
0 / 5 - 0 peringkat