Terraform-aws-github-runner: Scale Up Lambda meldet keine Fehler, startet aber keinen neuen Runner

Erstellt am 1. März 2021  ·  15Kommentare  ·  Quelle: philips-labs/terraform-aws-github-runner

Das Scale-up-Lambda protokolliert seinen Aufruf an Cloudwatch ohne ungewöhnliche Ergebnisse in der Ausgabe – zumindest nichts, was offensichtlich ein Fehler ist – aber es werden keine neuen Instanzen erstellt und die Jobs bleiben in der Warteschlange. Aufgrund des Fehlens von Fehlern bin ich ein wenig festgefahren, wo ich als nächstes suchen soll.

START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{     "id": 2005872726,     "repositoryName": "redacted",     "repositoryOwner": "redacted",     "eventType": "check_run",     "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}

Hat jemand Ideen?

Hilfreichster Kommentar

Ich war auf v0.10.0, also hatte ich nicht viel Hoffnung, aber v0.11.0 scheint das Problem zu beheben. Bizarr!

Alle 15 Kommentare

Ich sehe dasselbe auf meiner Seite und vermute, dass es mit dem jüngsten Vorfall mit verminderter Leistung für GitHub-Aktionen zusammenhängt.

Beim Versuch, die Liste der Workflows in der Warteschlange in unserem Repository zu filtern, haben wir den folgenden Fehler und eine leere Liste erhalten, wenn eindeutig Workflows in der Warteschlange vorhanden sind:
We are having problems searching workflow runs. The results may not be complete.

Ich denke, das Lambda verlässt sich darauf, um Workflows in der Warteschlange zurückzugeben, um eine Instanz hochzufahren.

Sehen Sie genau das gleiche fwiw.

Ich habe versucht herauszufinden, ob es eine einfache Möglichkeit gibt, eine Skalierung manuell zu erzwingen. Es scheint, als ob die Leerlaufkonfiguration nur während des Herunterskalierens überprüft wird? Ich bin mit dem Code nicht vertraut, also habe ich vielleicht etwas übersehen.

Ich verbrachte ein wenig Zeit mit einem ähnlichen Problem und stellte fest, dass die erforderlichen Tags für mein EC2 by Policy dazu führten, dass es fehlschlug. Ich konnte es finden, indem ich mir die CloudTrail-API-Fehler ansah.

Danke für die bisherigen Antworten an alle.

@rlove Ich kann in Cloudtrail nichts finden, was darauf hindeutet, dass das Scaleup-Lambda überhaupt etwas tut, Fehler oder anderes.
@samgiles Ja, das war etwas, was ich auch untersucht habe; Ich konnte (zugegebenermaßen in begrenzter Zeit) kein Testereignis erstellen, das das Scaleup-Lambda in Aktion zwingen würde.
@eky5006 Das würde Sinn machen, aber ich sehe immer noch das gleiche Problem und laut https://www.githubstatus.com/incidents/xn0sd2x4nd7f ist das Problem behoben. Sehen Sie an Ihrem Ende besser?

Ich habe das gleiche Problem.
INFO Repo < repo name > has 0 queued workflow runs , obwohl Jobs in der Warteschlange stehen. Und diese API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository gibt Workflows in der Warteschlange ordnungsgemäß zurück.
Gestern fing es an und funktioniert immer noch nicht.

INFO Repo < repo name > has 0 queued workflow runs

@bartoszjedrzejewski Wo siehst du diese Ausgabe?

@rjcoupe beim Hochskalieren von Cloudwatch-Protokollen. Auf welcher Version bist du? Ich denke, es liegt daran, dass ich auf 0.8.1 bin. Ich versuche gerade zu aktualisieren. Mein Kollege hat dieses Problem nicht, er ist auf 0.10

Ich hatte das gleiche Problem, der Ausfall hinterließ einige verweilende registrierte Läufer. Ich habe sie von meiner GitHub-Organisation abgemeldet und jetzt skalieren die Runner wie erwartet.

Hoffe das hilft jemandem.

Das Aktualisieren von Lambdas von 0.8.1 auf 0.11.0 hat mein Problem behoben.

Hallo, wir hatten gestern das gleiche Problem und das Upgrade von Lambdas von 0.8.1 auf 0.10.0 hat es auch gelöst.

Ich war auf v0.10.0, also hatte ich nicht viel Hoffnung, aber v0.11.0 scheint das Problem zu beheben. Bizarr!

@gertjanmaas irgendeine Idee, sieht aus wie der gestrige Ausfall.

Könnte mit dem Ausfall gestern zusammenhängen. In unserem Fall haben bestimmte Repositorys kein Ereignis an den Webhook gesendet, was dazu führte, dass Jobs in die Warteschlange gestellt und keine Instanz erstellt wurde, aber es hätte sich auf alle von uns verwendeten APIs auswirken können.

Der Ausfall wurde behoben. Wenn dies also die Ursache war, sollte dies behoben werden.

Nein, es passiert seit heute Morgen wieder, ohne dass Änderungen an den AWS-Ressourcen vorgenommen wurden. Scheint, das richtige Verhalten war ein Zufall.

Ich habe gerade erfahren, dass wir heute bei allen Aktionen ab und zu Probleme gesehen haben, nicht nur bei den dynamischen, selbst gehosteten Läufern. Ich denke, es gibt Stabilitätsprobleme auf GitHub.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen