Terraform-aws-github-runner: Scale Up lambda ne signale aucune erreur mais ne lance pas de nouveau coureur

Créé le 1 mars 2021 · 15Commentaires · Source: philips-labs/terraform-aws-github-runner

Le lambda de mise à l'échelle enregistre son invocation dans Cloudwatch sans rien d'anormal dans la sortie - du moins rien qui soit manifestement une erreur - mais aucune nouvelle instance n'est créée et les tâches restent en file d'attente. En raison de l'absence d'erreur, je suis un peu bloqué quant à la prochaine étape.

START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{     "id": 2005872726,     "repositoryName": "redacted",     "repositoryOwner": "redacted",     "eventType": "check_run",     "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}

Quelqu'un a des idées?

Source

rjcoupe

👍3

Commentaire le plus utile

J'étais sur la v0.10.0 donc je n'avais pas beaucoup d'espoir, mais la v0.11.0 semble résoudre le problème. Bizarre!

rjcoupe le 2 mars 2021

👍2 🎉1

Tous les 15 commentaires

Je vois la même chose de mon côté et je soupçonne que cela est lié au récent incident de dégradation des performances pour les actions GitHub.

Lorsque nous avons essayé de filtrer la liste des workflows en file d'attente sur notre dépôt, nous avons obtenu l'erreur suivante et une liste vide lorsqu'il y a clairement des workflows en file d'attente :
We are having problems searching workflow runs. The results may not be complete.

Je pense que le lambda s'appuie sur cela pour renvoyer les flux de travail en file d'attente pour lancer une instance.

eky5006 le 1 mars 2021

👍3

Voir exactement la même chose fwiw.

J'essayais de comprendre s'il existe un moyen simple de forcer manuellement une mise à l'échelle. Il semble que la configuration inactive ne soit vérifiée que lors des réductions d'échelle ? Je ne connais pas le code, j'ai donc peut-être raté quelque chose.

samgiles le 1 mars 2021

J'ai passé un peu de temps sur un problème similaire, j'ai constaté que les balises requises pour mon EC2 par Policy le faisaient échouer. J'ai pu le trouver en regardant les erreurs de l'API CloudTrail.

rlove le 2 mars 2021

Merci pour les réponses jusqu'à présent, tout le monde.

@rlove Je ne trouve rien dans Cloudtrail suggérant que la mise à l'échelle lambda fait quoi que ce soit, erreur ou autre.
@samgiles Oui, c'était aussi quelque chose que j'étudiais; Je ne pouvais pas (en un temps limité, certes) créer un événement test qui forcerait le scale-up lambda à agir.
@ eky5006 Cela aurait du sens, mais je vois toujours le même problème et selon https://www.githubstatus.com/incidents/xn0sd2x4nd7f le problème est résolu. Voyez-vous mieux de votre côté ?

rjcoupe le 2 mars 2021

J'ai le même problème.
INFO Repo < repo name > has 0 queued workflow runs même s'il y a des travaux en file d'attente. Et cette API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository renvoie correctement les flux de travail en file d'attente.
Cela a commencé hier et ne fonctionne toujours pas.

bartoszjedrzejewski le 2 mars 2021

INFO Repo < repo name > has 0 queued workflow runs

@bartoszjedrzejewski Où voyez-vous cette sortie ?

rjcoupe le 2 mars 2021

@rjcoupe dans les journaux cloudwatch à grande échelle. Tu es sur quelle version ? Je pense que c'est parce que je suis sur 0.8.1. J'essaie de mettre à jour en ce moment. Mon collègue n'a pas ce problème, il est sur 0.10

bartoszjedrzejewski le 2 mars 2021

J'ai eu le même problème, la panne a laissé des coureurs inscrits persistants. Je les ai désinscrits de mon organisation GitHub et maintenant les coureurs évoluent comme prévu.

J'espère que cela aide quelqu'un.

kieranbrown le 2 mars 2021

La mise à jour de lambdas de 0.8.1 à 0.11.0 a résolu mon problème.

bartoszjedrzejewski le 2 mars 2021

Salut, Nous avons eu le même problème hier et la mise à niveau de lambdas de 0.8.1 à 0.10.0 l'a également résolu.

catalinmer le 2 mars 2021

🎉1

J'étais sur la v0.10.0 donc je n'avais pas beaucoup d'espoir, mais la v0.11.0 semble résoudre le problème. Bizarre!

rjcoupe le 2 mars 2021

👍2 🎉1

@gertjanmaas n'importe quelle idée, ressemble à la panne d'hier.

npalm le 2 mars 2021

Cela pourrait être lié à la panne d'hier. Dans notre cas, certains référentiels n'ont pas envoyé d'événement au webhook, ce qui a entraîné la mise en file d'attente des tâches et la création d'aucune instance, mais cela aurait pu affecter l'une des API que nous utilisons.

La panne a été corrigée, donc si c'était la cause, cela devrait être résolu.

gertjanmaas le 3 mars 2021

Non, cela se reproduit depuis ce matin sans aucune modification apportée aux ressources AWS. Il semble que le comportement correct était un coup de chance.

rjcoupe le 4 mars 2021

Je viens d'apprendre que nous avons vu des problèmes par intermittence avec toutes les actions d'aujourd'hui, pas seulement avec les coureurs dynamiques auto-hébergés. Je pense qu'il y a des problèmes de stabilité sur GitHub.

rlove le 5 mars 2021

Cette page vous a été utile?

0 / 5 - 0 notes

Questions connexes

Échec de la mise à l'échelle de lambda

mkryva · 17Commentaires

Type d'instance de secours

Kostiantyn-Vorobiov · 6Commentaires

En-tête requis pour l'API Checks for Enterprise Server

mcaulifn · 13Commentaires

Échec dev-usw2-scale-up : « Echec de la gestion de l'événement SQS » « routines PEM :get_name :no start line at Sign.sign »

cmcconnell1 · 7Commentaires

Automatisez la création d'un runner hors ligne

npalm · 11Commentaires