Terraform-aws-github-runner: Scale Up lambda no informa errores, pero no genera un nuevo ejecutor

Creado en 1 mar. 2021  ·  15Comentarios  ·  Fuente: philips-labs/terraform-aws-github-runner

La lambda ampliada registra su invocación en Cloudwatch sin nada anormal en la salida, al menos nada que sea obviamente un error, pero no se crean nuevas instancias y los trabajos permanecen en cola. Debido a la falta de error, estoy un poco atascado con respecto a dónde buscar a continuación.

START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{     "id": 2005872726,     "repositoryName": "redacted",     "repositoryOwner": "redacted",     "eventType": "check_run",     "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}

¿Alguien tiene alguna idea?

Comentario más útil

Estaba en v0.10.0, así que no tenía muchas esperanzas, pero v0.11.0 parece solucionar el problema. ¡Extraño!

Todos 15 comentarios

Veo lo mismo por mi parte y sospecho que está relacionado con el reciente incidente de rendimiento degradado para las acciones de GitHub.

Al intentar filtrar la lista de flujos de trabajo en cola en nuestro repositorio, obtuvimos el siguiente error y una lista vacía cuando claramente hay flujos de trabajo en cola:
We are having problems searching workflow runs. The results may not be complete.

Creo que la lambda se basa en esto para devolver flujos de trabajo en cola para activar una instancia.

Viendo exactamente lo mismo fwiw.

Estaba tratando de averiguar si hay una manera fácil de forzar manualmente una escala. ¿Parece que la configuración inactiva solo se verifica durante las reducciones? No estoy familiarizado con el código, así que puede que me haya perdido algo.

Pasé un poco de tiempo en un problema similar, descubrí que las etiquetas requeridas para mi EC2 por Política estaban causando que fallara. Pude encontrarlo mirando los errores de la API de CloudTrail.

Gracias por las respuestas hasta ahora, a todos.

@rlove No puedo encontrar nada en Cloudtrail que sugiera que la escala lambda está haciendo algo, error o de otra manera.
@samgiles Sí, esto también era algo que estaba investigando; No pude (en un tiempo limitado, hay que reconocerlo) crear un evento de prueba que forzara la acción de la lambda ampliada.
@ eky5006 Eso tendría sentido, pero sigo viendo el mismo problema y, según https://www.githubstatus.com/incidents/xn0sd2x4nd7f , el problema está resuelto. ¿Estás viendo algo mejor en tu extremo?

Tengo el mismo problema.
INFO Repo < repo name > has 0 queued workflow runs aunque haya trabajos en cola. Y esta API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository devuelve los flujos de trabajo en cola correctamente.
Comenzó a suceder ayer y todavía no funciona.

INFO Repo < repo name > has 0 queued workflow runs

@bartoszjedrzejewski ¿Dónde ve esa salida?

@rjcoupe en la ampliación de registros de CloudWatch. ¿En que versión estas? Creo que es porque estoy en 0.8.1. Estoy tratando de actualizar ahora mismo. Mi colega no tiene este problema, está en 0.10

Tuve el mismo problema, la interrupción dejó algunos corredores registrados persistentes. Anulé el registro de mi organización de GitHub y ahora los corredores se están ampliando como se esperaba.

Espero que esto ayude a alguien.

Actualizar lambdas de 0.8.1 a 0.11.0 solucionó mi problema.

Hola, tuvimos el mismo problema ayer y la actualización de lambdas de 0.8.1 a 0.10.0 también lo resolvió.

Estaba en v0.10.0, así que no tenía muchas esperanzas, pero v0.11.0 parece solucionar el problema. ¡Extraño!

@gertjanmaas alguna idea, parece relacionada con la interrupción de ayer.

Podría estar relacionado con el apagón de ayer. En nuestro caso, ciertos repositorios no enviaron un evento al webhook, lo que provocó que los trabajos se pusieran en cola y no se creara ninguna instancia, pero podría haber afectado a cualquiera de las API que usamos.

La interrupción se ha solucionado, por lo que si esa fue la causa, esto debería resolverse.

No, está sucediendo nuevamente a partir de esta mañana sin cambios en los recursos de AWS. Parece que el comportamiento correcto fue una casualidad.

Acabo de enterarme de que hemos visto problemas de vez en cuando con todas las acciones de hoy, no solo con los corredores dinámicos autohospedados. Creo que están ocurriendo problemas de estabilidad en GitHub.

¿Fue útil esta página
0 / 5 - 0 calificaciones