Terraform-aws-github-runner: Scale Up lambda no informa errores, pero no genera un nuevo ejecutor

Creado en 1 mar. 2021 · 15Comentarios · Fuente: philips-labs/terraform-aws-github-runner

La lambda ampliada registra su invocación en Cloudwatch sin nada anormal en la salida, al menos nada que sea obviamente un error, pero no se crean nuevas instancias y los trabajos permanecen en cola. Debido a la falta de error, estoy un poco atascado con respecto a dónde buscar a continuación.

START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{     "id": 2005872726,     "repositoryName": "redacted",     "repositoryOwner": "redacted",     "eventType": "check_run",     "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}

¿Alguien tiene alguna idea?

Fuente

rjcoupe

👍3

Comentario más útil

Estaba en v0.10.0, así que no tenía muchas esperanzas, pero v0.11.0 parece solucionar el problema. ¡Extraño!

rjcoupe en 2 mar. 2021

👍2 🎉1

Todos 15 comentarios

Veo lo mismo por mi parte y sospecho que está relacionado con el reciente incidente de rendimiento degradado para las acciones de GitHub.

Al intentar filtrar la lista de flujos de trabajo en cola en nuestro repositorio, obtuvimos el siguiente error y una lista vacía cuando claramente hay flujos de trabajo en cola:
We are having problems searching workflow runs. The results may not be complete.

Creo que la lambda se basa en esto para devolver flujos de trabajo en cola para activar una instancia.

eky5006 en 1 mar. 2021

👍3

Viendo exactamente lo mismo fwiw.

Estaba tratando de averiguar si hay una manera fácil de forzar manualmente una escala. ¿Parece que la configuración inactiva solo se verifica durante las reducciones? No estoy familiarizado con el código, así que puede que me haya perdido algo.

samgiles en 1 mar. 2021

Pasé un poco de tiempo en un problema similar, descubrí que las etiquetas requeridas para mi EC2 por Política estaban causando que fallara. Pude encontrarlo mirando los errores de la API de CloudTrail.

rlove en 2 mar. 2021

Gracias por las respuestas hasta ahora, a todos.

@rlove No puedo encontrar nada en Cloudtrail que sugiera que la escala lambda está haciendo algo, error o de otra manera.
@samgiles Sí, esto también era algo que estaba investigando; No pude (en un tiempo limitado, hay que reconocerlo) crear un evento de prueba que forzara la acción de la lambda ampliada.
@ eky5006 Eso tendría sentido, pero sigo viendo el mismo problema y, según https://www.githubstatus.com/incidents/xn0sd2x4nd7f , el problema está resuelto. ¿Estás viendo algo mejor en tu extremo?

rjcoupe en 2 mar. 2021

Tengo el mismo problema.
INFO Repo < repo name > has 0 queued workflow runs aunque haya trabajos en cola. Y esta API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository devuelve los flujos de trabajo en cola correctamente.
Comenzó a suceder ayer y todavía no funciona.

bartoszjedrzejewski en 2 mar. 2021

INFO Repo < repo name > has 0 queued workflow runs

@bartoszjedrzejewski ¿Dónde ve esa salida?

rjcoupe en 2 mar. 2021

@rjcoupe en la ampliación de registros de CloudWatch. ¿En que versión estas? Creo que es porque estoy en 0.8.1. Estoy tratando de actualizar ahora mismo. Mi colega no tiene este problema, está en 0.10

bartoszjedrzejewski en 2 mar. 2021

Tuve el mismo problema, la interrupción dejó algunos corredores registrados persistentes. Anulé el registro de mi organización de GitHub y ahora los corredores se están ampliando como se esperaba.

Espero que esto ayude a alguien.

kieranbrown en 2 mar. 2021

Actualizar lambdas de 0.8.1 a 0.11.0 solucionó mi problema.

bartoszjedrzejewski en 2 mar. 2021

Hola, tuvimos el mismo problema ayer y la actualización de lambdas de 0.8.1 a 0.10.0 también lo resolvió.

catalinmer en 2 mar. 2021

🎉1

Estaba en v0.10.0, así que no tenía muchas esperanzas, pero v0.11.0 parece solucionar el problema. ¡Extraño!

rjcoupe en 2 mar. 2021

👍2 🎉1

@gertjanmaas alguna idea, parece relacionada con la interrupción de ayer.

npalm en 2 mar. 2021

Podría estar relacionado con el apagón de ayer. En nuestro caso, ciertos repositorios no enviaron un evento al webhook, lo que provocó que los trabajos se pusieran en cola y no se creara ninguna instancia, pero podría haber afectado a cualquiera de las API que usamos.

La interrupción se ha solucionado, por lo que si esa fue la causa, esto debería resolverse.

gertjanmaas en 3 mar. 2021

No, está sucediendo nuevamente a partir de esta mañana sin cambios en los recursos de AWS. Parece que el comportamiento correcto fue una casualidad.

rjcoupe en 4 mar. 2021

Acabo de enterarme de que hemos visto problemas de vez en cuando con todas las acciones de hoy, no solo con los corredores dinámicos autohospedados. Creo que están ocurriendo problemas de estabilidad en GitHub.

rlove en 5 mar. 2021

¿Fue útil esta página

0 / 5 - 0 calificaciones

Temas relacionados

Encabezado necesario para Checks API para Enterprise Server

mcaulifn · 13Comentarios

Automatiza la creación de un corredor fuera de línea

npalm · 11Comentarios

Tipo de instancia de reserva

Kostiantyn-Vorobiov · 6Comentarios

dev-usw2-scale-up failure: "Error al manejar el evento SQS" "Rutinas PEM: get_name: no hay línea de inicio en Sign.sign"

cmcconnell1 · 7Comentarios

Error al escalar lambda

mkryva · 17Comentarios