Terraform-aws-github-runner: Scale Up lambda não relata erros, mas não gera um novo runner

Criado em 1 mar. 2021  ·  15Comentários  ·  Fonte: philips-labs/terraform-aws-github-runner

O lambda de expansão registra sua invocação no Cloudwatch sem nada de anormal na saída - pelo menos nada que seja obviamente um erro - mas nenhuma nova instância é criada e os trabalhos permanecem na fila. Por causa da falta de erro, estou um pouco preso em relação a onde procurar em seguida.

START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{     "id": 2005872726,     "repositoryName": "redacted",     "repositoryOwner": "redacted",     "eventType": "check_run",     "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}

Alguém tem alguma ideia?

Comentários muito úteis

Eu estava na v0.10.0, então não tinha muita esperança, mas a v0.11.0 parece resolver o problema. Bizarro!

Todos 15 comentários

Estou vendo o mesmo do meu lado e suspeito que esteja relacionado ao recente incidente de desempenho degradado para ações do GitHub.

Ao tentar filtrar a lista de fluxos de trabalho enfileirados em nosso repositório, obtivemos o seguinte erro e uma lista vazia quando claramente há fluxos de trabalho enfileirados:
We are having problems searching workflow runs. The results may not be complete.

Acho que o lambda depende disso para retornar fluxos de trabalho enfileirados para ativar uma instância.

Vendo exatamente a mesma coisa fwiw.

Eu estava tentando descobrir se há uma maneira fácil de forçar manualmente uma escala para cima. Parece que a configuração ociosa é verificada apenas durante as reduções de escala? Eu não estou familiarizado com o código, então pode ter perdido alguma coisa.

Passei um pouco de tempo em um problema semelhante, descobri que as tags necessárias para o meu EC2 por Política estavam causando falha. Consegui encontrá-lo observando os erros da API do CloudTrail.

Obrigado pelas respostas até agora, a todos.

@rlove Não consigo encontrar nada no Cloudtrail para sugerir que o lambda de scaleup está fazendo alguma coisa, erro ou não.
@samgiles Sim, isso era algo que eu estava investigando também; Eu não poderia (em tempo limitado, admito) criar um evento de teste que forçaria o lambda de scaleup a entrar em ação.
@eky5006 Isso faria sentido, mas ainda estou vendo o mesmo problema e, de acordo com https://www.githubstatus.com/incidents/xn0sd2x4nd7f , o problema foi resolvido. Você está vendo alguma coisa melhor no seu final?

Eu tenho o mesmo problema.
INFO Repo < repo name > has 0 queued workflow runs mesmo que haja trabalhos na fila. E esta API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository retorna fluxos de trabalho enfileirados corretamente.
Começou a acontecer ontem e ainda não funciona.

INFO Repo < repo name > has 0 queued workflow runs

@bartoszjedrzejewski Onde você está vendo essa saída?

@rjcoupe em aumentar os logs do cloudwatch. Em qual versão você está? Acho que é porque estou no 0.8.1. Estou tentando atualizar agora. Meu colega não tem esse problema, ele está no 0.10

Eu tive o mesmo problema, a interrupção deixou alguns corredores registrados persistentes. Cancelei o registro deles na minha organização do GitHub e agora os runners estão aumentando conforme o esperado.

Espero que isso ajude alguém.

Atualizar lambdas de 0.8.1 para 0.11.0 resolveu meu problema.

Oi, Tivemos o mesmo problema ontem e atualizar lambdas de 0.8.1 para 0.10.0 também resolveu.

Eu estava na v0.10.0, então não tinha muita esperança, mas a v0.11.0 parece resolver o problema. Bizarro!

@gertjanmaas qualquer ideia, parece relacionado a interrupção de ontem.

Pode estar relacionado com a interrupção de ontem. No nosso caso, certos repositórios não enviaram um evento para o webhook, o que fez com que os trabalhos fossem enfileirados e nenhuma instância fosse criada, mas pode ter afetado qualquer uma das APIs que usamos.

A interrupção foi corrigida, portanto, se essa foi a causa, isso deve ser resolvido.

Não, está acontecendo novamente a partir desta manhã sem alterações feitas nos recursos da AWS. Parece que o comportamento correto foi um acaso.

Acabei de saber que temos visto problemas de vez em quando com todas as ações hoje, não apenas os corredores dinâmicos auto-hospedados. Acho que há problemas de estabilidade acontecendo no GitHub.

Esta página foi útil?
0 / 5 - 0 avaliações

Questões relacionadas

mkryva picture mkryva  ·  17Comentários

cmcconnell1 picture cmcconnell1  ·  7Comentários

mcaulifn picture mcaulifn  ·  13Comentários

Kostiantyn-Vorobiov picture Kostiantyn-Vorobiov  ·  6Comentários

npalm picture npalm  ·  11Comentários