O lambda de expansão registra sua invocação no Cloudwatch sem nada de anormal na saída - pelo menos nada que seja obviamente um erro - mas nenhuma nova instância é criada e os trabalhos permanecem na fila. Por causa da falta de erro, estou um pouco preso em relação a onde procurar em seguida.
START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{ "id": 2005872726, "repositoryName": "redacted", "repositoryOwner": "redacted", "eventType": "check_run", "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}
Alguém tem alguma ideia?
Estou vendo o mesmo do meu lado e suspeito que esteja relacionado ao recente incidente de desempenho degradado para ações do GitHub.
Ao tentar filtrar a lista de fluxos de trabalho enfileirados em nosso repositório, obtivemos o seguinte erro e uma lista vazia quando claramente há fluxos de trabalho enfileirados:
We are having problems searching workflow runs. The results may not be complete.
Acho que o lambda depende disso para retornar fluxos de trabalho enfileirados para ativar uma instância.
Vendo exatamente a mesma coisa fwiw.
Eu estava tentando descobrir se há uma maneira fácil de forçar manualmente uma escala para cima. Parece que a configuração ociosa é verificada apenas durante as reduções de escala? Eu não estou familiarizado com o código, então pode ter perdido alguma coisa.
Passei um pouco de tempo em um problema semelhante, descobri que as tags necessárias para o meu EC2 por Política estavam causando falha. Consegui encontrá-lo observando os erros da API do CloudTrail.
Obrigado pelas respostas até agora, a todos.
@rlove Não consigo encontrar nada no Cloudtrail para sugerir que o lambda de scaleup está fazendo alguma coisa, erro ou não.
@samgiles Sim, isso era algo que eu estava investigando também; Eu não poderia (em tempo limitado, admito) criar um evento de teste que forçaria o lambda de scaleup a entrar em ação.
@eky5006 Isso faria sentido, mas ainda estou vendo o mesmo problema e, de acordo com https://www.githubstatus.com/incidents/xn0sd2x4nd7f , o problema foi resolvido. Você está vendo alguma coisa melhor no seu final?
Eu tenho o mesmo problema.
INFO Repo < repo name > has 0 queued workflow runs
mesmo que haja trabalhos na fila. E esta API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository retorna fluxos de trabalho enfileirados corretamente.
Começou a acontecer ontem e ainda não funciona.
INFO Repo < repo name > has 0 queued workflow runs
@bartoszjedrzejewski Onde você está vendo essa saída?
@rjcoupe em aumentar os logs do cloudwatch. Em qual versão você está? Acho que é porque estou no 0.8.1. Estou tentando atualizar agora. Meu colega não tem esse problema, ele está no 0.10
Eu tive o mesmo problema, a interrupção deixou alguns corredores registrados persistentes. Cancelei o registro deles na minha organização do GitHub e agora os runners estão aumentando conforme o esperado.
Espero que isso ajude alguém.
Atualizar lambdas de 0.8.1 para 0.11.0 resolveu meu problema.
Oi, Tivemos o mesmo problema ontem e atualizar lambdas de 0.8.1 para 0.10.0 também resolveu.
Eu estava na v0.10.0, então não tinha muita esperança, mas a v0.11.0 parece resolver o problema. Bizarro!
@gertjanmaas qualquer ideia, parece relacionado a interrupção de ontem.
Pode estar relacionado com a interrupção de ontem. No nosso caso, certos repositórios não enviaram um evento para o webhook, o que fez com que os trabalhos fossem enfileirados e nenhuma instância fosse criada, mas pode ter afetado qualquer uma das APIs que usamos.
A interrupção foi corrigida, portanto, se essa foi a causa, isso deve ser resolvido.
Não, está acontecendo novamente a partir desta manhã sem alterações feitas nos recursos da AWS. Parece que o comportamento correto foi um acaso.
Acabei de saber que temos visto problemas de vez em quando com todas as ações hoje, não apenas os corredores dinâmicos auto-hospedados. Acho que há problemas de estabilidade acontecendo no GitHub.
Comentários muito úteis
Eu estava na v0.10.0, então não tinha muita esperança, mas a v0.11.0 parece resolver o problema. Bizarro!