Terraform-aws-github-runner: Лямбда Scale Up не сообщает об ошибках, но не запускает новый бегун

Созданный на 1 мар. 2021  ·  15Комментарии  ·  Источник: philips-labs/terraform-aws-github-runner

Масштабируемая лямбда регистрирует свой вызов в Cloudwatch без каких-либо аномальных выходных данных — по крайней мере, ничего явно ошибочного — но новые экземпляры не создаются, а задания остаются в очереди. Из-за отсутствия ошибок я немного застрял в том, где искать дальше.

START RequestId: b6d27abc-24a7-5f67-a7a9-220b3a8f2e0a Version: $LATEST
--
{
Records: [
{
messageId: 'c5118c89-b1db-4a81-9fd1-c3211020f447',
receiptHandle: 'AQEBVpllIHtC29mzlvsdPt7y3HfIZHfGThi4dwb2ecHzqupGCRBtFBVFWNa9KKd7M3VwcyiVf6/uqKh/czW305hG9gkqvsnnDj1sdUIqXdzky6+z8ZJnylM/ekUA1bmv7bJna0K5Gbkr+2p1o5UcRoaZnr1EfijnlxabX2ft2JyxNvhVEjVJGEhJMOwIJmXnzlelKAqGh0gz+jde1hecenob2hS9aKEf+8pk6kJViSC0jZvb9S1hcBfHoNTsmP5z45+WzeyTeFDmcO3QmAeIsl4cj4fCwimpQvV1OyE8oBZ5QjE=',
body: '{     "id": 2005872726,     "repositoryName": "redacted",     "repositoryOwner": "redacted",     "eventType": "check_run",     "installationId": 15044875 }',
attributes: {
ApproximateReceiveCount: '1',
SentTimestamp: '1614617562674',
SequenceNumber: '18860086169754095872',
MessageGroupId: '2005872726',
SenderId: 'AROAYDZX6OHXHIADI55JV:gh-ci-webhook',
MessageDeduplicationId: '47a99738074ab0818b7881eee096ec21a5b82226764304d9ab69d90ff39ea349',
ApproximateFirstReceiveTimestamp: '1614617592695'
},
messageAttributes: {},
md5OfBody: 'd5e6cdc10ecd1a37128c56a1ed6bb90f',
eventSource: 'aws:sqs',
eventSourceARN: 'arn:aws:sqs:eu-west-1:redacted:gh-ci-queued-builds.fifo',
awsRegion: 'eu-west-1'
}
]
}

У кого-нибудь есть идеи?

Самый полезный комментарий

У меня была версия 0.10.0, поэтому я не очень надеялся, но версия 0.11.0, похоже, решает проблему. странно!

Все 15 Комментарий

Я вижу то же самое на своей стороне и подозреваю, что это связано с недавним инцидентом с ухудшением производительности для действий GitHub.

При попытке отфильтровать список рабочих процессов в очереди в нашем репозитории мы получили следующую ошибку и пустой список, когда явно есть рабочие процессы в очереди:
We are having problems searching workflow runs. The results may not be complete.

Я думаю, что лямбда полагается на это, чтобы возвращать рабочие процессы в очереди для запуска экземпляра.

Видеть точно то же самое fwiw.

Я пытался выяснить, есть ли простой способ вручную увеличить масштаб. Кажется, что конфигурация бездействия проверяется только при уменьшении масштаба? Я не знаком с кодом, поэтому мог что-то упустить.

Я потратил немного времени на аналогичную проблему и обнаружил, что необходимые теги для моего EC2 by Policy вызывают сбой. Я смог найти его, просмотрев ошибки CloudTrail API.

Спасибо за ответы до сих пор, всем.

@rlove Я не могу найти в Cloudtrail ничего, чтобы предположить, что лямбда масштабирования вообще что-то делает, ошибка или что-то еще.
@samgiles Да, я тоже этим занимался; Я не мог (по общему признанию, за ограниченное время) создать тестовое событие, которое заставило бы масштабируемую лямбду работать.
@ eky5006 eky5006 Это имело бы смысл, но я все еще вижу ту же проблему, и, согласно https://www.githubstatus.com/incidents/xn0sd2x4nd7f , проблема решена. Вы видите лучше на своем конце?

У меня та же проблема.
INFO Repo < repo name > has 0 queued workflow runs даже при наличии заданий в очереди. И этот API https://docs.github.com/en/rest/reference/actions#list -workflow-runs-for-a-repository правильно возвращает рабочие процессы в очереди.
Это началось вчера и до сих пор не работает.

INFO Repo < repo name > has 0 queued workflow runs

@bartoszjedrzejewski Где вы видите этот результат?

@rjcoupe в масштабе журналов CloudWatch. Какая у вас версия? Я думаю, это потому, что я на 0.8.1. Я пытаюсь обновить прямо сейчас. У моего коллеги такой проблемы нет, у него 0.10

У меня была та же проблема, из-за сбоя остались некоторые зарегистрированные бегуны. Я отменил их регистрацию в своей организации GitHub, и теперь бегуны масштабируются, как и ожидалось.

Надеюсь, это поможет кому-то.

Обновление лямбда-выражений с 0.8.1 до 0.11.0 устранило мою проблему.

Привет, вчера у нас была такая же проблема, и обновление лямбда-выражений с 0.8.1 до 0.10.0 также решило ее.

У меня была версия 0.10.0, поэтому я не очень надеялся, но версия 0.11.0, похоже, решает проблему. странно!

@gertjanmaas любая идея, похоже, связана со вчерашним отключением.

Возможно, это связано со вчерашним отключением. В нашем случае некоторые репозитории не отправляли событие в веб-перехватчик, из-за чего задания ставились в очередь, а экземпляры не создавались, но это могло повлиять на любой из используемых нами API.

Отключение было исправлено, поэтому, если это было причиной, это должно быть решено.

Нет, сегодня утром это происходит снова, без каких-либо изменений в ресурсах AWS. Кажется, правильное поведение было случайностью.

Только что узнал, что мы время от времени видели проблемы со всеми сегодняшними действиями, а не только с динамичными самостоятельными бегунами. Я думаю, что на GitHub происходят проблемы со стабильностью.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги