Depois de mais testes PR # 770, descobri o seguinte:
Eu detectei outro problema de IP alterado, depois de reiniciar meu cluster ec2 swarm hoje.
O mestre usa os ip antigos das máquinas de enxame
time="2015-03-18T18:23:54Z" level=error msg="Get https://54.69.29.90:2376/v1.15/info: dial tcp 54.69.29.90:2376: i/o timeout"
time="2015-03-18T18:23:54Z" level=error msg="Get https://54.69.230.35:2376/v1.15/info: dial tcp 54.69.230.35:2376: i/o timeout"
time="2015-03-18T18:23:54Z" level=error msg="Get https://54.69.255.39:2376/v1.15/info: dial tcp 54.69.255.39:2376: i/o timeout"
time="2015-03-18T18:23:54Z" level=error msg="Get https://52.10.167.59:2376/v1.15/info: dial tcp 52.10.167.59:2376: i/o timeout"
Eu analiso o problema:
O agente de enxame está unido com o ip antigo 52.10.167.59
$ docker-machine ls
NAME ACTIVE DRIVER STATE URL SWARM
amazonec2-03 amazonec2 Stopped
dev virtualbox Stopped
ec2-swarm-01 amazonec2 Running tcp://54.149.27.239:2376 ec2-swarm-master
ec2-swarm-02 amazonec2 Running tcp://52.10.108.31:2376 ec2-swarm-master
ec2-swarm-03 * amazonec2 Running tcp://54.148.5.178:2376 ec2-swarm-master
ec2-swarm-master amazonec2 Running tcp://52.11.98.189:2376 ec2-swarm-master (master)
$ $(docker-machine env ec2-swarm-master)
$ docker ps --no-trunc
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
13d27667155b3b1962b99b8d817c7a9865b47fe5b0d5d9c0af08735b26163efa swarm:latest "/swarm join --addr 52.10.167.59:2376 token://5a57a53a13470b1e680c6904ce5b34d1" 35 hours ago Up 11 minutes 2375/tcp swarm-agent
810f7ce04b6439c191470a2116197088ee2a3d2e5ed1cc7f4742aacef46317f9 swarm:latest "/swarm manage --tlsverify --tlscacert=/etc/docker/ca.pem --tlscert=/etc/docker/server.pem --tlskey=/etc/docker/server-key.pem -H tcp://0.0.0.0:3376 token://5a57a53a13470b1e680c6904ce5b34d1" 35 hours ago Up 11 minutes 2375/tcp, 0.0.0.0:3376->3376/tcp swarm-agent-master
$ docker-machine ip ec2-swarm-master
52.11.98.189
Depois que o IP da máquina swarm mudou, a implementação deve reconfigurar o agente swarm, remover o contêiner antigo e iniciar um novo.
A única solução rápida é recriar o agente com este pequeno script:
create-swam-agent.sh
#!/bin/bash
TOKEN=$(docker inspect -f "{{ index .Config.Cmd 3 }}" swarm-agent)
IP=$(curl http://169.254.169.254/latest/meta-data/public-ipv4)
docker stop swarm-agent
docker rm swarm-agent
docker run -d --name swarm-agent --restart=always swarm \
join --addr ${IP}:2376 \
${TOKEN}
Acho que, a longo prazo, teremos que oferecer suporte a algum tipo de "sincronização" com o armazenamento de configuração, não sei se o serviço de descoberta de token Docker Hub suportaria a modificação dos IPs de cluster, mas tenho certeza que os back-ends KV suportariam.
cc @aluzzardi @vieux @abronan Como você imaginaria o fluxo de trabalho para este caso (alterando IPs no enxame)?
@nathanleclaire As entradas no K / V são excluídas após a expiração do TTL (os nós são removidos da descoberta). Portanto, se os IPs estiverem mudando, o armazenamento refletirá o estado do cluster corretamente após uma parada / reinicialização (no EC2, por exemplo). Ainda assim, você pode esperar que as entradas antigas sejam listadas por um tempo até que seu TTL expire (Se você tiver 3 máquinas, espere ter 6 delas listadas, embora as entradas antigas sejam marcadas como não íntegras e não possam ser usadas no Swarm )
Como solução alternativa, se a Máquina estiver ciente de que uma instância está sendo reiniciada, ela pode excluir diretamente a entrada no K / V para não listar as máquinas com IPs errados após uma reinicialização.
Esta é minha solução alternativa após alterar o endereço IP do nó docker swarm:
% docker-machine env docker-node
% docker-machine regenerate-certs docker-node
(I sometimes need to run multiple times when error occurs.)
% eval $(docker-machine env docker-node)
% export TOKEN=$(docker inspect -f "{{ index .Config.Cmd 3}}" swarm-agent)
% docker rm -f swarm-agent
% docker run -d --name=swarm-agent --restart=always swarm:latest join --advertise "${DOCKER_HOST##tcp://}" "${TOKEN}"
Comentários muito úteis
Esta é minha solução alternativa após alterar o endereço IP do nó docker swarm: