PR#770をさらにテストした後、私はこれを見つけました:
今日、swarm ec2クラスターを再起動した後、別の変更されたIPの問題を検出しました。
マスターはスウォームマシンの古いIPを使用します
time="2015-03-18T18:23:54Z" level=error msg="Get https://54.69.29.90:2376/v1.15/info: dial tcp 54.69.29.90:2376: i/o timeout"
time="2015-03-18T18:23:54Z" level=error msg="Get https://54.69.230.35:2376/v1.15/info: dial tcp 54.69.230.35:2376: i/o timeout"
time="2015-03-18T18:23:54Z" level=error msg="Get https://54.69.255.39:2376/v1.15/info: dial tcp 54.69.255.39:2376: i/o timeout"
time="2015-03-18T18:23:54Z" level=error msg="Get https://52.10.167.59:2376/v1.15/info: dial tcp 52.10.167.59:2376: i/o timeout"
私は問題を分析します:
スウォームエージェントは古いIP 52.10.167.59
と結合しています
$ docker-machine ls
NAME ACTIVE DRIVER STATE URL SWARM
amazonec2-03 amazonec2 Stopped
dev virtualbox Stopped
ec2-swarm-01 amazonec2 Running tcp://54.149.27.239:2376 ec2-swarm-master
ec2-swarm-02 amazonec2 Running tcp://52.10.108.31:2376 ec2-swarm-master
ec2-swarm-03 * amazonec2 Running tcp://54.148.5.178:2376 ec2-swarm-master
ec2-swarm-master amazonec2 Running tcp://52.11.98.189:2376 ec2-swarm-master (master)
$ $(docker-machine env ec2-swarm-master)
$ docker ps --no-trunc
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
13d27667155b3b1962b99b8d817c7a9865b47fe5b0d5d9c0af08735b26163efa swarm:latest "/swarm join --addr 52.10.167.59:2376 token://5a57a53a13470b1e680c6904ce5b34d1" 35 hours ago Up 11 minutes 2375/tcp swarm-agent
810f7ce04b6439c191470a2116197088ee2a3d2e5ed1cc7f4742aacef46317f9 swarm:latest "/swarm manage --tlsverify --tlscacert=/etc/docker/ca.pem --tlscert=/etc/docker/server.pem --tlskey=/etc/docker/server-key.pem -H tcp://0.0.0.0:3376 token://5a57a53a13470b1e680c6904ce5b34d1" 35 hours ago Up 11 minutes 2375/tcp, 0.0.0.0:3376->3376/tcp swarm-agent-master
$ docker-machine ip ec2-swarm-master
52.11.98.189
スウォームマシンからのIPが変更された後、実装はスウォームエージェントを再構成し、古いコンテナーを削除して、新しいコンテナーを開始する必要があります。
唯一の簡単な修正は、現在、この小さなスクリプトを使用してエージェントを再作成することです。
create-swam-agent.sh
#!/bin/bash
TOKEN=$(docker inspect -f "{{ index .Config.Cmd 3 }}" swarm-agent)
IP=$(curl http://169.254.169.254/latest/meta-data/public-ipv4)
docker stop swarm-agent
docker rm swarm-agent
docker run -d --name swarm-agent --restart=always swarm \
join --addr ${IP}:2376 \
${TOKEN}
長期的には、構成ストアへの何らかの「同期」をサポートする必要があると思います。DockerHubトークン検出サービスがクラスターIPの変更をサポートするかどうかはわかりませんが、KVバックエンドはサポートすると確信しています。
cc @aluzzardi @vieux @abronanこの場合のワークフロー(群れのIPの変更)をどのように想定しますか?
K / Vの@nathanleclaireエントリは、TTLの有効期限が切れると削除されます(ノードは検出から削除されます)。 そのため、IPが変更されている場合、ストアは停止/再起動後(EC2など)にクラスターの状態を正しく反映します。 それでも、TTLが期限切れになるまで、古いエントリが少しの間リストされると予想される場合があります(3台のマシンがある場合、古いエントリが異常としてマークされ、Swarmで使用できなくても、6台がリストされると予想されます。 )
回避策として、Machineがインスタンスの再起動を認識している場合、K / Vのエントリを直接削除して、再起動後に間違ったIPを持つマシンをリストしないようにすることができます。
DockerSwarmノードのIPアドレスを変更した後の回避策は次のとおりです。
% docker-machine env docker-node
% docker-machine regenerate-certs docker-node
(I sometimes need to run multiple times when error occurs.)
% eval $(docker-machine env docker-node)
% export TOKEN=$(docker inspect -f "{{ index .Config.Cmd 3}}" swarm-agent)
% docker rm -f swarm-agent
% docker run -d --name=swarm-agent --restart=always swarm:latest join --advertise "${DOCKER_HOST##tcp://}" "${TOKEN}"
最も参考になるコメント
DockerSwarmノードのIPアドレスを変更した後の回避策は次のとおりです。