Pytorch: 옵티마이저 load_state_dict() 문제?

에 만든 2017년 09월 22일 · 23코멘트 · 출처: pytorch/pytorch

안녕하세요, 이 버그가 발생했습니다:

    optimizer.step()
    exp_avg.mul_(beta1).add_(1 - beta1, grad)

TypeError: add_ received an invalid combination of arguments - got (float, torch.cuda.FloatTensor), but expected one of:
 * (float value)
 * (torch.FloatTensor other)
 * (torch.SparseFloatTensor other)
 * (float value, torch.FloatTensor other)
      didn't match because some of the arguments have invalid types: (float, torch.cuda.FloatTensor)
 * (float value, torch.SparseFloatTensor other)
      didn't match because some of the arguments have invalid types: (float, torch.cuda.FloatTensor)

코드 스켈레톤은 다음과 같습니다.

model = Model()
model.load_state_dict(checkpoint['model'])
model.cuda()

optimizer = optim.Adam()
optimizer.load_state_dict(checkpoint['optimizer'])

...
#  In train loop
for epoch in range(...):
  ...
  optimizer.step()
     -> BUG <-

로드된 param_groups 가 torch.cuda.FloatTensor 인 것 같으며 해결 방법을 시도했습니다.
optmizer.param_groups 를 cpu 로 이동하지만 여전히 동일한 버그가 있습니다.

awaiting response (this tag is deprecated) needs reproduction

출처

JianyuZhan

👍12

가장 유용한 댓글

@apaszke 아, 내 나쁜. 옵티마이저가 다시 생성되는 줄을 업데이트하는 것을 잊었습니다. 그러나 그렇지 않으면 다음 작업을 수행해야 합니다. 맞습니까?

model = Model()
model.load_state_dict(checkpoint['model'])
model.cuda()
optimizer = optim.Adam(model.parameters())
optimizer.load_state_dict(checkpoint['optimizer'])
for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

dogancan 에 2017년 10월 12일

👍82 🚀13 ❤7 🎉7 😄5 👀4

모든 23 댓글

문제를 재현하기 위한 전체 스크립트를 제공할 수 있습니까?

chenzhekl 에 2017년 09월 27일

👍1

어쩌면 당신은 이렇게 시도 할 수 있습니다,
Optimizer.step()
exp_avg.mul_(베타1).add_(1 - 베타1, grad.cpu())

hefeicyp 에 2017년 10월 11일

죄송합니다. 답장 이메일을 놓쳤습니다.

지금 재생기를 제공할 수 없습니다. OpenNMT-py 프로젝트 : https://github.com/OpenNMT/OpenNMT-py에서 lr 업데이트를 위해 lr_scheduler 를 사용하려고 하는 작업입니다. 그리고 resume a suspended training 케이스를 테스트할 때 이 문제가 발생했습니다. 그래서 위에서 이 문제에 대한 코드 골격을 제외했습니다.

@hefeicyp가 제안하는 것과 같은 트릭을 포함하여 여러 방법을 시도했지만 여전히 발생합니다.

내 분석에 따르면 이전 교육이 GPU에서 수행되었기 때문에 optimizer.state_dict 저장할 때 저장된 상태(텐서)는 cuda 버전입니다. 재개하는 동안 저장된 옵티마이저를 로드할 때 load_state_dict() 이 cuda 버전을 cpu로 로드합니다(모델( nn.Module )는 gpu로 쉽게 이동할 수 있지만 torch.optimizer 이 능력이 부족한 것 같습니까?) , 그래서 이 문제가 나타납니다.

JianyuZhan 에 2017년 10월 11일

👍5

체크포인트에서 로드한 후 옵티마이저 상태를 GPU 메모리로 수동으로 이동해 보십시오.

optimizer = optim.Adam()
optimizer.load_state_dict(checkpoint['optimizer'])
for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

이 작업에 optimizer.cuda() 메서드를 사용하는 것이 좋다는 데 동의합니다.

dogancan 에 2017년 10월 12일

👍54 ❤4 🎉4 👎2

@dogancan , 감사합니다. 다른 문제로 인해 작업이 중단되었습니다. 재개되면 귀하의 방법을 시도하겠습니다.

JianyuZhan 에 2017년 10월 12일

@dogancan 의 솔루션이 작동하지 않을 것 같습니다. 그러면 오류가 사라지지만 옵티마이저는 더 이상 모델을 훈련하지 않습니다. 모듈을 다른 유형이나 장치로 캐스팅한 후 옵티마이저를 다시 생성해야 하며 load_state_dict 를 사용하여 이전 복사본에서 상태를 복원할 수 있습니다. 이것은 현재 작동하지 않지만 수정해야 합니다(텐서를 직접 사용하는 대신 상태 딕셔너리에서 데이터를 복사하여 교차 장치 또는 교차 유형 업데이트를 허용합니다).

apaszke 에 2017년 10월 12일

@apaszke , 네, 귀하의 방법은 현재 사용하는 방법이며 작동합니다. 하지만 업스트림에서 이 문제를 해결할 때까지 기다릴 것입니다. 당신의 훌륭한 작품에 감사드립니다!

JianyuZhan 에 2017년 10월 12일

model = Model()
model.load_state_dict(checkpoint['model'])
model.cuda()
optimizer = optim.Adam(model.parameters())
optimizer.load_state_dict(checkpoint['optimizer'])
for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

dogancan 에 2017년 10월 12일

👍82 🚀13 ❤7 🎉7 😄5 👀4

아, 맞아. 작동해야 합니다 😊

apaszke 에 2017년 10월 12일

당신이 사용해야한다는 점을 제외하고 torch.is_tensor(v) 대신 isinstance(v, torch.Tensor)

apaszke 에 2017년 10월 12일

👍18 😄3

비슷한 문제가있었습니다. GPU 0 이외의 GPU에서 옵티마이저 상태를 저장한 다음 상태를 로드하면 여전히 모든 것이 GPU 0에 로드됩니다. map_location 에 torch.load() map_location 를 지정해도 작동하지 않았습니다. @dogancan 의 솔루션은 이것을 해결합니다.

stormraiser 에 2017년 10월 23일

안녕하세요 여러분, 이 스레드의 문제와 매우 유사한 문제가 있습니다. 제 코드는 다음과 같습니다.

model = inceptionresnetv2(num_classes=config['tr_classes'])
model = torch.nn.DataParallel(model).cuda()
model.load_state_dict(checkpoint['md_state_dict'])
optimizer = torch.optim.Adam(model.parameters(), lr=config['tr_lr'], weight_decay=config['tr_weightdecay'])
optimizer.load_state_dict(checkpoint['md_optimizer'])
for state in optimizer.state.values():
    for k, v in state.items():
        if torch.is_tensor(v):
            state[k] = v.cuda()

그리고 다시 시작하면 옵티마이저에서 KeyErrors가 발생합니다.

---> 40         optimizer.step()
     41 
     42         config['am_batch_time'].update(time.time() - end)
~/.conda/envs/env_pytorch/lib/python3.5/site-packages/torch/optim/adam.py in step(self, closure)
     44                     continue
     45                 grad = p.grad.data
---> 46                 state = self.state[p]
     47 
     48                 # State initialization
KeyError: Parameter containing:
(0 ,0 ,.,.) = 
 -1.6336e-01 -5.6482e-01 -4.2228e-02
...
[torch.cuda.FloatTensor of size 32x3x3x3 (GPU 0)]

이 문제를 해결하는 방법을 알고 있습니까? BTW, 저는 8개의 GPU를 사용하고 있습니다. 이 문제가 그 때문인지 추측하고 있습니다.

codars 에 2017년 11월 18일

@CodArs-van 다중 GPU 문제를 해결할 수 있었습니까?

rafaelvalle 에 2018년 02월 05일

@rafaelvalle 질문

codars 에 2018년 02월 05일

👍1

그냥 댓글, 이 문제는

    def load_state_dict(self, state_dict):
        ...
        # deepcopy, to be consistent with module API
        state_dict = deepcopy(state_dict)
       ...

deepcopy 는 모든 상태 텐서를 GPU0으로 이동합니다.
따라서 옵티마이저의 상태를 특정 GPU로 이동하면 이 문제가 해결됩니다.

lzcn 에 2018년 03월 18일

👍2

안녕하세요 @lzcn님 , 다른 텐서의 특정 GPU 위치를 미리 어떻게 알 수 있습니까?

chrisliu54 에 2018년 08월 15일

모든 torch.save() 호출이 항상 자동으로 생성된 CPU 버전을 사용하는 기능이 실현 가능합니까?
그리고 다시 시작할 때 torch.load()는 사용 중인 "현재" 장치(또는 더 나은 전략)를 사용합니다.
현재 모델/옵티마이저/스케줄러/등의 장치 간에 저장 및 로드가 일관되도록 하기 위해 많은 상용구 코드가 필요한 것 같습니다.

sebastienwood 에 2019년 03월 29일

👍1

비슷한 문제가 발생하여 @dogancan 의 솔루션에 따라 model, model.cuda() 및 DataParallel(model)을 다시 로드한 후 optimizer.cuda() 없이 Adam 최적화 프로그램을 다시

ran337287 에 2019년 04월 19일

감사합니다. 작동합니다!

@apaszke 아, 내 나쁜. 옵티마이저가 다시 생성되는 줄을 업데이트하는 것을 잊었습니다. 그러나 그렇지 않으면 다음 작업을 수행해야 합니다. 맞습니까?
model = Model()
model.load_state_dict(checkpoint['model'])
model.cuda()
optimizer = optim.Adam(model.parameters())
optimizer.load_state_dict(checkpoint['optimizer'])
for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

jiangzhonglian 에 2019년 07월 25일

👍2

@apaszke
안녕하세요, 말씀하신대로 모델을 다른 장치로 이동할 때마다 옵티마이저를 빌드해야 하지만 모델을 다른 장치로 이동하고 뒤로 이동하면 옵티마이저를 다시 빌드해야 합니까?
다음은 예제 코드입니다.

model = Model()
model.cuda()
optimizer = optim.Adam(model.parameters())

for d, gt in trn_dataloader:
    # train
    ... 
    optimizer.step()
    model.cpu() # move to cpu
    # eval or do other things
    ...
    model.cuda()  # but finnally, move back

최적화 프로그램이 예상대로 실행됩니까?

또한 model.to(model.device) 하면 옵티마이저를 다시 빌드해야 합니까?

menghuu 에 2019년 08월 25일

@apaszke 아, 내 나쁜. 옵티마이저가 다시 생성되는 줄을 업데이트하는 것을 잊었습니다. 그러나 그렇지 않으면 다음 작업을 수행해야 합니다. 맞습니까?
model = Model()
model.load_state_dict(checkpoint['model'])
model.cuda()
optimizer = optim.Adam(model.parameters())
optimizer.load_state_dict(checkpoint['optimizer'])
for state in optimizer.state.values():
    for k, v in state.items():
        if isinstance(v, torch.Tensor):
            state[k] = v.cuda()

@apaszke 이렇게 순서를

```파이썬
모델 = 모델()
model.to('쿠다')
옵티마이저 = optim.Adam(model.parameters())
optimizer.load_state_dict(체크포인트['옵티마이저'])
optimizer.state.values()의 상태:
state.items()의 k, v의 경우:
if isinstance(v, torch.Tensor):
상태[k] = v.cuda()
model.load_state_dict(체크포인트['모델'])

모델을 'cuda'로 이동하지만 옵티마이저의 상태 딕셔너리를 먼저 로드한 후 체크포인트에서 상태 딕셔너리만 로드한다는 의미입니까?

mistermoutan 에 2020년 07월 13일

문제는 옵티마이저의 상태가 모델과 동일하게 장치에 로드된다는 결론을 내릴 수 있습니다. 먼저 모델을 GPU에 로드한 다음 옵티마이저의 상태를 로드해야 합니다. 모델과 최적화 프로그램의 상태가 모두 GPU에 로드되도록 합니다.

pingguokiller 에 2020년 09월 30일

cpu에 로드한 후 옵티마이저를 cuda로 이동하는 대신 cuda에서 직접 체크포인트를 로드할 수 있습니다.

model.to(device)

ckpt = torch.load(<model_path>, map_location=device)

model.load_state_dict(ckpt['state_dict'])
optimizer.load_state_dict(ckpt['optimizer'])
scheduler.load_state_dict(ckpt['scheduler'])

del ckpt

kyteinsky 에 2020년 10월 29일

👍2

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Pytorch: 옵티마이저 load_state_dict() 문제?

가장 유용한 댓글

모든 23 댓글

관련 문제