Pytorch: RuntimeError: cuda 런타임 오류(2): /data/users/soumith/miniconda2/conda-bld/pytorch-0.1.9_1487346124464/work/torch/lib/THC/generic/THCStorage.cu:66의 메모리 부족

에 만든 2017년 03월 08일 · 41코멘트 · 출처: pytorch/pytorch

오류가 발생했습니다.

THCudaCheck FAIL file=/data/users/soumith/miniconda2/conda-bld/pytorch-0.1.9_1487346124464/work/torch/lib/THC/generic/THCStorage.cu line=66 error=2 : out of memory
Traceback (most recent call last):
  File "main_snli.py", line 293, in <module>
    experiment=BaseExperiment()
  File "main_snli.py", line 74, in __init__
    self.model.cuda()
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/nn/modules/module.py", line 143, in cuda
    return self._apply(lambda t: t.cuda(device_id))
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/nn/modules/module.py", line 114, in _apply
    module._apply(fn)
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/nn/modules/module.py", line 114, in _apply
    module._apply(fn)
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/nn/modules/module.py", line 120, in _apply
    param.data = fn(param.data)
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/nn/modules/module.py", line 143, in <lambda>
    return self._apply(lambda t: t.cuda(device_id))
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/_utils.py", line 51, in _cuda
    return self.type(getattr(torch.cuda, self.__class__.__name__), async)
  File "/home/bbbian/anaconda3/lib/python3.6/site-packages/torch/_utils.py", line 24, in _type
    return new_type(self.size()).copy_(self, async)
RuntimeError: cuda runtime error (2) : out of memory at /data/users/soumith/miniconda2/conda-bld/pytorch-0.1.9_1487346124464/work/torch/lib/THC/generic/THCStorage.cu:66

이 오류를 어떻게 해결할 수 있습니까?

출처

BinbinBian

👍1

가장 유용한 댓글

GPU의 메모리가 부족합니다. 버그가 아닙니다.

apaszke 에 2017년 03월 08일

😄88 😕19 🎉14 👎12 👀2 🚀2 👍2

모든 41 댓글

GPU의 메모리가 부족합니다. 버그가 아닙니다.

apaszke 에 2017년 03월 08일

😄88 😕19 🎉14 👎12 👀2 🚀2 👍2

@apaszke
다음과 같이 간단한 테스트 코드를 작성하면 'out of memory.....' 오류가 발생하며 테스트 입력 데이터 차원은 49200입니다.
그러나 49200에서 1000으로 더 낮은 데이터 차원을 시도했을 때 코드는 정상적으로 실행됩니다.
변경해야 하는 pytorch의 매개변수 설정이 있습니까?

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.dropout = nn.Dropout(p=0.2)
        self.relu = nn.ReLU()
        self.fc1 = nn.Linear(49200, 49200)
        self.fc2 = nn.Linear(49200, 49200)
        self.fc3 = nn.Linear(49200, 3)
        self.out = nn.Sequential(
            self.fc1,
            self.relu,
            self.dropout,
            self.fc1,
            self.relu,
            self.dropout,
            self.fc3
            )
    def forward(self, premise, hypothesis):
        return self.out(torch.cat([premise, hypothesis], 1))

net = Net().cuda()
print (net)
premise = Variable(torch.randn(64, 82, 300))
hypothesis = Variable(torch.randn(64, 82, 300))
premise = premise.cuda()
hypothesis = hypothesis.cuda()
out = net(premise.contiguous().view(64,-1), hypothesis.contiguous().view(64,-1))
print(out)

BinbinBian 에 2017년 03월 09일

두 개의 큰 FC 레이어의 매개변수와 기울기 사이에서 네트워크(크기 49200)에는 40GB의 메모리가 필요합니다...

jekbradbury 에 2017년 03월 09일

👍33 😕12

@jekbradbury 계산을 설명할 수 있습니까? 매개변수 및 그라디언트와 관련하여 각 레이어가 차지하는 메모리는 얼마입니까? 감사 해요.

mataney 에 2017년 06월 20일

🎉3

해당 모델에서 단일 선형 레이어의 가중치만 고려하는 경우. 당신은 얻을

49200^2 = 2 420 640 000

요소 + 각 요소는 4바이트를 사용하므로

2 420 640 000 * 4 / 1024^3 = 9,01GB

무게만을 위해. 그런 다음 그라디언트를 저장하려면 이 크기의 다른 메모리 청크가 필요합니다. 또한 그라디언트를 계산할 수 있도록 중간 결과를 저장해야 합니다.

apaszke 에 2017년 06월 20일

👍78 ❤17 🎉4

안녕하세요, 동일한 오류가 발생했지만 유효성 검사를 위해서만 오고 있습니다. 전체 교육 과정은 완벽하게 잘 작동했습니다. Inception v3를 사용하여 전이 학습을 하려고 합니다. 아무도 나를 도울 수 있습니까? 감사 해요

tabibusairam 에 2017년 12월 25일

👍32

@tabibusairam 나도 같은 문제가 발생했습니다. 교육 프로세스는 잘 작동했지만(6G cuda 메모리와 내 GPU에는 12G 메모리가 있음) 동일한 네트워크를 통과하는 평가 프로세스는 다음과 같은 오류 정보를 받았습니다.

THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_1503965122592/work/torch/lib/THC/generic/THCStorage.cu line=66 error=2 : out of memory
Traceback (most recent call last):
  File "evaluate.py", line 132, in <module>
    evaluate(pnet, args)
  File "evaluate.py", line 94, in evaluate
    predictions = pnet(X_test, initial_states)
  File "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/modules/module.py", line 224, in __call__
    result = self.forward(*input, **kwargs)
  File "/home/zcrwind/workspace/pro/predict/zcr/pnet.py", line 497, in forward
    output, hidden_states = self.step(A0, hidden_states)
  File "/home/zcrwind/workspace/pro/predict/zcr/pnet.py", line 377, in step
    forget_gate = hard_sigmoid(self.conv_layers['f'][lay](inputs))
  File "/home/zcrwind/workspace/pro/predict/zcr/pnet.py", line 28, in hard_sigmoid
    x = F.threshold(-x, 0, 0)
  File "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/functional.py", line 459, in threshold
    return _functions.thnn.Threshold.apply(input, threshold, value, inplace)
  File "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/_functions/thnn/auto.py", line 174, in forward
    getattr(ctx._backend, update_output.name)(ctx._backend.library_state, input, output, *args)
RuntimeError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1503965122592/work/torch/lib/THC/generic/THCStorage.cu:66

운동하셨나요? 감사 해요.

zcrwind 에 2018년 01월 14일

유효성 검사 동안의 계산 그래프는 기차에서와 같이 다릅니다.
매개변수는 유효성 검사에서 훈련되지 않습니다. 명령을 사용해보십시오 -
nvidia-smi를 실행하여 유효성 검사 중에 GPU 메모리 요구 사항을 확인합니다.

배치 크기를 줄여보십시오(단일 GPU에서만 작업하는 경우).
메모리 요구 사항은 배치 크기가 작을수록 적습니다.

2018년 1월 14일 일요일 오전 11:17, Chenrui Zhang [email protected]
썼다:

@tabibusairam https://github.com/tabibusairam 나도 만났다
동일한 문제: 교육 프로세스가 잘 작동했습니다(6G cuda 메모리 및 내
GPU에는 12G 메모리가 있음) 같은 과정을 거친 평가 프로세스
네트워크에 다음과 같은 오류 정보가 있습니다.
THCudaCheck FAIL 파일=/opt/conda/conda-bld/pytorch_1503965122592/work/torch/lib/THC/generic/THCStorage.cu line=66 error=2 : 메모리 부족
역추적(가장 최근 호출 마지막):
파일 "evaluate.py", 132행,
평가(prednet, 인수)
평가에서 파일 "evaluate.py", 94행
예측 = prednet(X_test, initial_states)
파일 "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/modules/module.py", 224행, __call__
결과 = self.forward( 입력, * kwargs)
파일 "/home/zcrwind/workspace/ijcai2018/predict/zcrPredNet/prednet.py", 497행, 앞으로
출력, hidden_states = self.step(A0, hidden_states)
파일 "/home/zcrwind/workspace/ijcai2018/predict/zcrPredNet/prednet.py", 377행, 단계적으로
forget_gate = hard_sigmoid(self.conv_layers['f'][lay](입력))
파일 "/home/zcrwind/workspace/ijcai2018/predict/zcrPredNet/prednet.py", 28행, hard_sigmoid
x = F.threshold(-x, 0, 0)
파일 "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/functional.py", 라인 459, 임계값
return _functions.thnn.Threshold.apply(입력, 임계값, 값, 제자리)
파일 "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/_functions/thnn/auto.py", 174행, 앞으로
getattr(ctx._backend, update_output.name)(ctx._backend.library_state, 입력, 출력, *args)
RuntimeError: cuda 런타임 오류(2): /opt/conda/conda-bld/pytorch_1503965122592/work/torch/lib/THC/generic/THCStorage.cu:66의 메모리 부족
운동하셨나요? 감사 해요.
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/pytorch/pytorch/issues/958#issuecomment-357490369 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AMHzdCQ_jJ9ogDm1jaNSLB6wCbfP08XOks5tKZT8gaJpZM4MW6we
.

tabibusairam 에 2018년 01월 14일

👍5

@tabibusairam 감사합니다. 배치 크기를 줄였으며 평가 코드는 이제 아주 잘 작동합니다.

zcrwind 에 2018년 01월 14일

@tabibusairam pytorch.org 의 예제로 전송 기대 코드를 작성합니까? 그렇다면 다른 방법으로 해결할 생각이 있습니다.

TommeyChang 에 2018년 01월 22일

예, 그 형식으로 코드를 작성했습니다.
또한 모델에 nn.DataParallel을 추가했습니다.
다른 아이디어는 반드시 환영합니다

2018년 1월 22일 오전 5시 32분에 "Tommeychang" [email protected] 이 작성했습니다.

@tabibusairam https://github.com/tabibusairam
pytorch.org의 예제로 기울기 코드를 전송하시겠습니까? 그렇다면 나는
그것을 해결하기 위한 또 다른 아이디어.
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/pytorch/pytorch/issues/958#issuecomment-359294050 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AMHzdN8mRJKNr_0czrXDd-p66-iJImubks5tM9AggaJpZM4MW6we
.

tabibusairam 에 2018년 01월 22일

@tabibusairam 같은 상황에서 같은 오류가 발생했습니다. 추론 시 Variable()에서 "volatile"을 변경하여 해결했습니다. volatile=True로 설정하면 추론 중에 계산 그래프가 유지됩니다. 추론 시간에는 계산 그래프를 유지할 필요가 없습니다. 메모리를 많이 소모합니다.
`Variable(x, volatile=True)'와 같이 volatile 플래그를 True로 설정할 수 있습니다.

lyakaap 에 2018년 01월 24일

👍4

이 예에서는 훈련 및 검증을 위해 각각 두 개의 모델이 생성됩니다. 이 설정을 사용하면 유효성 검사 시 GPU에서 다른 모델이 실행되고 유효성 검사 데이터를 volatile 매개변수로 래핑하더라도 GPU의 메모리가 부족합니다.
저는 이 문제를 하나의 모델만 설정하여 해결하고 유효성 검사 데이터를 volatile 매개변수로 래핑하여 계산을 줄입니다. @tabibusairam

TommeyChang 에 2018년 01월 27일

@TommeyChang님, 감사합니다. 전이 학습 샘플을 확인했지만 검증에서도 모델이 설정된 위치를 이해할 수 없었습니다. 코드에서 모델이 설정된 위치를 보여 주시겠습니까?

lyakaap 에 2018년 01월 27일

이 문제는 코드가 아닌 pytorch로 인해 발생할 수 있습니다. 코드는 아래와 같습니다.
단계 == '훈련'인 경우:
scheduler.step()
model.train(True) # 모델을 훈련 모드로 설정
또 다른:
model.train(False) # 모델을 평가 모드로 설정
watch -n 1 -d nvidia-smi로 GPU 통계를 추적하면 첫 번째 검증 에포크 때 메모리 사용량이 증가하는 것을 볼 수 있습니다.

TommeyChang 에 2018년 01월 27일

훈련과 검증 모두에 대해 검증을 위해 동일한 모델을 어떻게 선택했습니까?

2018년 1월 27일 오전 11시 44분에 "Tommeychang" [email protected] 이 작성했습니다.

이 문제는 코드가 아닌 pytorch로 인해 발생할 수 있습니다. 코드는 다음과 같습니다
아래에:
단계 == '훈련'인 경우:
scheduler.step()
model.train(True) # 모델을 훈련 모드로 설정
또 다른:
model.train(False) # 모델을 평가 모드로 설정
watch -n 1 -d nvidia-smi를 사용하여 GPU 통계를 추적하면
첫 번째 유효성 검사 에포크 때 메모리 사용량이 증가합니다.
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/pytorch/pytorch/issues/958#issuecomment-360963591 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AMHzdBKY_UCQ3QMtnUhdHoahxUx-oG4eks5tOr6ugaJpZM4MW6we
.

tabibusairam 에 2018년 01월 27일

모델의 모드를 설정하지 않으면 암시적 훈련 모드가 됩니다. 따라서 모드 세트 라인은 필요하지 않지만 유효성 검사 단계에서 휘발성 매개변수를 사용하여 텐서를 변수로 래핑합니다. 내 코드는 다음과 같습니다.

if phase == 'train':
scheduler.step()

........

for data in dataloaders[phase]:  ## Iterate over data.

inputs, labels = data  ## get the inputs

if use_gpu:  ## pass them into GPU
inputs = inputs.cuda()
labels = labels.cuda()

if phase == 'train':  ## wrap them in Variable
inputs, labels = Variable(inputs), Variable(labels)
else:
inputs = Variable(inputs, volatile=True)
labels = Variable(labels, volatile=True)

TommeyChang 에 2018년 01월 28일

감사 해요. 하지만 validation 중에도 train flag를 False로 설정하지 않으면 BatchNormalization과 Dropout이 train/validation 단계에서 다르게 동작하기 때문에 적절한 결과를 얻을 수 없다는 것이 두렵습니다.

lyakaap 에 2018년 01월 28일

👍1

그래 나도 너와 같은 생각이야. 그리고 나는 기차 플래그 False로 내 모델을 테스트했고 성능이 향상되었습니다. 조언 감사합니다.

TommeyChang 에 2018년 01월 29일

나는 volatile=True 를 시도했고 그것은 나를 위해 작동합니다. @jekbradbury 를 가르쳐 주셔서 감사합니다.

kingxueyuf 에 2018년 02월 23일

@TommeyChang @tabibusairam 나는 같은 오류를 치고 있지만 다른 경우입니다. 이 함수를 통해 내 모델에 새로운 정규화 용어를 추가하고 있습니다.

def l2_reg(mdl):
        l2_reg = None
        for W in mdl.parameters():
                if W.ndimension() < 2:
                        continue
                else:   
                        if l2_reg is None:
                                l2_reg = (torch.max(torch.abs(W)))**2
                        else:   
                                l2_reg = l2_reg + (torch.max(torch.abs(W)))**2

        return l2_reg

내가 관찰한 것은 배치 크기를 128에서 8로 변경하더라도 첫 번째 에포크 이후에 오류가 발생하고 단순히 정규화를 변경하고 l2 정규화를 반환하는 경우입니다. 이 오류가 발생하지 않습니다.
모든 제안/의견은 정말 감사하겠습니다!

nbansal90 에 2018년 02월 24일

@TommeyChang 일반적으로 정규화 용어를 구별하기를 원하므로 (결국 그라디언트 값에 영향을 미치기 때문에) pu는 아마도 제안한대로 수행하고 싶지 않을 것입니다.

apaszke 에 2018년 03월 09일

👍1

@apaszke 안녕하세요~ 저도 같은 질문을 받았지만 처음에는 모델을 올바르게 훈련시킬 수 있습니다. 600단계 후에 "RuntimeError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1518243271935/work/torch/lib/THC/generic/THCStorage.cu:58 " 오류가 발생했습니다. .

훈련하는 동안 메모리 비용은 7G(내 GPU는 11G)입니다. 일반적으로 내 의견으로는 처음에 올바르게 교육한다는 것은 내 코드가 정확하다는 것을 의미합니다. 맞나요? 앞으로 훈련 과정에서 쌓이는 다른 것들이 있습니까? 매우 감사합니다!!

EricKani 에 2018년 04월 21일

일부 변수가 누적되어 모델로 점점 더 많은 공간을 차지합니다.
더 많은 훈련 .. 그러한 변수를 찾아보고 저장하지 않는지 확인하십시오.
원치 않는 것들

2018년 4월 21일 토요일 오전 7시 35분 EricKani [email protected] 이 다음과 같이 작성했습니다.

@apaszke https://github.com/apaszke 안녕하세요~ 저도 같은 질문을 받았지만
처음에는 모델을 올바르게 훈련할 수 있습니다. 아마 600걸음 후에, 나는
"RuntimeError: cuda 런타임 오류(2): 메모리 부족" 오류가 발생했습니다.
/opt/conda/conda-bld/pytorch_1518243271935/work/torch/lib/THC/generic/THCStorage.cu:58
".
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/pytorch/pytorch/issues/958#issuecomment-383259455 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AMHzdN8KuyZIjewB6gkY1MvswGWuF1QMks5tqpPegaJpZM4MW6we
.

tabibusairam 에 2018년 04월 21일

@tabibusairam 먼저 정말 감사합니다. 많은 oom 문제의 주요 원인입니다. 그러나 내 네트워크의 문제를 찾지 못했습니다. 검증(이미지 변환 네트워크) 없이 네트워크를 훈련할 때 GPU의 메모리는 항상 안정적입니다. 그러나 유효성 검사 단계가 있을 때 첫 번째 GPU(해당 GPU에 대한 유효성 검사)의 메모리가 두 번 증가합니다.
예를 들어, 첫 번째 Epoch가 시작될 때 내 GPU 메모리는 7G를 소비한 다음 유효성 검사 시작과 함께 첫 번째 Epoch 이후에 9G로 변경합니다. 두 번째 Epoch에 대한 유효성 검사 후 메모리 소비는 10G가 됩니다. 그 이후로 메모리가 안정화됩니다. 나 엄청 혼란스러워...

EricKani 에 2018년 04월 23일

volatile 변수(0.3) 또는 torch.no_grad 컨텍스트(마스터를 사용하는 경우)로 유효성 검사를 실행하고 있습니까?

apaszke 에 2018년 04월 23일

👍1

@apaszke @tabibusairam 안녕하세요, pytorch를 사용하여 GP를 사용하여 GAN을 빌드할 때 이 오류를 발견하고 2일 동안 여기에 멈췄습니다. 이 문제를 해결하기 위해 이미 여러 가지 방법을 시도했지만 둘 다 작동하지 않습니다. 정말 도움이 필요합니다 plz.
오류는 다음과 같습니다.
_RuntimeError: cuda 런타임 오류(2): xx\torch\lib\thc\generic/THCStorage.cu:66_ 메모리 부족
내가 거꾸로 할 때

_파일 "xxx/train_extractor.py", 128행, in
gradient_penalty.backward()
파일 "xxx\lib\site-packages\torch\autograd\variable.py", 156행, 역방향
torch.autograd.backward(self, gradient,retain_graph,create_graph,retain_variables)
파일 "xxx\lib\site-packages\torch\autograd__init__.py", 줄 98, 역방향
변수, grad_variables, 유지_그래프)_

매번 훈련 과정의 12번째 에포크에 발생하며 이미 batch_size와 네트워크 크기를 줄였습니다.
검증 절차가 없습니다.
다음은 내 코드의 작은 부분입니다.
알파 = 토치.rand(conf.batch_size,1).expand(X.size())
x_hat = autograd.Variable(alpha real.data.cpu()+(1-alpha) (real.data.cpu()+0.5 real.data.std() torch.rand(real.size())), require_grad = 사실)
x_hat = x_hat.cuda() if conf.cuda else x_hat
pred_hat,_ = Dis(x_hat)
레이블 = 토치.ones(pred_hat.size())
label = label.cuda() if conf.cuda else 레이블
기울기 = autograd.grad(출력 = pred_hat, 입력 = x_hat, grad_outputs=label, create_graph=True, 유지_그래프=True,only_inputs=True)[0]
gradient_penalty = conf.gp_lambda ((gradients.norm(2,dim=1)-1) 2).mean()* gradient_penalty.backward()

he13689 에 2018년 06월 24일

배치 크기를 64에서 32로 줄이는 것이 효과적이었습니다.

himanshudce 에 2018년 07월 05일

👍1

@lyakaap 변수(x, volatile=True). 나를 위한 일이야.고마워.

Qinxianshen 에 2018년 10월 25일

@에릭카니 ,
안녕하세요, 당신은이 문제를 해결 했습니까?
나는 또한 같은 질문을 받는다.
방법을 알려주실 수 있나요?

qlwang25 에 2018년 12월 03일

@qlwang25 @EricKani 가장 가능성이 높은 상황은 아래와 같이 손실을 계산하는 동안 실수로 기울기가 누적되는 것입니다.

loss = criterion(y_, y)
loss.backward()
loss_meter += loss  # incorrect
# loss_meter += loss.item()  # correct

lyakaap 에 2018년 12월 03일

🎉1

@lyakaap
먼저 대단히 감사합니다.
말씀하신대로 쓰고 있습니다.
각 유효성 검사 배치 후 GPU 메모리 소비가 증가하므로 다음 열차는 오류가 발생합니다.

THCudaCheck FAIL file=/pytorch/aten/src/THC/generic/THCStorage.cu line=58 error=2 : out of memory
Traceback (most recent call last):
  File "train.py", line 290, in <module>
    main()
  File "train.py", line 263, in main
    train(i)
  File "train.py", line 152, in train
    loss, num_total, num_correct = model.train_model(src, src_len, src_sent_len, tgt, tgt_len, optim)
  File "/home/wangqianlong/model/bytecup/models/seq2seq.py", line 110, in train_model
    loss.backward()
  File "/home/wangqianlong/.local/lib/python3.6/site-packages/torch/tensor.py", line 93, in backward
    torch.autograd.backward(self, gradient, retain_graph, create_graph)
  File "/home/wangqianlong/.local/lib/python3.6/site-packages/torch/autograd/__init__.py", line 89, in backward
    allow_unreachable=True)  # allow_unreachable flag
RuntimeError: cuda runtime error (2) : out of memory at /pytorch/aten/src/THC/generic/THCStorage.cu:58

일반적인 코드 흐름:

def train_model(self, data):
    outputs = self(data)
    loss = self.criterion(outputs, y)
    loss.backward()
    optim.step()
    return loss

def sample(self, data):
    src, src_len = data
        with torch.no_grad():
                bos = torch.ones(src.size(0)).long().fill_(dict.BOS)
        if self.use_cuda:
            src = src.cuda()
            src_len = src_len.cuda()
            bos = bos.cuda()

        contexts = other_function(src, src_len)
            samples = self.decoder.sample([bos], contexts)
            return samples

def train(i):
    model.train()
    global train_dataloader
    for data in train_dataloader:
        model.zero_grad()
        loss = model.train_model(data)

        count_loss += loss.item()
        if ...:
            # not important
            print(count_loss)

def eval(i):
    model.eval()
    for batch in eval_dataloader:
        samples = model.sample(data)
        print(samples)

def main():
    global train_dataloader
    for i in range(epoch):
        train_dataloader = load(data_(i%9)) 
        train(i)

        eval(i)

trainset은 비교적 커서 8개로 나누었습니다(data_0, data_1, ...., data_8).
당신은 나에게 몇 가지 제안을 줄 수 있습니까?
매우 감사합니다.

qlwang25 에 2018년 12월 03일

@qlwang25 귀하의 코드를 확인했지만 어떤 부분이 잘못된 것인지 알 수 없습니다.
두 가지 가능성이 있다고 생각합니다.

model.zero_grad() 대신 optimizer.zero_grad() 사용
GPU의 일부 변수에는 영구 참조가 있으므로 이러한 변수는 GPU 메모리를 해제하지 않습니다. 샘플()을 검토하는 것은 어떻습니까?

lyakaap 에 2018년 12월 03일

@lyakaap
우선 너무 빨리 답변해주셔서 감사합니다.
나는 당신의 첫 번째 요점을 이해할 수 있습니다.
그러나 이러한 변수는 결코 GPU 메모리를 해제하지 않아 나를 혼란스럽게 만듭니다.
어떤 변수? 예를 들어 줄 수 있습니까?
이러한 변수를 해제하는 방법. torch.cuda.empty_cache() 가 유용합니까?

qlwang25 에 2018년 12월 03일

@qlwang25
어떤 변수가 있는지 모르지만 src, bos가 가능성이 있습니다.
AFAIK,torch.cuda.empty_cache()는 참조된 변수를 해제하지 않습니다. 이 함수를 호출하기 전에 원인이 되는 변수를 찾고 del {var_name}을 작성해야 합니다.

lyakaap 에 2018년 12월 03일

@lyakaap
매우 감사합니다!
나는 이미 당신의 제안을 알고 있습니다.
귀하의 답변에 다시 한 번 감사드립니다.

qlwang25 에 2018년 12월 03일

@ladyrick
매우 감사합니다!
나는 이미 당신의 제안을 알고 있습니다.
귀하의 답변에 다시 한 번 감사드립니다.

@lyakaap 말씀 하시는 것 같은데요?
ㅋ

ladyrick 에 2018년 12월 04일

😄2

나는 volatile을 시도했지만 작동하지 않았다(나중에 내가 pytroch 1.01에 있고 "UserWarning: volatile이 제거되었으며 지금은 효과가 없기 때문입니다. 대신 with torch.no_grad(): 를 사용하십시오.")
그러나 간단한 다시 시작으로도 문제가 해결되었습니다....

danFromTelAviv 에 2019년 02월 26일

나는 같은 문제가 있어서 내 모델이 훈련할 수 있는 한 최소로 배치 크기를 줄이려고 했습니다. 또한 정확도 측면에서 균형을 유지하기 위해 ur epoch, learning rate, training sample을 증가시킬 수 있습니다.

asis012 에 2019년 08월 20일

이 문제는 검증 데이터 세트의 크기가 커서 발생할 수 있습니다. 작은 데이터 세트를 선택한 다음 거대한 데이터 세트를 입력하여 테스트할 수 있습니다.

yuanjunchai 에 2019년 09월 05일

매개변수가 검증에서 훈련되지 않기 때문에 검증 중 계산 그래프는 기차에서와 다릅니다. 유효성 검사 중에 GPU 메모리 요구 사항을 보려면 - nvidia-smi 명령을 사용하십시오. 배치 크기를 줄여 보십시오(단일 GPU에서만 작업하는 경우). 배치 크기가 작을수록 메모리 요구 사항이 적습니다.
…
2018년 1월 14일 일요일 오전 11:17, Chenrui Zhang @ . * > 썼다: @tabibusairam https://github.com/tabibusairam 나도 같은 문제가 발생했다: 훈련 과정은 잘 작동했지만(6G cuda 메모리와 내 GPU에는 12G 메모리가 있음) 동일한 네트워크를 통과하는 평가 과정은 다음과 같은 오류 정보: THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_1503965122592/work/torch/lib/THC/generic/THCStorage.cu line=66 error=2 : 메모리 부족 Traceback(가장 최근 호출 마지막 ): 파일 "evaluate.py", 132행,평가(prednet, args) 파일 "evaluate.py", 94행, 평가 예측 = prednet(X_test, initial_states) 파일 "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site- packages/torch/nn/modules/module.py", 라인 224, __call__ result = self.forward( input, * kwargs) 파일 "/home/zcrwind/workspace/ijcai2018/predict/zcrPredNet/prednet.py", 라인 497, 순방향 출력에서 hidden_states = self.step(A0, hidden_states) 파일 "/home/zcrwind/workspace/ijcai2018/predict/zcrPredNet/prednet.py", 줄 377, 단계에서 forget_gate = hard_sigmoid(self.conv_layers[' f'][lay](inputs)) 파일 "/home/zcrwind/workspace/ijcai2018/predict/zcrPredNet/prednet.py", 28행, hard_sigmoid x = F.threshold(-x, 0, 0) 파일 " /home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/functional.py", 라인 459, 임계값 반환 _functions.thnn.Threshold.apply(입력, 임계값 , 값, 인플레이스) 파일 "/home/zcrwind/.conda/envs/condapython3.6/lib/python3.6/site-packages/torch/nn/_functions/thnn/auto. py", 174행, 앞으로 getattr(ctx._backend, update_output.name)(ctx._backend.library_state, input, output, *args) RuntimeError: cuda 런타임 오류(2): /opt/conda/의 메모리 부족 conda-bld/pytorch_1503965122592/work/torch/lib/THC/generic/THCStorage.cu:66 운동하셨나요? 감사 해요. — 당신이 언급되었기 때문에 이것을 받는 것입니다. 이 이메일에 직접 답장하거나 GitHub < #958 (comment) >에서 확인하거나 https://github.com/notifications/unsubscribe-auth/AMHzdCQ_jJ9ogDm1jaNSLB6wCbfP08XOks5tKZT8gaJpZM4MW6we 스레드를 음소거하십시오.

이것은 효과가 있었다. 정말 고맙습니다.

ksrath0re 에 2020년 03월 10일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Pytorch: RuntimeError: cuda 런타임 오류(2): /data/users/soumith/miniconda2/conda-bld/pytorch-0.1.9_1487346124464/work/torch/lib/THC/generic/THCStorage.cu:66의 메모리 부족

가장 유용한 댓글

모든 41 댓글

관련 문제