Detectron: 4GB 카드의 메모리 부족

에 만든 2018년 01월 24일 · 24코멘트 · 출처: facebookresearch/Detectron

Nvidia GTX 1050Ti에서 Faster-RCNN을 실행하려고 하는데 메모리가 부족합니다. Nvidia-smi는 약 170MB가 이미 사용 중이라고 말하지만 Faster-RCNN은 실제로 3.8GB의 VRAM을 사용하여 이미지를 처리합니까?

Mask-RCNN도 시도했고(시작하기 튜토리얼의 모델) 충돌하기 전에 약 4개의 이미지(내 브라우저를 닫은 경우 5개)를 얻었습니다.

이것은 버그입니까 아니면 실제로 4GB 이상의 메모리가 필요한가요?

INFO infer_simple.py: 111: Processing demo/18124840932_e42b3e377c_k.jpg -> /home/px046/prog/Detectron/output/18124840932_e42b3e377c_k.jpg.pdf
terminate called after throwing an instance of 'caffe2::EnforceNotMet'
  what():  [enforce fail at blob.h:94] IsType<T>(). wrong type for the Blob instance. Blob contains nullptr (uninitialized) while caller expects caffe2::Tensor<caffe2::CUDAContext> .
Offending Blob name: gpu_0/conv_rpn_w.
Error from operator: 
input: "gpu_0/res4_5_sum" input: "gpu_0/conv_rpn_w" input: "gpu_0/conv_rpn_b" output: "gpu_0/conv_rpn" name: "" type: "Conv" arg { name: "kernel" i: 3 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 1 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 0 } engine: "CUDNN"
*** Aborted at 1516787658 (unix time) try "date -d @1516787658" if you are using GNU date ***
PC: @     0x7f08de455428 gsignal
*** SIGABRT (@0x3e800000932) received by PID 2354 (TID 0x7f087cda9700) from PID 2354; stack trace: ***
    @     0x7f08de4554b0 (unknown)
    @     0x7f08de455428 gsignal
    @     0x7f08de45702a abort
    @     0x7f08d187db39 __gnu_cxx::__verbose_terminate_handler()
    @     0x7f08d187c1fb __cxxabiv1::__terminate()
    @     0x7f08d187c234 std::terminate()
    @     0x7f08d1897c8a execute_native_thread_routine_compat
    @     0x7f08def016ba start_thread
    @     0x7f08de52741d clone
    @                0x0 (unknown)
Aborted (core dumped)

enhancement

출처

Omegastick

가장 유용한 댓글

한 가지 추가 사항: 현재 구현은 학습 중에 메모리 최적화를 사용하지만 추론 중에는 사용하지 않습니다. 추론의 경우 중간 활성화가 필요하지 않기 때문에 메모리 사용량을 크게 줄일 수 있습니다. 향후 추론 전용 메모리 최적화를 추가하는 것을 고려할 것입니다.

rbgirshick 에 2018년 01월 24일

👍22 🎉7

모든 24 댓글

@Omegastick님 , Faster R-CNN 알고리즘의 메모리 요구 사항은 백본 네트워크 아키텍처 및 사용된 테스트 이미지 스케일을 포함한 여러 요인에 따라 다릅니다.

예를 들어 다음을 사용하여 기본 ResNet-50 구성으로 Faster R-CNN을 실행할 수 있습니다.

python2 tools/infer_simple.py \
  --cfg configs/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml \
  --output-dir /tmp/detectron-visualizations \ 
  --image-ext jpg \
  --wts https://s3-us-west-2.amazonaws.com/detectron/35857389/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml.01_37_22.KSeq0b5q/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl \
  demo

데모 이미지에서 실행하는 데 3GB 이상이 필요하지 않습니다.

ir413 에 2018년 01월 24일

👍3

rbgirshick 에 2018년 01월 24일

👍22 🎉7

@Omegastick 내 컴퓨터에서 테스트한 Faster RCNN-resnet 101 및 Mask RCNN-resnet 101 모두 약 4GB GPU 메모리를 사용합니다.

mattdingmeng 에 2018년 01월 24일

👍1

@ir413 감사합니다. 연결한 모델이 내 컴퓨터에서 훌륭하게 작동합니다(2.5GB VRAM 사용량으로 실행).

Omegastick 에 2018년 01월 25일

추론에 GPU가 전혀 필요하지 않다면 멋질 것입니다.

samhodge 에 2018년 01월 27일

👍5

어떻게 2G 메모리 GPU로 mask-rcnn을 실행할 수 있습니까? 아무도 나를 도울 수 있습니까?

x-codingman 에 2018년 01월 28일

👍15

이 문제는 Caffe 2 또는 Detectron의 구현으로 인한 것입니까? 이 문제를 해결하려면 Detectron에서 어떤 파일을 확인해야 하나요?

pacowong 에 2018년 03월 17일

@rbgirshick

추론의 경우 중간 활성화가 필요하지 않기 때문에 메모리 사용량을 크게 줄일 수 있습니다. 향후 추론 전용 메모리 최적화를 추가하는 것을 고려할 것입니다.

PyTorch/Caffe2에 이미 구현된 것이 있습니까? 그렇다면 어디를 파야합니까?

gadcam 에 2018년 05월 29일

@gadcam이 오랫동안 내 할 일 목록에왔다,하지만 불행히도 우선 순위는 감소하는 대신 증가하고있다 : /. 내 생각 caffe2.python.memonger.release_blobs_when_used (https://github.com/pytorch/pytorch/blob/master/caffe2/python/memonger.py#L229) 우리가 필요한 대부분을 구현해야합니다. 그러나 해결해야 할 몇 가지 중요하지 않은 문제가 있습니다.

일부 네트워크(예: Mask R-CNN)의 경우 추론 시간에 다중 네트가 사용되므로 하나의 그래프에 대해서만 추론하여 모든 활성화를 해제할 수 있는 것은 아닙니다(이는 마스크 헤드 네트와 같은 다른 그래프에 필요할 수 있기 때문에).
이 기능을 사용하려면 테스트하지 않은 캐싱 메모리 관리자를 사용해야 하므로 단순히 켜는 데 문제가 있을 수 있습니다.

rbgirshick 에 2018년 05월 29일

@rbgirshick 자세한 설명 감사합니다!

그래서 내가 이해하는 것처럼 우리에게 release_blobs_when_used 는 일반 Proto에서 "메모리 최적화"로 변환하는 역할을 합니다.

일부 네트워크(예: Mask R-CNN)의 경우 추론 시간에 다중 네트가 사용되므로 하나의 그래프에 대해서만 추론하여 모든 활성화를 해제할 수 있는 것은 아닙니다(이는 마스크 헤드 네트와 같은 다른 그래프에 필요할 수 있기 때문에).

다시 말해서 dont_free_blobs 를 두 번째 단계에서 사용하는 얼룩으로 채워야 한다는 말입니까?

이 기능을 사용하려면 테스트하지 않은 캐싱 메모리 관리자를 사용해야 하므로 단순히 켜는 데 문제가 있을 수 있습니다.

따라서 테스트하려면 FLAGS_caffe2_cuda_memory_pool 를 cub (또는 thc )로 설정해야 하지만 Python에서 이 작업을 수행할 수 있습니까?
내가 찾을 수있는 매우 부족한 참조 중 하나는 https://github.com/pytorch/pytorch/blob/6223bfdb1d3273a57b58b2a04c25c6114eaf3911/caffe2/core/context_gpu.cu#L190입니다.

gadcam 에 2018년 05월 29일

@gadcam

그래서 내가 이해하는 한 우리에게 release_blobs_when_used는 일반 Proto에서 "메모리 최적화된" 것으로 변환하는 역할을 합니다.

네, 맞습니다. 계산 그래프를 분석하고 각 블롭이 더 이상 사용되지 않을 시기를 결정한 다음 메모리 해제 연산을 삽입합니다.

다시 말해 dont_free_blobs를 두 번째 단계에서 사용하는 얼룩으로 채워야 한다는 말입니까?

예, 이 기능이 얼마나 잘 사용 및/또는 테스트되었는지 확실하지 않다는 경고와 함께... grepping 코드에서 실제로 사용되지 않는 것 같습니다. 따라서 예상대로 작동하지 않을 수 있음을 염두에 두겠습니다.

따라서 테스트하려면 FLAGS_caffe2_cuda_memory_pool을 cub(또는 thc)로 설정해야 하지만 Python에서 이를 수행할 수 있습니까?

예. 새로 추가된 thc 메모리 관리자가 더 효율적이라고 생각합니다. 우리는 최근의(다르지만) 사용 사례에 대해 cub 대신 이를 사용해야 했습니다.

rbgirshick 에 2018년 05월 29일

@rbgirshick 당신 말이 맞아요, 위험한 길이 보입니다!

예. 새로 추가된 메모리 관리자가 더 효율적이라고 생각합니다. 우리는 최근의(다르지만) 사용 사례를 위해 cub 대신에 그것을 사용해야 했습니다.

내가 의미하는 바는 문서를 어디서 찾을 수 있는지 알고 있습니까 아니면 예제가 있습니까? (이 부분을 고집하게 되어 정말 죄송합니다. 제가 놓친 부분이 있을 수 있지만 관련 문서를 찾을 수 없었습니다.)

gadcam 에 2018년 05월 29일

문서에 관한 @gadcam , 내가 알고 있는 것은 아닙니다. 죄송합니다!

rbgirshick 에 2018년 05월 29일

@asaadaldien 귀찮게 해서 정말 죄송합니다만 당신은 다음과 같이 조언한 몇 안 되는 사람 중 한 명인 것 같습니다.

caffe2_cuda_memory_pool이 설정되었는지 확인하십시오.

memonger 또는 data_parallel_model을 사용할 때 (참고로 여기에 있습니다 ).
캐싱 메모리 관리자를 활성화하는 방법에 대한 힌트가 있습니까? (파이썬에서 Caffe2 사용하기)

gadcam 에 2018년 05월 30일

@gadcam cub를 caffe2_cuda_memory_pool 플래그에 전달하여 cub 캐시 할당자를 활성화할 수 있습니다. 예:

workspace.GlobalInit([
'--caffe2_cuda_memory_pool=cub',
])

그러나 이것은 동적 메모리 기억기를 사용할 때만 필요합니다.

asaadaldien 에 2018년 05월 30일

@asaadaldien
GlobalInit 대한 문서가 없기 때문에 수행하는 방법을 파악하는 데 많은 시간이 걸렸을 것입니다.
당신의 도움을 주셔서 대단히 감사합니다! 이제 몇 가지 실험을 시작할 수 있습니다!

gadcam 에 2018년 05월 30일

이 문제에 대한 간단한 해결책이 있습니다.
중간 blob 뿐만 아니라 'P2~P5' 및 'rois'를 출력 blob으로 설정할 수 있습니다. 그러면 메모리 최적화를 사용할 때 최적화되지 않습니다.

xmyqsh 에 2018년 05월 31일

나를 위해 작동하지 않는 것 같습니다.
내가 테스트한 모델은 e2e_keypoint_rcnn_R-50-FPN_s1x.yaml 입니다.
model.net 부분에 대해 테스트를 시도했습니다.

테스트에 infer_simple.py 를 사용했습니다.

workspace.GlobalInit(['caffe2', '--caffe2_log_level=0', '--caffe2_cuda_memory_pool=thc'])

그리고

dont_free_blobs = set(model.net.Proto().external_output)
expect_frees = set(i for op in model.net.Proto().op for i in op.input)
expect_frees -= dont_free_blobs

opti_net = release_blobs_when_used(model.net.Proto(), dont_free_blobs, selector_fun=None)
model.net.Proto().op.extend(copy.deepcopy(opti_net.op))

test_release_blobs_when_used(model.net.Proto(), expect_frees)

여기서 test_release_blobs_when_used 는 https://github.com/pytorch/pytorch/blob/bf58bb5e59fa64fb49d77467f3466c6bc0cc76c5/caffe2/python/memonger_test.py#L731에서 영감을 받았습니다.

def test_release_blobs_when_used(with_frees, expect_frees):
    found_frees = set()
    for op in with_frees.op:
        if op.type == "Free":
            print("OP FREEE", op)
            assert(not op.input[0] in found_frees)  # no double frees
            found_frees.add(op.input[0])
        else:
            # Check a freed blob is not used anymore
            for inp in op.input:
                assert(not inp in found_frees)
            for outp in op.output:
                assert(not outp in found_frees)

    try:
        assert(expect_frees == found_frees)
    except:
        print("Found - Expect frees Nb=", len(found_frees - expect_frees), found_frees - expect_frees, "\n\n\n")
        print("Expect - Found frees Nb=", len(expect_frees - found_frees), expect_frees - found_frees, "\n\n\n")
       #assert(False)

dont_free_blobs 이 올바른 값으로 설정되지 않았음을 유의하십시오!

이 함수는 예기치 않은 얼룩이 해제되지 않고 일부가 누락되었음을 알려줍니다.
( dont_free_blobs 가 올바르지 않기 때문에 정상입니다)
그래서 저는 계속해서 모델을 운영하고 있습니다.

그리고... 아무 일도 일어나지 않습니다. save_graph 함수를 사용하여 확인했습니다. 무료 작업이 실제로 올바른 위치에 있습니다.

이 라인의 샘플 입력에 대한 메모리 사용량은 1910 Mo +/- 5 Mo입니다.
https://github.com/facebookresearch/Detectron/blob/6c5835862888e784e861824e0ad6ac93dd01d8f5/detectron/core/test.py#L158

하지만 메모리 관리자를 CUB로 설정하면 정말 놀라운 일이 발생합니다.

workspace.GlobalInit(['caffe2', '--caffe2_log_level=0', '--caffe2_cuda_memory_pool=cub'])

RunNet 라인의 RAM 사용량은 3 Go!! (일반 코드 또는 무료 blob이 있는 사용자 지정 코드 사용)

무슨 일이 일어나고 있는지 이해하지 못합니다 ...

gadcam 에 2018년 06월 05일

#507에 설명된 대로 Jetson TX1에서 추론을 시작할 때 메모리 부족 오류도 발생합니다.
이 스레드에 설명된 솔루션은 다음과 같습니다.
python2 tools/infer_simple.py \ --cfg configs/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml \ --output-dir /tmp/detectron-visualizations \ --image-ext jpg \ --wts https://s3-us-west-2.amazonaws.com/detectron/35857389/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml.01_37_22.KSeq0b5q/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl \ demo
또한 작동하지 않고 총 4GB RAM을 사용할 수 있지만 여전히 메모리가 부족합니다(CPU 및 GPU 메모리는 공유되지만).
아직 시도할 수 있는 더 작은 모델이 있습니까?
@Omegastick이 설명

johannathiemich 에 2018년 06월 21일

👍2

@johannathiemich 나는 같은 문제가 있습니다. 오류는 없지만 프로세스가 종료되었습니다. 문제를 해결하셨나요? 젯슨 TX1도 사용합니다.

ll884856 에 2018년 08월 08일

@ll884856 네, 사실 그랬습니다. 베이스 네트를 스퀴즈네트로 교체하고 네트를 다시 훈련시켰습니다. 그러나 성능은 원래 ResNet 백본보다 훨씬 나쁘다는 점을 명심하십시오.
베이스넷을 변경하기 전에 시도할 수 있는 방법은 FPN을 끄는 것 또한 도움이 될 수 있습니다. 그러나 감소가 나쁘지 않기를 바라지만 성능도 감소할 것입니다.
당신이 원한다면 내가 당신에게 스퀴즈넷의 구현과 무게를 줄 수 있습니다. 저는 현재 이 주제에 대한 학사 학위 논문을 작성 중입니다.

johannathiemich 에 2018년 08월 08일

@johannathiemich 답변 감사합니다! 사실 저는 이 분야에 막 입문한지 얼마 되지 않아 Mask R-CNN의 아키텍처에 대해 잘 모릅니다. 구현과 가중치를 알려주시면 Mask R-CNN을 이해하고 구현하는 데 많은 도움이 될 것입니다. 내 이메일은 [email protected]입니다.
고맙습니다 !

ll884856 에 2018년 08월 09일

예, 탐지기가 아닌 CPU에서 Mask-RCNN을 수행할 수 있습니다.

보다:
https://vimeo.com/277180815

samhodge 에 2018년 08월 09일

비슷한 문제가 하나 있습니다. 여기에서 저를 도와줄 사람이 있다면 정말 감사하겠습니다. https://github.com/facebookresearch/detectron2/issues/1539 왜 이런 일이 일어나는지 정말 이해가 되지 않습니다. 따라서 torch.nograd() 부분을 포함시킨 후 CPU에서 일괄 처리로 25개의 이미지를 예측하려면 9.3GB의 RAM이 필요합니다.

memicalem 에 2020년 06월 05일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Detectron: 4GB 카드의 메모리 부족

가장 유용한 댓글

모든 24 댓글

관련 문제