Detectron: 4GBカードのメモリが不足しています

作成日 2018年01月24日 · 24コメント · ソース: facebookresearch/Detectron

Nvidia GTX 1050TiでFaster-RCNNを実行しようとしていますが、メモリが不足しています。 Nvidia-smiによると、約170MBがすでに使用されていますが、Faster-RCNNは実際に3.8GBのVRAMを使用して画像を処理していますか？

Mask-RCNN（入門チュートリアルのモデル）も試してみましたが、クラッシュする前に約4つの画像（ブラウザーを閉じた場合は5つ）を取得しました。

これはバグですか、それとも本当に4GB以上のメモリが必要ですか？

INFO infer_simple.py: 111: Processing demo/18124840932_e42b3e377c_k.jpg -> /home/px046/prog/Detectron/output/18124840932_e42b3e377c_k.jpg.pdf
terminate called after throwing an instance of 'caffe2::EnforceNotMet'
  what():  [enforce fail at blob.h:94] IsType<T>(). wrong type for the Blob instance. Blob contains nullptr (uninitialized) while caller expects caffe2::Tensor<caffe2::CUDAContext> .
Offending Blob name: gpu_0/conv_rpn_w.
Error from operator: 
input: "gpu_0/res4_5_sum" input: "gpu_0/conv_rpn_w" input: "gpu_0/conv_rpn_b" output: "gpu_0/conv_rpn" name: "" type: "Conv" arg { name: "kernel" i: 3 } arg { name: "exhaustive_search" i: 0 } arg { name: "pad" i: 1 } arg { name: "order" s: "NCHW" } arg { name: "stride" i: 1 } device_option { device_type: 1 cuda_gpu_id: 0 } engine: "CUDNN"
*** Aborted at 1516787658 (unix time) try "date -d @1516787658" if you are using GNU date ***
PC: @     0x7f08de455428 gsignal
*** SIGABRT (@0x3e800000932) received by PID 2354 (TID 0x7f087cda9700) from PID 2354; stack trace: ***
    @     0x7f08de4554b0 (unknown)
    @     0x7f08de455428 gsignal
    @     0x7f08de45702a abort
    @     0x7f08d187db39 __gnu_cxx::__verbose_terminate_handler()
    @     0x7f08d187c1fb __cxxabiv1::__terminate()
    @     0x7f08d187c234 std::terminate()
    @     0x7f08d1897c8a execute_native_thread_routine_compat
    @     0x7f08def016ba start_thread
    @     0x7f08de52741d clone
    @                0x0 (unknown)
Aborted (core dumped)

enhancement

ソース

Omegastick

最も参考になるコメント

1つの追加の注意：現在の実装では、トレーニング中にメモリの最適化が使用されますが、推論中には使用されません。推論の場合、一度消費されると中間アクティベーションが不要になるため、メモリ使用量を大幅に削減できます。将来的には、推論のみのメモリ最適化を追加することを検討します。

rbgirshick 2018年01月24日

👍22 🎉7

全てのコメント24件

こんにちは@ Omegastick 、Faster R-CNNアルゴリズムのメモリ要件は、バックボーンネットワークアーキテクチャや使用するテストイメージスケールなど、さまざまな要因によって異なります。

たとえば、次を使用して、デフォルトのResNet-50構成でFasterR-CNNを実行できます。

python2 tools/infer_simple.py \
  --cfg configs/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml \
  --output-dir /tmp/detectron-visualizations \ 
  --image-ext jpg \
  --wts https://s3-us-west-2.amazonaws.com/detectron/35857389/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml.01_37_22.KSeq0b5q/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl \
  demo

デモイメージで実行するのに3GB以上は必要ありません。

ir413 2018年01月24日

👍3

rbgirshick 2018年01月24日

👍22 🎉7

@Omegastick私のマシンでテストしたところ、Faster RCNN- resnet101とMaskRCNN- resnet101はどちらも約4GBのGPUメモリを使用しています。

mattdingmeng 2018年01月24日

👍1

@ ir413おかげで、あなたがリンクしたモデルは私のマシンでうまく機能します（2.5GBのVRAM使用量で実行されます）。

Omegastick 2018年01月25日

推論にGPUがまったく必要ないのであれば、それはすばらしいことです。

samhodge 2018年01月27日

👍5

2GメモリGPUでmask-rcnnを実行するにはどうすればよいですか？誰かが私を助けることができますか？

x-codingman 2018年01月28日

👍15

この問題は、Caffe 2またはDetectronの実装が原因ですか？この問題を解決するには、Detectronのどのファイルを確認する必要がありますか？

pacowong 2018年03月17日

@rbgirshick

推論の場合、一度消費されると中間アクティベーションが不要になるため、メモリ使用量を大幅に削減できます。将来的には、推論のみのメモリ最適化を追加することを検討します。

PyTorch / Caffe2にはすでに何かが実装されていますか？はいの場合、どこを掘る必要がありますか？

gadcam 2018年05月29日

@gadcamこれは長い間私のcaffe2.python.memonger.release_blobs_when_used （https://github.com/pytorch/pytorch/blob/master/caffe2/python/memonger.py#L229）は、必要なもののほとんどを実装する必要があると思います。ただし、対処する必要のある重要な問題がいくつかあります。

一部のネットワーク（マスクR-CNNなど）では、推論時に複数のネットが使用されるため、1つのグラフのみを推論してすべてのアクティベーションを解放できるわけではありません（マスクヘッドネットなどの別のグラフで必要になる場合があるため）。
この機能では、テストしていないキャッシュメモリマネージャーを使用する必要があるため、単にオンにするだけでは問題が発生する可能性があります。

rbgirshick 2018年05月29日

@rbgirshick詳しい説明ありがとうございます！

私が理解しているように、私たちにとってrelease_blobs_when_usedは、通常のProtoから「メモリ最適化」へのコンバーターとして機能します。

一部のネットワーク（マスクR-CNNなど）では、推論時に複数のネットが使用されるため、1つのグラフのみを推論してすべてのアクティベーションを解放できるわけではありません（マスクヘッドネットなどの別のグラフで必要になる場合があるため）。

言い換えれば、 dont_free_blobsを第2段階で使用されるブロブで埋める必要がありますか？

この機能では、テストしていないキャッシュメモリマネージャーを使用する必要があるため、単にオンにするだけでは問題が発生する可能性があります。

したがって、テストする場合は、 FLAGS_caffe2_cuda_memory_poolをcub （またはthc ）に設定する必要がありますが、Pythonでこれを行うことはできますか？
私が見つけることができたそれへの非常に希少な参照の1つはここにありますhttps://github.com/pytorch/pytorch/blob/6223bfdb1d3273a57b58b2a04c25c6114eaf3911/caffe2/core/context_gpu.cu#L190

gadcam 2018年05月29日

@gadcam

私が理解しているように、release_blobs_when_usedは、通常のProtoから「メモリ最適化」へのコンバーターとして機能します。

それは正解です。計算グラフを分析し、各blobがいつ使用されなくなるかを決定してから、メモリ解放操作を挿入します。

言い換えれば、dont_free_blobsを第2段階で使用されるblobで埋める必要がありますか？

はい、この関数がどれだけうまく使用および/またはテストされているかわからないという警告があります...コードをgrepすることから、実際には使用されていないようです。したがって、期待どおりに機能しない可能性があることに注意してください。

したがって、テストする場合は、FLAGS_caffe2_cuda_memory_poolをcub（またはthc）に設定する必要がありますが、Pythonでこれを行うことはできますか？

はい。新しく追加されたthcメモリマネージャーの方が効率的だと思います。最近の（異なるものの）ユースケースでは、 cub代わりにそれを使用する必要がありました。

rbgirshick 2018年05月29日

@rbgirshickあなたは正しいです、それは危険な道のように見えます！

はい。新しく追加されたメモリマネージャの方が効率的だと思います。最近の（異なるものの）ユースケースでは、cubの代わりにそれを使用する必要がありました。

私が意味したのは、それを行うためのドキュメントがどこにあるか知っていますか、それとも例がありますか？（これを主張して本当に申し訳ありません、多分私は何かを逃したかもしれませんが、それに関するドキュメントを見つけることができませんでした）

gadcam 2018年05月29日

ドキュメントに関する

rbgirshick 2018年05月29日

@asaadaldienご迷惑をおかけして申し訳ありませんが、あなたはアドバイスをいただいた数少ない人の1人のようです。

caffe2_cuda_memory_poolが設定されていることを確認してください

memongerまたはdata_parallel_modelを使用する場合（参照用にここにあります）。
キャッシュメモリマネージャーを有効にする方法についてのヒントはありますか？（PythonでCaffe2を使用）

gadcam 2018年05月30日

@gadcam cubをcaffe2_cuda_memory_poolフラグに渡すことで、cubキャッシュアロケータを有効にできます。例：

workspace.GlobalInit([
'--caffe2_cuda_memory_pool=cub',
])

ただし、これは動的メモリメモリを使用する場合にのみ必要です。

asaadaldien 2018年05月30日

@asaadaldien
GlobalInitに関するドキュメントがないため、その方法を理解するのに多くの時間がかかりました。
手伝ってくれてありがとうございます！だから今、私はいくつかの実験を始めることができます！

gadcam 2018年05月30日

私はこの問題に対する簡単な解決策を持っています。
'P2〜P5'と 'rois'を出力blobとして設定できますが、中央のblobだけでなく、メモリ最適化を使用する場合は最適化されません。

xmyqsh 2018年05月31日

私にはうまくいかないようです。
私がテストしたモデルはe2e_keypoint_rcnn_R-50-FPN_s1x.yamlです。
model.net部分に対してテストしてみました。

テストにはinfer_simple.pyました。

workspace.GlobalInit(['caffe2', '--caffe2_log_level=0', '--caffe2_cuda_memory_pool=thc'])

と

dont_free_blobs = set(model.net.Proto().external_output)
expect_frees = set(i for op in model.net.Proto().op for i in op.input)
expect_frees -= dont_free_blobs

opti_net = release_blobs_when_used(model.net.Proto(), dont_free_blobs, selector_fun=None)
model.net.Proto().op.extend(copy.deepcopy(opti_net.op))

test_release_blobs_when_used(model.net.Proto(), expect_frees)

ここで、 test_release_blobs_when_usedはhttps://github.com/pytorch/pytorch/blob/bf58bb5e59fa64fb49d77467f3466c6bc0cc76c5/caffe2/python/memonger_test.py#L731に触発されてい

def test_release_blobs_when_used(with_frees, expect_frees):
    found_frees = set()
    for op in with_frees.op:
        if op.type == "Free":
            print("OP FREEE", op)
            assert(not op.input[0] in found_frees)  # no double frees
            found_frees.add(op.input[0])
        else:
            # Check a freed blob is not used anymore
            for inp in op.input:
                assert(not inp in found_frees)
            for outp in op.output:
                assert(not outp in found_frees)

    try:
        assert(expect_frees == found_frees)
    except:
        print("Found - Expect frees Nb=", len(found_frees - expect_frees), found_frees - expect_frees, "\n\n\n")
        print("Expect - Found frees Nb=", len(expect_frees - found_frees), expect_frees - found_frees, "\n\n\n")
       #assert(False)

dont_free_blobsが正しい値に設定されていないことに注意してください！

この関数は、予期しないblobが解放されることはなく、一部が欠落していることを示しています。
（ dont_free_blobsが正しくないため、これは正常です）
だから私はモデルを実行し続けます。

そして...何も起こりません。 save_graph関数を使用して確認しました。無料の操作は、実際に適切な場所にあります。

このラインのサンプル入力のメモリ使用量は1910Mo +/- 5Moです。
https://github.com/facebookresearch/Detectron/blob/6c5835862888e784e861824e0ad6ac93dd01d8f5/detectron/core/test.py#L158

しかし、メモリマネージャをCUBに設定すると、本当に驚くべきことが起こります。

workspace.GlobalInit(['caffe2', '--caffe2_log_level=0', '--caffe2_cuda_memory_pool=cub'])

RunNet行のRAM使用量は、3 Go !!のように増加します。（通常のコードまたは無料のblobを使用したカスタムコードを使用）

何が起こっているのか理解できません...

gadcam 2018年06月05日

＃507で説明されているように、Jetson TX1で推論を開始すると、メモリ不足エラーも発生します。
このスレッドで説明されているソリューションは、次のようになります。
python2 tools/infer_simple.py \ --cfg configs/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml \ --output-dir /tmp/detectron-visualizations \ --image-ext jpg \ --wts https://s3-us-west-2.amazonaws.com/detectron/35857389/12_2017_baselines/e2e_faster_rcnn_R-50-FPN_2x.yaml.01_37_22.KSeq0b5q/output/train/coco_2014_train%3Acoco_2014_valminusminival/generalized_rcnn/model_final.pkl \ demo
また、動作しません。合計4 GBのRAMを使用できますが（CPUとGPUのメモリは共有されていますが）、メモリが不足しています。
私が試すことができるより小さなモデルはまだありますか？
@Omegastickが説明したように、最大2.5 GBのメモリしか必要としないはずですが、それでもJetsonには収まらないようです。私が試すことができる他の提案はありますか？

johannathiemich 2018年06月21日

👍2

@johannathiemich同じ問題が発生しました。エラーはありませんが、プロセスは強制終了されました。問題を解決しましたか？私もJetsonTX1を使用しています。

ll884856 2018年08月08日

@ ll884856はい、実際にそうしました。結局、ベースネットをスクイーズネットと交換し、ネットを再度トレーニングしました。ただし、パフォーマンスは元のResNetバックボーンよりもはるかに悪いことに注意してください。
ベースネットを変更する前に試すこともできるのは、FPNをオフにすることです。これも役立つ可能性があります。しかし、それはパフォーマンスも低下させますが、低下がそれほど悪くないことを願っています。
よろしければ、squeezenetの実装と重みをお伝えします。私は現在、このトピックに関する学士論文に取り組んでいます。

johannathiemich 2018年08月08日

@johannathiemich返信ありがとうございます！実際、私はこの分野に携わったばかりであり、MaskR-CNNのアーキテクチャについてはあまり明確ではありません。実装と重みを教えていただければ、MaskR-CNNを理解して実装するのに大いに役立ちます。私のメールアドレスは[email protected]です。
ありがとうございました！

ll884856 2018年08月09日

ええ、検出器を使わずにCPUでMask-RCNNを実行できます。

見る：
https://vimeo.com/277180815

samhodge 2018年08月09日

私にも同様の問題が1つあるので、ここで私を助けてくれる人がいたら、本当に感謝しますhttps://github.com/facebookresearch/detectron2/issues/1539なぜこれが起こっているのか本当にわかりません。したがって、torch.nograd（）部分を含めた後、CPUでバッチで25枚の画像を予測するには、9.3GBのRAMが必要です。

memicalem 2020年06月05日

このページは役に立ちましたか？

0 / 5 - 0 評価

Detectron: 4GBカードのメモリが不足しています

最も参考になるコメント

全てのコメント24件

関連する問題