Pytorch: احصل على دفعة واحدة من DataLoader بدون تكرار

تم إنشاؤها على ٢٦ يونيو ٢٠١٧ · 18تعليقات · مصدر: pytorch/pytorch

هل من الممكن الحصول على دفعة واحدة من DataLoader؟ حاليًا ، أقوم بإعداد حلقة for وأعيد دفعة يدويًا.
إذا لم تكن هناك طريقة للقيام بذلك باستخدام DataLoader حاليًا ، فسيسعدني العمل على إضافة الوظيفة.

مصدر

narendasan

👍14

التعليق الأكثر فائدة

next(iter(data_loader)) ؟

colesbury في ٢٦ يونيو ٢٠١٧

👍181 ❤50 🎉24 👀8 😄8 🚀7 👎7 😕5

ال 18 كومينتر

next(iter(data_loader)) ؟

colesbury في ٢٦ يونيو ٢٠١٧

👍181 ❤50 🎉24 👀8 😄8 🚀7 👎7 😕5

رائع ، هذا أفضل بكثير مما كنت أستخدمه.
شكرا!

narendasan في ٢٦ يونيو ٢٠١٧

تثير هذه الإجابة تسريبًا للذاكرة في تدريبي من خلال الزيادة الخطية لذاكرة RAM ، أثناء العمل المستمر مع حلقة for عادية (ونفس الكود في الحلقة تمامًا): /

hyperfraise في ٢ فبراير ٢٠١٨

👍8

: +1: tohyperfraise. يؤدي هذا إلى حدوث تسرب للذاكرة.

samarthbhargav في ٢٠ يونيو ٢٠١٨

👍6

نفس مشكلة تسرب الذاكرة مع الكود التالي (مختلف قليلاً):

dataloader_iterator = iter(dataloader)
for i in range(iterations):     
    try:
        X, Y = next(dataloader_iterator)
    except:
        dataloader_iterator = iter(train_loader)
        X, Y = next(dataloader_iterator)
    do_backprop(X, Y)

يزداد احتلال الذاكرة باستمرار أثناء الحلقة. قد أفتح مشكلة جديدة بمزيد من المعلومات (إذا لم يتم ذلك بعد)

srossi93 في ٢٥ يونيو ٢٠١٨

قد لا يكون هذا تسربًا للذاكرة ولكن ببساطة حقيقة أن الحلقة الخاصة بك مشغولة للغاية بعمليات تفريخ أسرع مما يمكننا إنهاءها. لا يُقصد من مكررات DataLoader أن تكون كائنات قصيرة العمر

apaszke في ٢٥ يونيو ٢٠١٨

👀3 😄3 👍3

تعليقي السابق كان غير صحيح. اكتشفت أن التسريب كان في مكان آخر في الكود (كنت أتشبث به دون أن أفصل عن أولئك الذين لديهم فضول).

samarthbhargav في ٢٥ يونيو ٢٠١٨

الحصول على "BrokenPipeError: [Errno 32] Broken pipe" عند المحاولة التالية (iter (أداة تحميل البيانات))

SystemErrorWang في ٩ يوليو ٢٠١٨

😕4 👍4

لقد استخدمت هذه الطريقة لاسترداد دفعات للتدريب في حلقة:

    for i in range(n):
       batch = next(iter(data_loader))

لقد لاحظت أنني أستمر في الحصول على نفس الدفعة ، مثل __getitem__ الأساسي لمجموعة البيانات يستمر في الحصول على نفس الفهرس item .
هل هذا طبيعي؟

shaibagon في ٢٨ أكتوبر ٢٠١٨

👍5

تضمين التغريدة
لم يتم توثيقه جيدًا ولكن عندما تقوم بعمل iter(dataloader) تقوم بإنشاء كائن من class _DataLoaderIter ، وفي الحلقة ، ستقوم بإنشاء نفس الكائن n مرات واسترداد الدفعة الأولى فقط.
الحل هو إنشاء _DataLoaderIter خارج الحلقة وتكرارها. تكمن المشكلة في أنه بمجرد استرداد جميع الدُفعات ، فإن _DataLoaderIter سيرفع خطأ StopIteration .

لتجنب المشاكل ، ما أفعله حاليًا هو ما يلي:

    dataloader_iterator = iter(dataloader)
    for i in range(iterations):
        try:
            data, target = next(dataloader_iterator)
        except StopIteration:
            dataloader_iterator = iter(dataloader)
            data, target = next(dataloader_iterator)
        do_something()

إنه قبيح للغاية ولكنه يعمل بشكل جيد.

srossi93 في ٢٨ أكتوبر ٢٠١٨

👍65 ❤16

يمكن العثور على مشكلة مماثلة هنا وآمل أن تساعد الحلول المقترحة في هذا الموضوع الأشخاص هناك أيضًا.

shaibagon في ١٤ نوفمبر ٢٠١٨

@ srossi93 حل جميل. أحيانًا أحصل على استثناء تم تجاهله عند انتهاء دورة التكرارات: ConnectionResetError: [Errno 104] Connection reset by peer .

يبدو أنه ناتج عن المعالجة المتعددة. يؤدي تعيين عدد العاملين على أداة تحميل البيانات إلى 0 إلى اختفاء الخطأ. أي حلول أخرى؟

davidtvs في ١٩ نوفمبر ٢٠١٨

👍1

هههههههههههههههههههههههههههه

cuixing158 في ١٦ يناير ٢٠١٩

ربما هذا الرمز أفضل قليلاً؟

def inf_train_gen():
    while True:
        for images, targets in enumerate(dataloader):
            yield images, targets
gen = inf_train_gen
for it in range(num_iters):
    images, targets = gen.next()

eelxpeng في ٣ أبريل ٢٠١٩

👍6

هل سيتم تبديل مجموعة البيانات عشوائيًا إذا استخدمت الكود المقدم أعلاه؟
dataloader_iterator = iter(dataloader) for i in range(iterations): try: X, Y = next(dataloader_iterator) except: dataloader_iterator = iter(train_loader) X, Y = next(dataloader_iterator) do_backprop(X, Y)

Yamin05114 في ٨ أبريل ٢٠١٩

لماذا هذا ليس مولد / مكرر بالفعل؟

brando90 في ١٠ يونيو ٢٠١٩

👍3

@ Yamin05114 قمت بتشغيل مثال صغير لمعرفة ما إذا كانت نتيجة iter (أداة تحميل البيانات) يتم خلطها عشوائيًا في كل مرة تتم إعادة تعيينها. إذا قمت بتشغيل هذا البرنامج النصي الصغير أدناه ، فيمكنك إلقاء نظرة على مجموعة صغيرة من عبارات الطباعة لتأكيد بنفسك أن الأمر قد تم خلطه بشكل عشوائي. هذا ليس دليلاً بشكل عام ، لكنه دليل مقنع على أن البيانات يتم خلطها في كل مرة نسميها iter (train_loader).

import torch
from torch.utils.data import Dataset, DataLoader

dataset = torch.tensor([0, 1, 2, 3, 4, 5, 6, 7])
dataloader = DataLoader(dataset, batch_size=2, shuffle=True, num_workers=3)
iterloader = iter(dataloader)

for i in range(0, 12):

    try:
        batch = next(iterloader)
    except StopIteration:
        iterloader = iter(dataloader)
        batch = next(iterloader)

    print("iteration" + str(i))
    print(batch)

بالإضافة إلى ذلك ، لم أتمكن من إعادة إنتاج خطأ shaibagon ... يبدو أن الكود أدناه ينتج دفعات مميزة (باستخدام نفس المتغيرات كما هو محدد أعلاه) ، لذلك لست متأكدًا مما حدث هناك.

for i in range(0, 12):
    batch = next(iter(dataloader))
    print("iteration: " + str(i))
    print(batch)

KevLuo في ٦ نوفمبر ٢٠١٩

إذا كان لديك كائن dataset يرث data.Dataset من pytorch ، فيجب أن يتجاوز طريقة __getitem__ ، التي تستخدم idx كوسيطة. لذلك يمكنك الوصول إليه مباشرة:

**some dataset instance called _data_
data=Dataset(**kwargs)
for i in range(10):
     data[i]

أو

for i in range(10):
     data_batch.__getitem__(i)

AlexTS1980 في ١٤ يناير ٢٠٢٠

👍2

هل كانت هذه الصفحة مفيدة؟

0 / 5 - 0 التقييمات

القضايا ذات الصلة

RFC: أضف علامة torch.deterministic لفرض الخوارزميات القطعية

colesbury · 67تعليقات

الإصدار 1.3 لم يعد يدعم Tesla K40m؟

JamesOwers · 61تعليقات

دمج الموترات المعقدة

PhilippPelz · 128تعليقات

PyTorch 1.3: عشوائي "RuntimeError: CUDA error: unspecified launch failure"

alexeygolyshev · 77تعليقات

خطأ وقت التشغيل: خطأ CUDA: تمت مصادفة وصول غير قانوني للذاكرة

xiaoxiangyeyuwangye · 103تعليقات