Pytorch: Holen Sie sich einen einzelnen Batch von DataLoader ohne Iteration

Erstellt am 26. Juni 2017 · 18Kommentare · Quelle: pytorch/pytorch

Ist es möglich, einen einzelnen Stapel von einem DataLoader zu erhalten? Derzeit richte ich eine for-Schleife ein und gebe einen Stapel manuell zurück.
Wenn es derzeit keine Möglichkeit gibt, dies mit dem DataLoader zu tun, würde ich gerne daran arbeiten, die Funktionalität hinzuzufügen.

Quelle

narendasan

👍14

Hilfreichster Kommentar

next(iter(data_loader)) ?

colesbury am 26. Juni 2017

👍181 ❤50 🎉24 👀8 😄8 🚀7 👎7 😕5

Alle 18 Kommentare

next(iter(data_loader)) ?

colesbury am 26. Juni 2017

👍181 ❤50 🎉24 👀8 😄8 🚀7 👎7 😕5

Cool, das ist viel besser als das, was ich benutzt hatte.
Danke!

narendasan am 26. Juni 2017

Diese Antwort provoziert ein Speicherleck in meinem Training mit linearer Vergrößerung des RAM-Speichers, während die ständige Beschäftigung mit einer regulären for-Schleife (und genau dem gleichen Code in der Schleife) :/

hyperfraise am 2. Feb. 2018

👍8

:+1: an @hyperfraise. Dadurch entsteht ein Speicherleck.

samarthbhargav am 20. Juni 2018

👍6

Dasselbe Problem des Speicherlecks mit dem folgenden (etwas anderen) Code:

dataloader_iterator = iter(dataloader)
for i in range(iterations):     
    try:
        X, Y = next(dataloader_iterator)
    except:
        dataloader_iterator = iter(train_loader)
        X, Y = next(dataloader_iterator)
    do_backprop(X, Y)

Während der for-Schleife steigt die Speicherbelegung kontinuierlich an. Ich könnte ein neues Thema mit mehr Informationen eröffnen (falls noch nicht geschehen)

srossi93 am 25. Juni 2018

Dies ist möglicherweise kein Speicherleck, sondern einfach die Tatsache, dass Ihre Schleife extrem damit beschäftigt ist, Prozesse schneller zu starten, als wir sie überhaupt beenden können. DataLoader-Iteratoren sind nicht als sehr kurzlebige Objekte gedacht

apaszke am 25. Juni 2018

👀3 😄3 👍3

Mein vorheriger Kommentar war falsch. Ich habe entdeckt, dass das Leck an einer anderen Stelle im Code war (ich habe mich an vars festgehalten, ohne mich für diejenigen zu lösen, die neugierig sind).

samarthbhargav am 25. Juni 2018

bekomme "BrokenPipeError: [Errno 32] Broken pipe" beim nächsten Versuch (iter(dataloader))

SystemErrorWang am 9. Juli 2018

😕4 👍4

Ich habe diese Methode verwendet, um Stapel für das Training in einer Schleife abzurufen:

    for i in range(n):
       batch = next(iter(data_loader))

Mir ist aufgefallen, dass ich immer denselben Batch erhalte, so wie der zugrunde liegende __getitem__ des Datensatzes immer denselben item -Index erhält.
Ist das normal?

shaibagon am 28. Okt. 2018

👍5

@shaibagon
Es ist nicht sehr gut dokumentiert, aber wenn Sie iter(dataloader) ausführen, erstellen Sie ein Objekt der Klasse _DataLoaderIter und in der Schleife erstellen Sie dasselbe Objekt n mal und rufen nur den ersten Stapel ab.
Eine Problemumgehung besteht darin, einen _DataLoaderIter außerhalb der Schleife zu erstellen und darüber zu iterieren. Das Problem besteht darin, dass _DataLoaderIter nach dem Abrufen aller Stapel einen StopIteration-Fehler auslöst .

Um Probleme zu vermeiden, mache ich derzeit folgendes:

    dataloader_iterator = iter(dataloader)
    for i in range(iterations):
        try:
            data, target = next(dataloader_iterator)
        except StopIteration:
            dataloader_iterator = iter(dataloader)
            data, target = next(dataloader_iterator)
        do_something()

Es ist sehr hässlich, aber es funktioniert gut.

srossi93 am 28. Okt. 2018

👍65 ❤16

ein ähnliches Problem kann hier gefunden werden . Ich hoffe, Lösungsvorschläge in diesem Thread können den Leuten dort auch helfen.

shaibagon am 14. Nov. 2018

@ srossi93 schöne Lösung. Manchmal erhalte ich eine ignorierte Ausnahme, wenn der Iterationszyklus endet: ConnectionResetError: [Errno 104] Connection reset by peer .

Scheint durch Multiprocessing verursacht zu sein. Wenn Sie num_workers auf dem Dataloader auf 0 setzen, verschwindet der Fehler. Irgendwelche anderen Lösungen?

davidtvs am 19. Nov. 2018

👍1

danke @srossi93

cuixing158 am 16. Jan. 2019

Vielleicht ist dieser Code etwas besser?

def inf_train_gen():
    while True:
        for images, targets in enumerate(dataloader):
            yield images, targets
gen = inf_train_gen
for it in range(num_iters):
    images, targets = gen.next()

eelxpeng am 3. Apr. 2019

👍6

Wird der Datensatz gemischt, wenn ich den oben angegebenen Code verwende?
dataloader_iterator = iter(dataloader) for i in range(iterations): try: X, Y = next(dataloader_iterator) except: dataloader_iterator = iter(train_loader) X, Y = next(dataloader_iterator) do_backprop(X, Y)

Yamin05114 am 8. Apr. 2019

warum ist das nicht schon ein Generator/Iterator?

brando90 am 10. Juni 2019

👍3

@ Yamin05114 Ich habe ein kleines Beispiel ausgeführt, um zu sehen, ob das Ergebnis von iter (dataloader) bei jedem Zurücksetzen gemischt wird. Wenn Sie dieses kleine Skript unten ausführen, können Sie sich den kleinen Satz von Druckanweisungen ansehen, um sich selbst zu vergewissern, dass die Reihenfolge tatsächlich gemischt ist. Dies ist im Allgemeinen kein Beweis, aber es ist ein überzeugender Beweis dafür, dass die Daten jedes Mal gemischt werden, wenn wir iter(train_loader) aufrufen.

import torch
from torch.utils.data import Dataset, DataLoader

dataset = torch.tensor([0, 1, 2, 3, 4, 5, 6, 7])
dataloader = DataLoader(dataset, batch_size=2, shuffle=True, num_workers=3)
iterloader = iter(dataloader)

for i in range(0, 12):

    try:
        batch = next(iterloader)
    except StopIteration:
        iterloader = iter(dataloader)
        batch = next(iterloader)

    print("iteration" + str(i))
    print(batch)

Außerdem konnte ich den Fehler von @shaibagon nicht reproduzieren ... der folgende Code scheint unterschiedliche Stapel zu erzeugen (unter Verwendung der gleichen Variablen wie oben definiert), also nicht sicher, was dort passiert ist.

for i in range(0, 12):
    batch = next(iter(dataloader))
    print("iteration: " + str(i))
    print(batch)

KevLuo am 6. Nov. 2019

Wenn Sie ein dataset -Objekt haben, das data.Dataset von Pytorch erbt, muss es die Methode __getitem__ überschreiben, die idx als Argument verwendet. Daher können Sie direkt darauf zugreifen:

**some dataset instance called _data_
data=Dataset(**kwargs)
for i in range(10):
     data[i]

oder

for i in range(10):
     data_batch.__getitem__(i)

AlexTS1980 am 14. Jan. 2020

👍2

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Pytorch: Holen Sie sich einen einzelnen Batch von DataLoader ohne Iteration

Hilfreichster Kommentar

Alle 18 Kommentare

Verwandte Themen