Pytorch: BrokenPipeError: [Errno 32] 깨진 파이프

에 만든 2017년 08월 08일 · 35코멘트 · 출처: pytorch/pytorch

안녕하세요, 저는 Pytorch를 사용하여 삼중 네트워크(GPU)를 실행하지만 데이터를 얻었을 때 항상 BrokenPipeError:[Errno 32] Broken pipe가 있었습니다.

다음 코드에서 문제가 있다고 생각했습니다.

enumerate(test_loader)의 batch_idx, (data1, data2, data3):
args.cuda인 경우:
data1, data2, data3 = data1.cuda(), data2.cuda(), data3.cuda()
data1, data2, data3 = 변수(data1), 변수(data2), 변수(data3)

몇 가지 제안을 해주실 수 있나요? 정말 고맙습니다.

출처

mjchen611

가장 유용한 댓글

@mjchen611 실제 오류를 보려면 num_workers를 0으로 설정할 수 있습니다. plotter 올바르게 구성했습니까?

peterjc123 에 2017년 08월 31일

👍78 🎉22 🚀9 ❤6

모든 35 댓글

이것을 재현할 수 있는 코드 조각을 게시할 수 있습니까?

alykhantejani 에 2017년 08월 08일

@alykhantejani

1) 코드 링크: https://github.com/andreasveit/triplet-network-pytorch/blob/master/train.py

2) train.py에서 발생한 오류 -- 136

3) 오류는 다음과 같습니다.

runfile('G:/researchWork2/pytorch/triplet-network-pytorch-master/train.py', wdir='G:/researchWork2/pytorch/triplet-network-pytorch-master')
다시 로드된 모듈: triplet_mnist_loader, triplet_image_loader, tripletnet

매개변수 수: 21840
역추적(가장 최근 호출 마지막):
파일 "", 1행,
runfile('G:/researchWork2/pytorch/triplet-network-pytorch-master/train.py', wdir='G:/researchWork2/pytorch/triplet-network-pytorch-master')

실행 파일의 "D:\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py" 파일, 880행
execfile(파일명, 네임스페이스)

execfile의 "D:\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py" 파일, 102행
exec(compile(f.read(), 파일 이름, 'exec'), 네임스페이스)

파일 "G:/researchWork2/pytorch/triplet-network-pytorch-master/train.py", 258행, in
기본()

파일 "G:/researchWork2/pytorch/triplet-network-pytorch-master/train.py", 116행, 메인
train(train_loader, tnet, 기준, 최적화 프로그램, 에포크)

파일 "G:/researchWork2/pytorch/triplet-network-pytorch-master/train.py", 137행, 기차
enumerate(train_loader)의 batch_idx, (data1, data2):

파일 "D:\Anaconda3\lib\site-packages\torch\utils\data\dataloader.py", 줄 303, iter
DataLoaderIter(자체) 반환

파일 "D:\Anaconda3\lib\site-packages\torch\utils\data\dataloader.py", 162행, init
w.start()

파일 "D:\Anaconda3\lib\multiprocessing\process.py", 105행, 시작 시
self._popen = self._Popen(self)

파일 "D:\Anaconda3\lib\multiprocessing\context.py", 223행, _Popen
반환 _default_context.get_context().Process._Popen(process_obj)

파일 "D:\Anaconda3\lib\multiprocessing\context.py", 322행, _Popen
반환 Popen(process_obj)

파일 "D:\Anaconda3\lib\multiprocessing\popen_spawn_win32.py", 65행, init
reduction.dump(process_obj, to_child)

파일 "D:\Anaconda3\lib\multiprocessing\reduction.py", 60행, 덤프
ForkingPickler(파일, 프로토콜).dump(obj)

BrokenPipeError: [Errno 32] 깨진 파이프

4) 다음과 같은 열차 관련 코드의 일부:
def train(train_loader, tnet, 기준, 최적화 프로그램, epoch):
손실 = AverageMeter()
accs = AverageMeter()
emb_norms = AverageMeter()

기차 모드로 전환

tnet.train()
enumerate(train_loader)의 batch_idx, (data1, data2, data3):
args.cuda인 경우:
data1, data2, data3 = data1.cuda(), data2.cuda(), data3.cuda()
data1, data2, data3 = 변수(data1), 변수(data2), 변수(data3)

# compute output
dista, distb, embedded_x, embedded_y, embedded_z = tnet(data1, data2, data3)
# 1 means, dista should be larger than distb
target = torch.FloatTensor(dista.size()).fill_(1)
if args.cuda:
    target = target.cuda()
target = Variable(target)

loss_triplet = criterion(dista, distb, target)
loss_embedd = embedded_x.norm(2) + embedded_y.norm(2) + embedded_z.norm(2)
loss = loss_triplet + 0.001 * loss_embedd

# measure accuracy and record loss
acc = accuracy(dista, distb)
losses.update(loss_triplet.data[0], data1.size(0))
accs.update(acc, data1.size(0))
emb_norms.update(loss_embedd.data[0]/3, data1.size(0))

# compute gradient and do optimizer step
optimizer.zero_grad()
loss.backward()
optimizer.step()

if batch_idx % args.log_interval == 0:
    print('Train Epoch: {} [{}/{}]\t'
          'Loss: {:.4f} ({:.4f}) \t'
          'Acc: {:.2f}% ({:.2f}%) \t'
          'Emb_Norm: {:.2f} ({:.2f})'.format(
        epoch, batch_idx * len(data1), len(train_loader.dataset),
        losses.val, losses.avg, 
        100. * accs.val, 100. * accs.avg, emb_norms.val, emb_norms.avg))

어딘가에 평균 값을 기록

plotter.plot('acc', '기차', 에포크, accs.avg)
plotter.plot('손실', '기차', 에포크, loss.avg)
plotter.plot('emb_norms', '기차', 신기원, emb_norms.avg)

정말 고맙습니다.

mjchen611 에 2017년 08월 08일

@alykhantejani
그리고 Cuda와 함께 Windows8.1에서 사용합니다.

mjchen611 에 2017년 08월 08일

아직 공식적으로 Windows를 지원하지 않습니다. 아마도 @peterjc123 이 무엇이 잘못

soumith 에 2017년 08월 30일

@mjchen611 실제 오류를 보려면 num_workers를 0으로 설정할 수 있습니다. plotter 올바르게 구성했습니까?

peterjc123 에 2017년 08월 31일

👍78 🎉22 🚀9 ❤6

실제로 num_workers 를 0 또는 1 하는 것이 도움이 되었는지 확인할 수 있습니다. 어떤 경우에도 DataLoader는 더 높은 값의 데이터 세트에 관계없이 항상 저와 함께 실패했습니다. 오류는 DataLoader를 사용한 다중 처리와 관련이 있습니다.

  File "D:/Opiskelu/PyTorch Tutorials/cnn_transfer_learning_cuda.py", line 76, in <module>
    inputs, classes = next(iter(dataloaders['train']))

  File "C:\Anaconda3\envs\ml\lib\site-packages\torch\utils\data\dataloader.py", line 301, in __iter__
    return DataLoaderIter(self)

  File "C:\Anaconda3\envs\ml\lib\site-packages\torch\utils\data\dataloader.py", line 158, in __init__
    w.start()

  File "C:\Anaconda3\envs\ml\lib\multiprocessing\process.py", line 105, in start
    self._popen = self._Popen(self)

  File "C:\Anaconda3\envs\ml\lib\multiprocessing\context.py", line 212, in _Popen
    return _default_context.get_context().Process._Popen(process_obj)

  File "C:\Anaconda3\envs\ml\lib\multiprocessing\context.py", line 313, in _Popen
    return Popen(process_obj)

  File "C:\Anaconda3\envs\ml\lib\multiprocessing\popen_spawn_win32.py", line 66, in __init__
    reduction.dump(process_obj, to_child)

  File "C:\Anaconda3\envs\ml\lib\multiprocessing\reduction.py", line 59, in dump
    ForkingPickler(file, protocol).dump(obj)

BrokenPipeError: [Errno 32] Broken pipe

karmus89 에 2017년 11월 23일

👍32

@karmus89 실제로 이 오류는 오류가 있는 일부 코드에서 다중 처리를 시도할 때만 발생합니다. 코드가 정확할 때 이 문제에 직면하는 것은 예상치 못한 일입니다. 어떤 버전을 사용하고 있는지 모르겠습니다. 문제를 재현할 수 있는 작은 코드를 보낼 수 있습니까?

peterjc123 에 2017년 11월 23일

👍3

할 것이다! 그리고 기억하십시오. 저는 Windows 컴퓨터를 사용하고 있습니다. 코드는 PyTorch: Transfer Learning Tutorial 튜토리얼에서 직접 복사됩니다. 이는 지침에 따라 데이터 세트를 다운로드하고 추출해야 함을 의미합니다.

오류를 재현하는 코드:

import torch
import torchvision
from torchvision import datasets, models, transforms
import os

data_transforms = {
    'train': transforms.Compose([
        transforms.RandomSizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
    'val': transforms.Compose([
        transforms.Scale(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
}

data_dir = 'hymenoptera_data'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
                                          data_transforms[x])
                  for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,
                                             shuffle=True, num_workers=4)
              for x in ['train', 'val']}

# The code fill fail here trying to iterate over the DataLoader with multiple num_workers (Windows only)
inputs, classes = next(iter(dataloaders['train']))

그리고 방금 이것에 관한 몇 가지 PyTorch 포럼 게시물을 만들었습니다. 문제는 Python의 multiprocessing 및 Windows에 있습니다. 여기에 붙여넣기 항목을 과도하게 복사하고 싶지 않으므로 이 PyTorch 토론 회신을 참조하십시오.

편집하다:

다음은 충돌하지 않는 코드이며 동시에 Windows 시스템에 대한 Python의 다중 처리 프로그래밍 지침을 준수합니다.

import torch
import torchvision
from torchvision import datasets, models, transforms
import os

if __name__ == "__main__":

    data_transforms = {
        'train': transforms.Compose([
            transforms.RandomSizedCrop(224),
            transforms.RandomHorizontalFlip(),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ]),
        'val': transforms.Compose([
            transforms.Scale(256),
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ]),
    }

    data_dir = 'hymenoptera_data'
    image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
                                              data_transforms[x])
                      for x in ['train', 'val']}
    dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,
                                                 shuffle=True, num_workers=4)
                  for x in ['train', 'val']}

    inputs, classes = next(iter(dataloaders['train']))

karmus89 에 2017년 11월 23일

👍20 🎉7

@karmus89 글쎄요, 패키지가 게시된 위치에 명시한 것 같습니다. 공지를 읽지 않고 패키지를 설치하셨다니 너무 안타깝습니다.

peterjc123 에 2017년 11월 23일

👎3 😕1

@peterjc123 내가 정확히 그렇게 한 편집된 응답을 참조하십시오. if __name__ == '__main__' 코드 내부에 코드를 래핑하기 위한 요구 사항은 Windows 시스템에만 필요하므로 즉시 명확하지 않습니다.

__편집하다__:
요구 사항의 진술과 관련하여 나는 실제로 그것을 놓쳤습니다. 나는 패키지를 직접 설치하기 위해 conda를 사용했기 때문에 어떤 소개 요구 사항도 만나지 못했습니다. 하지만 어쨌든 감사합니다! 그리고 당신을 슬프게 해서 죄송합니다!

__편집 2__:
와우, 어디서 찾는지조차 알 수 없었습니다 😄 👍

karmus89 에 2017년 11월 23일

👍12 😄7 🎉2 🚀1

위와 관련된 질문입니다. Jupyter 노트북에서 위의 문제가 발생했습니다. Jupyter 노트북에서 이것을 어떻게 해결합니까? "if __name__ == '__main__' "에 코드를 래핑해도 변경되지 않습니다. 누군가 이것을 jupyter 노트북으로 번역하는 방법을 알고 있습니까?

Dehde 에 2018년 09월 21일

👍2

@Dehde DataLoader의 num_worker를 0으로 설정하는 것은 어떻습니까?

peterjc123 에 2018년 09월 21일

@peterjc123
빠른 답변 감사합니다! 나는 완전히 명확하지 않았습니다. 죄송합니다. jupyter 노트북의 Windows에서 pytorch를 실행하고 작업자 기능을 계속 사용하므로 0으로 설정하지 않는 방법이 있습니까? 확실히 병렬화된 전처리가 필요합니다. 시간 내주셔서 감사합니다!

Dehde 에 2018년 09월 21일

재현할 수 있도록 최소한의 코드를 보여 주시겠습니까?

peterjc123 에 2018년 09월 22일

@peterjc123
월요일에 이 게시물로 수정하겠습니다. 지금은 코드에 액세스할 수 없습니다. 감사합니다!

약속한 대로 내가 사용하는 코드는 다음과 같습니다.

`
__name__ == '__main__'인 경우:

batch_size = 256

size = (128, 128)
image_datasets = {}
image_datasets["train"] = WaterbodyDataset(masks=train_masks, images=train_imgs,
                                            transform_img=transforms.Compose([
                                                RandomCrop(size),
                                                transforms.ToTensor(),
                                            ]),
                                            transform_mask=transforms.Compose([
                                                RandomCrop(size),
                                                transforms.ToTensor(),
                                            ]))

image_datasets["val"] = WaterbodyDataset(masks=val_masks, images=val_imgs,
                                            transform_img=transforms.Compose([
                                                transforms.ToTensor(),
                                            ]),
                                            transform_mask=transforms.Compose([
                                                transforms.ToTensor()
                                            ]))

dataloaders = {'train': torch.utils.data.DataLoader(image_datasets['train'], batch_size=batch_size, 
                                                    shuffle=True, num_workers=1),
               'val' : torch.utils.data.DataLoader(image_datasets['val'], batch_size=batch_size, 
                                                   shuffle=False, num_workers=1)}

dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}

hps = HyperParams()
hps.update("name=resnet34_128_deconv_pret00rained_bs32_adam_lr0.0001_wd0_pat5,"
           "arch=resnet34,input_channel=4,freeze=0,deconv=1,opt=adam,debug=0,"
           "weight_decay=0.0,patience=100,pretrained=1,lr=0.0001,print_freq=10,every_x_epoch_eval=1")
pprint(attr.asdict(hps))

model = Model(hps)
model.train(dataloaders)`

WaterbodyDataset은 pytorch 데이터 세트 클래스에서 상속합니다.

Dehde 에 2018년 09월 22일

나는 또한 같은 오류가 발생했습니다. num_workers 를 0으로 설정하면 오류가 다시 나타나지 않습니다. 그러나 num_workers 를 1로 설정하면 오류가 계속 발생합니다.

Jerry-Jie-Xie 에 2018년 11월 29일

👍18 🎉2

num_workers를 0으로 설정하면 오류가 없습니다.

saurabh502 에 2018년 12월 06일

👍8 🎉2

이 오류에 대한 도움이 필요합니다. "BrokenPipeError: [Errno 32] Broken pipe"
코드: https://github.com/higgsfield/np-hard-deep-reinforcement-learning/blob/master/Neural%20Combinatorial%20Optimization.ipynb
나는 윈도우 10을 사용하고 있습니다.

ghost 에 2019년 01월 13일

if __name__ == '__main__': 코드를 래핑합니다.
그러나 나를 위해 그럼에도 불구하고 오류가 때때로 다시 나타납니다. 어리석게 들린다는 것을 알지만, 나를 돕는 것은
컴퓨터 재부팅.
여기에 윈도우 10

MarcinMisiurewicz 에 2019년 02월 27일

문제가 여전히 존재하지만 사용자 정의 collate_fn 사용할 때만 발견되었습니다.

BramVanroy 에 2019년 03월 12일

나를 위해 num_workers를 2에서 0으로 변경하면 코드가 제대로 작동합니다...

angeloyeo 에 2019년 07월 23일

PyTorch 데이터 로드 및 처리 자습서를 실행할 때도 동일한 문제가 발생했습니다. num_workers를 2에서 0으로 변경하면 문제가 해결되었지만 num_workers = 2는 다른 데이터 세트에서 잘 작동했습니다. Windows를 사용합니다.

cp9612 에 2019년 08월 02일

num_workers > 0은 Windows에서 작동하지 않습니다.
새로운 IterableDataset을 사용하더라도.

divyanshj16 에 2019년 08월 03일

😕11 😄1

나는이 같은 오류를 만났다. 그리고 이 문제를 해결할 방법을 찾으려고 하면 프로그램이 계속 자동으로 실행됩니다(약 10분 대기).

ShoufaChen 에 2019년 09월 11일

나는 다른 결과로 똑같은 코드를 여러 번 실행했습니다. 또한 깨진 파이프를 발생시키는 코드를 새 파일(내용이 정확히 동일함)에 복사했는데 정상적으로 실행됩니다. 여기에는 외부 요인이 작용하고 있다고 생각합니다. 더 이상 버그를 재현할 수 없지만 __pycache__ 디렉토리가 있으면 삭제해 보십시오.

CorentinJ 에 2019년 09월 28일

Windows10에 문제가 있습니다. 이유는 모르겠지만 문제는 데이터 로더(num_workers를 0으로 설정해도 도움이 되지 않음) 및 다중 처리라고 생각합니다.

germanjke 에 2020년 01월 17일

Windows10에 문제가 있습니다. 이유는 모르겠지만 문제는 데이터 로더(num_workers를 0으로 설정해도 도움이 되지 않음) 및 다중 처리라고 생각합니다.

quire에 Ubuntu를 사용한 후 최근에 Windows-10을 시도하고(클러스터 시스템을 사용하기 전에 프로토타이핑을 위해) 동일한 오류가 발생하여 num_workers를 0으로 설정하는 데 도움이 되었습니다. 모든 데이터 로더를 설정하고 학습, 테스트 및 검증하는지 확인하십시오.

morawi 에 2020년 03월 03일

Win10에서도 동일한 문제가 있습니다. num_workers를 0보다 크게 설정하면 ' [Errno 32] Broken pipe ' 오류 메시지가 나타납니다.
그리고 내 코드는 Pytorch 공식 자습서에서 다운로드합니다.

나는 그것이 Win10의 버그라고 생각하고 다음 릴리스에서 수정된 버전을 보기를 고대하고 있습니다.

PiPiNam 에 2020년 03월 05일

동일한 오류, num_workers=0이 작동했지만 다중 처리를 통해 데이터 로드 속도를 높이고 싶습니다.

paleomoon 에 2020년 03월 24일

동일한 오류, num_workers=0이 작동했지만 다중 처리를 통해 데이터 로드 속도를 높이고 싶습니다.

이것이 작동하는 유일한 방법은 Linux를 사용하는 것 같습니다. 프로토타입을 위해 Windows-10을 사용하고 Linux 기반 클러스터에 모든 것을 푸시하고 있습니다.

if platform.system()=='Windows': n_cpu= 0

morawi 에 2020년 03월 24일

또한 내 사용자 지정 토치비전 데이터 세트를 정의하고 jupyter lab에서 실행하려고 할 때 Windows 10에서 유사한 문제가 발생했습니다. 분명히 사용자 정의 데이터 세트는 multiprocessing.py\spawn.py 파일에서 DataLoader에 의해 호출되는 __main__ 모듈에 대한 속성으로 등록되지 않습니다. 데이터 세트를 모듈에 작성한 다음 여기에 언급된 대로 가져와서 문제를 해결했습니다.

https://stackoverflow.com/questions/41385708/multiprocessing-example-giving-attributeerror

  File "C:\Users\johndoe\Anaconda3\envs\PyTorch15\lib\multiprocessing\spawn.py", line 105, in spawn_main
    exitcode = _main(fd)
  File "C:\Users\johndoe\Anaconda3\envs\PyTorch15\lib\multiprocessing\spawn.py", line 115, in _main
    self = reduction.pickle.load(from_parent)
AttributeError: Can't get attribute 'RandomPatchExtractor' on <module '__main__' (built-in)>

msminhas93 에 2020년 04월 28일

👍2

@mjchen611 실제 오류를 보려면 num_workers를 0으로 설정할 수 있습니다. plotter 올바르게 구성했습니까?

num_workers를 0으로 설정하면 효과적이었습니다. 이것이 왜 오류를 일으키는지 설명해 주시겠습니까?

arnabsinha99 에 2020년 05월 28일

이 문제가 종료된 것으로 나타났지만 해결되지 않은 것 같습니다. Windows에서 다중 처리 데이터 로더를 수정하려는 노력이 있습니까? 현재 내가 아는 한 두 가지 옵션이 있습니다.

if __name__ == '__main__': 감싸십시오. 항상 작동하지는 않습니다.
Windows에서 다중 처리를 사용하지 마십시오: if platform.system()=='Windows': n_cpu= 0

따라서 첫 번째는 불완전한 수정이고 두 번째는 그냥 포기하는 것입니다. 현재 다른 곳에서 진행 중인 창에서 다중 처리 데이터 로딩을 수정하려는 노력이 있습니까? 아니면 다시 열어야 합니까?

ltjkoomen 에 2020년 07월 21일

👍4

사용하다
if __name__ == '__main__' and '__file__' in globals(): 대신 if __name__ == '__main__':
그것은 나를 위해 작동합니다. Jupyter 노트북과 Windows 10을 사용합니다.

이것은 참조입니다

BlackTeaAttenuation 에 2020년 10월 04일

👍2

내 사용자 지정 Coco 데이터 세트(기본 CocoDetection Pytorch 클래스와 약간 다름)를 학습하려고 할 때 문제가 발생했습니다. 나를 위해 일한 params collate_fn=utils.collate_fn 추가:
trainloader = torch.utils.data.DataLoader(coco_train, batch_size=2, shuffle=False, num_workers=1, collate_fn=utils.collate_fn)

doanhung95wkm 에 2020년 11월 09일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Pytorch: BrokenPipeError: [Errno 32] 깨진 파이프

가장 유용한 댓글

모든 35 댓글

기차 모드로 전환

어딘가에 평균 값을 기록

편집하다:

관련 문제