Pandas: read_csv "CParserError : 데이터 토큰 화 오류"필드 수가 가변적 임

에 만든 2015년 10월 31일 · 17코멘트 · 출처: pandas-dev/pandas

380+ MB csv 파일을 읽으려고 할 때 read_csv (Pandas 0.17.0)에 문제가 있습니다. 파일은 54 개 필드로 시작하지만 일부 줄에는 54 개 대신 53 개 필드가 있습니다. 아래 코드를 실행하면 다음 오류가 발생합니다.

parser = lambda x: datetime.strptime(x, '%y %m %d %H %M %S %f')
df = pd.read_csv(filename,
                         names=['YR', 'MO', 'DAY', 'HR', 'MIN', 'SEC', 'HUND',
                                'ERROR', 'RECTYPE', 'LANE', 'SPEED', 'CLASS',
                                'LENGTH', 'GVW', 'ESAL', 'W1', 'S1', 'W2', 'S2',
                                'W3', 'S3', 'W4', 'S4', 'W5', 'S5', 'W6', 'S6',
                                'W7', 'S7', 'W8', 'S8', 'W9', 'S9', 'W10', 'S10',
                                'W11', 'S11', 'W12', 'S12', 'W13', 'S13', 'W14'],
                        usecols=range(0, 42),
                        parse_dates={"TIMESTAMP": [0, 1, 2, 3, 4, 5, 6]},
                        date_parser=parser,
                        header=None)

오류:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

error_bad_lines=False 키워드를 전달하면 아래 예와 유사한 문제가있는 줄이 표시됩니다.

Skipping line 1683401: expected 53 fields, saw 54

그러나 이번에는 다음과 같은 오류가 발생합니다 (또한 DataFrame이로드되지 않음).

CParserError: Too many columns specified: expected 54 and found 53

engine='python' 키워드를 전달하면 오류가 발생하지 않지만 데이터를 구문 분석하는 데 시간이 많이 걸립니다. error_bad_lines=False 사용 여부에 따라 오류 메시지에서 53과 54가 전환됩니다.

IO CSV Usage Question

출처

ekinsenturk

가장 유용한 댓글

이 시도:

  df = pd.read_csv(filename,header=None,error_bad_lines=False)

antonyj453 에 2019년 03월 11일

👍16

모든 17 댓글

이 오류는 모두 정확합니다. usecols 및 names 전달하여 파서가 수행하는 작업을 제한합니다. 이 작업을 수행하지 말고 파싱 할 수 있는지 확인하십시오.

재현하는 파일의 샘플 없이는 이와 같은 것을 진단하기가 매우 어렵습니다.

pd.show_versions() 도 표시

jreback 에 2015년 10월 31일

원본 데이터 파일 사용 :

다른 키워드가없는 pd.read_csv(filename) 는 오류없이 데이터를 구문 분석하는 것 같습니다. pd.read_csv(filename, header=None) 에서 다음 오류가 발생합니다.

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

샘플 데이터 없이는 진단하기가 매우 어렵다는 데 완전히 동의했습니다. 몇 줄 (일부는 53 개 필드, 일부는 54 개)이있는 csv 파일로 오류를 생성하려고 시도했지만 pd.read_csv 는 예상대로 NaN으로 간격을 채 웁니다. usecols 및 header=None 전달하여 반복했지만 여전히 작동합니다. 원본 파일에 모든 오류를 발생시키는 문제가있는 것 같습니다.

pd.show_versions() 출력은 다음과 같습니다.

INSTALLED VERSIONS
------------------
commit: None
python: 2.7.10.final.0
python-bits: 64
OS: Windows
OS-release: 7
machine: AMD64
processor: Intel64 Family 6 Model 58 Stepping 9, GenuineIntel
byteorder: little
LC_ALL: None
LANG: None

pandas: 0.17.0
nose: 1.3.7
pip: 7.1.2
setuptools: 18.4
Cython: 0.22.1
numpy: 1.10.1
scipy: 0.16.0
statsmodels: 0.6.1
IPython: 3.2.0
sphinx: 1.3.1
patsy: 0.3.0
dateutil: 2.4.2
pytz: 2015.6
blosc: None
bottleneck: 1.0.0
tables: 3.2.0
numexpr: 2.4.3
matplotlib: 1.4.3
openpyxl: 1.8.5
xlrd: 0.9.3
xlwt: 1.0.0
xlsxwriter: 0.7.3
lxml: 3.4.4
bs4: 4.3.2
html5lib: None
httplib2: None
apiclient: None
sqlalchemy: 1.0.5
pymysql: None
psycopg2: None

ekinsenturk 에 2015년 10월 31일

pd.read_csv(filename, header=None) gives the following error:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

열 수는 첫 번째 줄에서 추론되므로 예상됩니다. names 를 통과하면이를 결정적인 기능으로 사용할 것입니다.

따라서 다양한 옵션을 계속 시도하십시오. names 및 usecols 실제로 약간 제한하고 있습니다. 그것을 읽은 다음 필요한 것으로 다시 색인화하는 것이 더 나을 수 있습니다.

jreback 에 2015년 10월 31일

👍2

engine='python' 를 사용하면 이상하게도 딸꾹질없이 DataFrame을로드합니다. 다음 스 니펫을 사용하여 파일의 처음 3 줄과 잘못된 줄 3 개를 추출했습니다 (오류 메시지에서 줄 번호를 얻었습니다).

from csv import reader
N = int(input('What line do you need? > '))
with open(filename) as f:
    print(next((x for i, x in enumerate(reader(f)) if i == N), None))

1-3 행 :

['08', '8', '7', '5', '0', '12', '54', '0', '11', '1', '58', '9', '68', '48.2', '0.756', '11.6', '17.5', '13.3', '4.3', '11.3', '32.2', '6.4', '4.1', '5.6', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['08', '8', '7', '5', '0', '15', '80', '0', '11', '1', '62', '9', '69', '77.8', '3.267', '11.2', '17.7', '14.8', '4.2', '15.2', '29.1', '18.4', '10.0', '18.1', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['08', '8', '7', '5', '0', '21', '52', '0', '11', '1', '61', '11', '51', '29.4', '0.076', '4.1', '13.8', '8.3', '21.5', '5.3', '3.1', '5.7', '3.0', '6.1', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']

위반 라인 :

['09', '9', '15', '22', '46', '9', '51', '0', '11', '1', '57', '9', '70', '36.3', '0.242', '11.8', '16.2', '6.4', '4.1', '5.8', '31.3', '5.5', '3.9', '6.8', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['09', '9', '15', '22', '46', '25', '31', '0', '11', '1', '70', '9', '73', '67.8', '2.196', '10.4', '17.0', '13.4', '4.4', '12.2', '31.8', '15.6', '4.2', '16.2', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['09', '9', '15', '22', '46', '28', '41', '0', '11', '1', '70', '5', '22', '7.4', '0.003', '4.0', '13.1', '3.4', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']

제안하신대로 파일을 읽은 다음 DataFrame을 수정하거나 (열 이름 변경, 불필요한 항목 삭제 등) 간단히 python 엔진을 사용합니다 (긴 처리 시간).

ekinsenturk 에 2015년 10월 31일

👍2 🎉1

추가 조사에 따르면 다음과 같은 명령 시퀀스가 작동합니다 (데이터의 첫 번째 줄이 없습니다- header=None 존재하지 않지만 적어도로드됩니다).

df = pd.read_csv(filename, 
                 usecols=range(0, 42))
df.columns = ['YR', 'MO', 'DAY', 'HR', 'MIN', 'SEC', 'HUND',
                        'ERROR', 'RECTYPE', 'LANE', 'SPEED', 'CLASS',
                        'LENGTH', 'GVW', 'ESAL', 'W1', 'S1', 'W2', 'S2',
                        'W3', 'S3', 'W4', 'S4', 'W5', 'S5', 'W6', 'S6',
                        'W7', 'S7', 'W8', 'S8', 'W9', 'S9', 'W10', 'S10',
                        'W11', 'S11', 'W12', 'S12', 'W13', 'S13', 'W14']

다음은 작동하지 않습니다 .

df = pd.read_csv(filename,
                 names=['YR', 'MO', 'DAY', 'HR', 'MIN', 'SEC', 'HUND',
                        'ERROR', 'RECTYPE', 'LANE', 'SPEED', 'CLASS',
                        'LENGTH', 'GVW', 'ESAL', 'W1', 'S1', 'W2', 'S2',
                        'W3', 'S3', 'W4', 'S4', 'W5', 'S5', 'W6', 'S6',
                        'W7', 'S7', 'W8', 'S8', 'W9', 'S9', 'W10', 'S10',
                        'W11', 'S11', 'W12', 'S12', 'W13', 'S13', 'W14'],
                 usecols=range(0, 42))

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

다음은 작동하지 않습니다 .

df = pd.read_csv(filename,
                 header=None)

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

ekinsenturk 에 2015년 10월 31일

👍9

사용 질문으로 종료됩니다.

jreback 에 2015년 11월 01일

dic_df = _create_init_dic ( "C : / Users / swati / Downloads / VQA-Med 2018 Dataset / c5e905f7-6eb0-4a98-b284-da0729a1caf3_VQAMed2018Train / VQAMed2018Train / VQAMed2018Train-QA.csv")
ParserError : 데이터 토큰 화 오류. C 오류 : 33 행에 1 개의 필드가 있어야합니다. 3 개를 보았습니다.

swaeety 에 2019년 01월 16일

이 시도:

  df = pd.read_csv(filename,header=None,error_bad_lines=False)

antonyj453 에 2019년 03월 11일

👍16

그것을 시도하고 비슷한 오류를 위해 일했습니다. 감사합니다!

rahlouni 에 2019년 12월 05일

읽을 때 quoting=3 추가 시도

peter-wang-wsl 에 2019년 12월 31일

팬더가 더 많은 필드가있는 행의 추가 필드를 무시하는 방법이 있습니까?
예 : "1605634 행에 53 개의 필드가 있어야합니다. 54 개를 보았다"
1605634 줄에 필드 54를 드롭합니다.

amm123 에 2020년 02월 07일

또 다른 경우! 그러나 "error_bad_lines = False"로 해결되었지만 여전히 오류를 인쇄하지만 '종료 코드 0'

manel00 에 2020년 02월 10일

같은 오류가 발생했습니다

read_csv 모드에서 구분자 매개 변수를 추가했습니다.

그리고 그것은 일했다

svnsatyasai 에 2020년 03월 18일

👍2

error_bad_lines = 거짓
효과가있다

monti777777 에 2020년 04월 06일

👍2

pd.read_csv(filename, header=None) gives the following error:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54
열 수는 첫 번째 줄에서 추론되므로 예상됩니다. names 를 통과하면이를 결정적인 기능으로 사용할 것입니다.
따라서 다양한 옵션을 계속 시도하십시오. names 및 usecols 실제로 약간 제한하고 있습니다. 그것을 읽은 다음 필요한 것으로 다시 색인화하는 것이 더 나을 수 있습니다.

작동합니다! R 언어를 사용하여 csv를 작성하고 파이썬으로 읽으려고합니다. 첫 번째 줄에는 모든 줄의 최대 길이가 있어야합니다. 이렇게하면 잘못된 줄의 문제를 해결하고 줄을 잃지 않습니다.

changwn 에 2020년 08월 24일

❤1

pd.read_csv 명령을 사용하여 .xlsx 파일을 가져 오려고하면이 오류가 발생합니다.

pd.read_csv 대신 pd.read_excel을 사용해보십시오.

salubriousdux 에 2020년 08월 30일

이를 수정하는 가장 쉬운 방법은 CSV 파일을 Excel 파일로 변환하고 데이터 읽기를 위해 pd.read_csv 대신 pd.read_excel을 사용하는 것입니다.

hamlahichem 에 2020년 11월 22일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Pandas: read_csv "CParserError : 데이터 토큰 화 오류"필드 수가 가변적 임

가장 유용한 댓글

모든 17 댓글

관련 문제