Pandas: read_csv C-engine CParserError: ошибка токенизации данных

Созданный на 22 сент. 2015 · 15Комментарии · Источник: pandas-dev/pandas

Привет,

Я столкнулся с набором данных, в котором у C-Engine read_csv есть проблемы. Я не уверен, в чем именно проблема, но я сузил ее до одной строки, которую я обработал и загрузил в Dropbox . Если у вас есть рассол, попробуйте следующее:

df = pd.read_pickle('faulty_row.pkl')
df.to_csv('faulty_row.csv', encoding='utf8', index=False)
df.read_csv('faulty_row.csv', encoding='utf8')

У меня следующее исключение:

CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.

Если вы попытаетесь прочитать CSV с помощью движка python, исключение не возникнет:

df.read_csv('faulty_row.csv', encoding='utf8', engine='python')

Предполагается, что проблема связана с read_csv, а не с to_csv. Я использую следующие версии:

INSTALLED VERSIONS
------------------
commit: None
python: 2.7.10.final.0
python-bits: 64
OS: Linux
OS-release: 3.19.0-28-generic
machine: x86_64
processor: x86_64
byteorder: little
LC_ALL: None
LANG: en_GB.UTF-8

pandas: 0.16.2
nose: 1.3.7
Cython: 0.22.1
numpy: 1.9.2
scipy: 0.15.1
IPython: 3.2.1
patsy: 0.3.0
tables: 3.2.0
numexpr: 2.4.3
matplotlib: 1.4.3
openpyxl: 1.8.5
xlrd: 0.9.3
xlwt: 1.0.0
xlsxwriter: 0.7.3
lxml: 3.4.4
bs4: 4.3.2

Bug IO CSV Needs Info

Источник

joshlk

👍16 🚀1 ❤1 🎉1

Самый полезный комментарий

Я пропустил ответ @alfonsomhc, потому что он выглядел как комментарий.

Тебе нужно

df = pd.read_csv('test.csv', engine='python')

justinjdickow 10 янв. 2018

👍43 ❤10 🚀5 🎉5 😄3 👎3 👀1

Все 15 Комментарий

Ваша предпоследняя строка включает разрыв '\r' . Я думаю, что это ошибка, но одно решение - открыть в универсальном режиме новой строки.

pd.read_csv(open('test.csv','rU'), encoding='utf-8', engine='c')

chris-b1 23 сент. 2015

👍41

Я тоже сталкиваюсь с этой ошибкой. Использование метода, предложенного @ chris-b1, вызывает следующую ошибку:

Traceback (most recent call last):
  File "C:/Users/je/Desktop/Python/comparison.py", line 30, in <module>
    encoding='utf-8', engine='c')
  File "C:\Program Files\Python 3.5\lib\site-packages\pandas\io\parsers.py", line 498, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "C:\Program Files\Python 3.5\lib\site-packages\pandas\io\parsers.py", line 275, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "C:\Program Files\Python 3.5\lib\site-packages\pandas\io\parsers.py", line 590, in __init__
    self._make_engine(self.engine)
  File "C:\Program Files\Python 3.5\lib\site-packages\pandas\io\parsers.py", line 731, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "C:\Program Files\Python 3.5\lib\site-packages\pandas\io\parsers.py", line 1103, in __init__
    self._reader = _parser.TextReader(src, **kwds)
  File "pandas\parser.pyx", line 515, in pandas.parser.TextReader.__cinit__ (pandas\parser.c:4948)
  File "pandas\parser.pyx", line 705, in pandas.parser.TextReader._get_header (pandas\parser.c:7386)
  File "pandas\parser.pyx", line 829, in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:8838)
  File "pandas\parser.pyx", line 1833, in pandas.parser.raise_parser_error (pandas\parser.c:22649)
pandas.parser.CParserError: Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine='python'.

jelmelk 21 февр. 2016

shaynekang 21 мар. 2016

👍6

Я также обнаружил эту проблему при чтении большого файла csv с помощью egine по умолчанию. Если я использую engine = 'python', он работает нормально.

alfonsomhc 18 мая 2017

👍36

Я пропустил ответ @alfonsomhc, потому что он выглядел как комментарий.

Тебе нужно

df = pd.read_csv('test.csv', engine='python')

justinjdickow 10 янв. 2018

👍43 ❤10 🚀5 🎉5 😄3 👎3 👀1

была такая же проблема, пытаясь прочитать папку, а не файл csv

Vozf 29 сент. 2018

👍3

Кто-нибудь исследовал эту проблему? Это убивает производительность при использовании read_csv в генераторе keras.

dgrahn 31 окт. 2018

Предоставленные исходные данные больше недоступны, поэтому проблема не воспроизводится. Закрытие, поскольку неясно, в чем проблема, но @dgrahn или кто-либо еще, если вы можете предоставить воспроизводимый пример, мы можем снова открыть

WillAyd 31 окт. 2018

@WillAyd Дайте мне знать, если вам понадобится дополнительная информация.

Поскольку GitHub не принимает CSV, я изменил расширение на .txt.
Вот код, который вызовет исключение.

for chunk in pandas.read_csv('debug.csv', chunksize=1000, names=range(2504)):
    pass

Вот файл: debug.txt

Вот исключение из Windows 10 с использованием Anaconda.

Python 3.6.5 |Anaconda, Inc.| (default, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import pandas
>>> for chunk in pandas.read_csv('debug.csv', chunksize=1000, names=range(2504)): pass
...
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\programs\anaconda3\lib\site-packages\pandas\io\parsers.py", line 1007, in __next__
    return self.get_chunk()
  File "D:\programs\anaconda3\lib\site-packages\pandas\io\parsers.py", line 1070, in get_chunk
    return self.read(nrows=size)
  File "D:\programs\anaconda3\lib\site-packages\pandas\io\parsers.py", line 1036, in read
    ret = self._engine.read(nrows)
  File "D:\programs\anaconda3\lib\site-packages\pandas\io\parsers.py", line 1848, in read
    data = self._reader.read(nrows)
  File "pandas\_libs\parsers.pyx", line 876, in pandas._libs.parsers.TextReader.read
  File "pandas\_libs\parsers.pyx", line 903, in pandas._libs.parsers.TextReader._read_low_memory
  File "pandas\_libs\parsers.pyx", line 945, in pandas._libs.parsers.TextReader._read_rows
  File "pandas\_libs\parsers.pyx", line 932, in pandas._libs.parsers.TextReader._tokenize_rows
  File "pandas\_libs\parsers.pyx", line 2112, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.

И то же самое на RedHat.

$ python3
Python 3.6.6 (default, Aug 13 2018, 18:24:23)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import pandas
>>> for chunk in pandas.read_csv('debug.csv', chunksize=1000, names=range(2504)): pass
...
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib64/python3.6/site-packages/pandas/io/parsers.py", line 1007, in __next__
    return self.get_chunk()
  File "/usr/lib64/python3.6/site-packages/pandas/io/parsers.py", line 1070, in get_chunk
    return self.read(nrows=size)
  File "/usr/lib64/python3.6/site-packages/pandas/io/parsers.py", line 1036, in read
    ret = self._engine.read(nrows)
  File "/usr/lib64/python3.6/site-packages/pandas/io/parsers.py", line 1848, in read
    data = self._reader.read(nrows)
  File "pandas/_libs/parsers.pyx", line 876, in pandas._libs.parsers.TextReader.read
  File "pandas/_libs/parsers.pyx", line 903, in pandas._libs.parsers.TextReader._read_low_memory
  File "pandas/_libs/parsers.pyx", line 945, in pandas._libs.parsers.TextReader._read_rows
  File "pandas/_libs/parsers.pyx", line 932, in pandas._libs.parsers.TextReader._tokenize_rows
  File "pandas/_libs/parsers.pyx", line 2112, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.

dgrahn 5 нояб. 2018

@dgrahn Я загрузил debug.txt и получаю следующее, если вы запустите pd.read_csv('debug.xt', header=None) на Mac:

ParserError: ошибка токенизации данных. Ошибка C: ожидалось 204 поля в строке 3, увидела 2504

Это отличается от первоначально описанной ошибки Buffer overflow caught .

Я проверил файл debug.txt, и в первых двух строках 204 столбца, а в 3-й строке - 2504 столбца. Это сделает файл недоступным для анализа и объяснит, почему возникает ошибка.

Ожидается ли это? GitHub может выполнять неявное преобразование в фоновом режиме между типами новой строки («\ r \ n» и «\ n»), что мешает загруженному примеру.

joshlk 5 нояб. 2018

@joshlk Вы использовали опцию names=range(2504) как описано в комментарии выше?

dgrahn 5 нояб. 2018

😄1 👍1

@dgrahn хороший момент.

Хорошо, теперь можно воспроизвести ошибку с помощью pandas.read_csv('debug.csv', chunksize=1000, names=range(2504)) .

Приятно отметить, что pandas.read_csv('debug.csv', names=range(2504)) работает нормально, поэтому маловероятно, что это связано с исходной ошибкой, но вызывает тот же симптом.

joshlk 5 нояб. 2018

@joshlk Я мог бы открыть отдельный выпуск, если бы это было предпочтительнее.

dgrahn 5 нояб. 2018

pd.read_csv(open('test.csv','rU'), encoding='utf-8', engine='python')

Решил мою проблему.

egenc 17 июн. 2020

двигатель = 'питон'

Я попробовал этот подход и смог загрузить большие файлы данных. Но когда я проверил размер фрейма данных, я увидел, что количество строк увеличилось. Какие для этого могут быть логические области?