Pandas: read_csv "CParserError: त्रुटि टोकन डेटा" चर संख्या के साथ फ़ील्ड

को निर्मित 31 अक्तू॰ 2015 · 17टिप्पणियाँ · स्रोत: pandas-dev/pandas

जब मैं 380+ एमबी सीएसवी फ़ाइल पढ़ने की कोशिश कर रहा हूं, तो मुझे read_csv (पंडों 0.17.0) से परेशानी हो रही है। फ़ाइल 54 फ़ील्ड्स से शुरू होती है, लेकिन कुछ लाइनों में 54 के बजाय 53 फ़ील्ड हैं। नीचे दिए गए कोड को चलाने से मुझे निम्न त्रुटि मिलती है:

parser = lambda x: datetime.strptime(x, '%y %m %d %H %M %S %f')
df = pd.read_csv(filename,
                         names=['YR', 'MO', 'DAY', 'HR', 'MIN', 'SEC', 'HUND',
                                'ERROR', 'RECTYPE', 'LANE', 'SPEED', 'CLASS',
                                'LENGTH', 'GVW', 'ESAL', 'W1', 'S1', 'W2', 'S2',
                                'W3', 'S3', 'W4', 'S4', 'W5', 'S5', 'W6', 'S6',
                                'W7', 'S7', 'W8', 'S8', 'W9', 'S9', 'W10', 'S10',
                                'W11', 'S11', 'W12', 'S12', 'W13', 'S13', 'W14'],
                        usecols=range(0, 42),
                        parse_dates={"TIMESTAMP": [0, 1, 2, 3, 4, 5, 6]},
                        date_parser=parser,
                        header=None)

त्रुटि:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

यदि मैं error_bad_lines=False कीवर्ड पास करता हूं, तो समस्याग्रस्त रेखाएं नीचे दिए गए उदाहरण के समान प्रदर्शित होती हैं:

Skipping line 1683401: expected 53 fields, saw 54

हालाँकि मुझे इस बार निम्न त्रुटि मिली (डेटाफ़्रेम भी लोड नहीं हुआ):

CParserError: Too many columns specified: expected 54 and found 53

यदि मैं engine='python' कीवर्ड पास करता हूं, तो मुझे कोई त्रुटि नहीं मिलती है, लेकिन डेटा पार्स करने के लिए वास्तव में लंबा समय लगता है। कृपया ध्यान दें कि 53 और 54 को त्रुटि संदेशों में स्विच किया जाता है जो इस बात पर निर्भर करता है कि error_bad_lines=False का उपयोग किया गया है या नहीं।

IO CSV Usage Question

स्रोत

ekinsenturk

सबसे उपयोगी टिप्पणी

इसे इस्तेमाल करे:

  df = pd.read_csv(filename,header=None,error_bad_lines=False)

antonyj453 11 मार्च 2019

👍16

सभी 17 टिप्पणियाँ

ये त्रुटियां सभी सही हैं। आप विवश कर रहे हैं कि पार्सर usecols , और names पास करके क्या कर रहा है। ऐसा न करें और देखें कि क्या आप इसे पार्स कर सकते हैं।

फ़ाइल के नमूने के बिना कुछ इस तरह का निदान करना बहुत मुश्किल है जो पुन: पेश करता है।

pd.show_versions() भी दिखाते हैं

jreback 31 अक्तू॰ 2015

मूल डेटा फ़ाइल के साथ:

pd.read_csv(filename) कोई अन्य कीवर्ड नहीं है, जिसमें कोई त्रुटि नहीं है। pd.read_csv(filename, header=None) निम्नलिखित त्रुटि देता है:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

पूरी तरह से सहमत हैं कि नमूना डेटा के बिना निदान करना बहुत कठिन है। मैंने कुछ लाइनों के साथ सीएसवी फ़ाइल के साथ त्रुटि उत्पन्न करने की कोशिश की (कुछ में 53 क्षेत्र हैं, कुछ 54 हैं), pd.read_csv NaNs के साथ अंतराल को उम्मीद के रूप में भरता है। मैंने usecols और header=None पास करके दोहराया, फिर भी काम करता है। ऐसा लगता है कि मूल फ़ाइल में किसी प्रकार की समस्या है जो सभी त्रुटियों को उठाती है।

pd.show_versions() आउटपुट निम्नानुसार है:

INSTALLED VERSIONS
------------------
commit: None
python: 2.7.10.final.0
python-bits: 64
OS: Windows
OS-release: 7
machine: AMD64
processor: Intel64 Family 6 Model 58 Stepping 9, GenuineIntel
byteorder: little
LC_ALL: None
LANG: None

pandas: 0.17.0
nose: 1.3.7
pip: 7.1.2
setuptools: 18.4
Cython: 0.22.1
numpy: 1.10.1
scipy: 0.16.0
statsmodels: 0.6.1
IPython: 3.2.0
sphinx: 1.3.1
patsy: 0.3.0
dateutil: 2.4.2
pytz: 2015.6
blosc: None
bottleneck: 1.0.0
tables: 3.2.0
numexpr: 2.4.3
matplotlib: 1.4.3
openpyxl: 1.8.5
xlrd: 0.9.3
xlwt: 1.0.0
xlsxwriter: 0.7.3
lxml: 3.4.4
bs4: 4.3.2
html5lib: None
httplib2: None
apiclient: None
sqlalchemy: 1.0.5
pymysql: None
psycopg2: None

ekinsenturk 31 अक्तू॰ 2015

pd.read_csv(filename, header=None) gives the following error:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

पहली पंक्ति से स्तंभों की संख्या के अनुमान के अनुसार अपेक्षित है। यदि आप names यदि यह एक निर्धारण सुविधा के रूप में उपयोग करेगा।

इसलिए विभिन्न विकल्पों को आज़माते रहें। आप इसे वास्तव में names और usecols साथ थोड़ा बहुत विवश कर रहे हैं। आप इसे पढ़ने से बेहतर हो सकते हैं, फिर आपकी आवश्यकता के अनुसार फिर से विचार कर सकते हैं।

jreback 31 अक्तू॰ 2015

👍2

यदि engine='python' का उपयोग किया जाता है, तो उत्सुकता से, यह बिना किसी हिचकी के DataFrame को लोड करता है। मैंने फ़ाइल में पहली 3 पंक्तियाँ और 3 ऑफ़िंगिंग लाइन्स निकालने के लिए निम्नलिखित स्निपेट का उपयोग किया (त्रुटि से लाइन संख्या प्राप्त की)।

from csv import reader
N = int(input('What line do you need? > '))
with open(filename) as f:
    print(next((x for i, x in enumerate(reader(f)) if i == N), None))

लाइनें 1-3:

['08', '8', '7', '5', '0', '12', '54', '0', '11', '1', '58', '9', '68', '48.2', '0.756', '11.6', '17.5', '13.3', '4.3', '11.3', '32.2', '6.4', '4.1', '5.6', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['08', '8', '7', '5', '0', '15', '80', '0', '11', '1', '62', '9', '69', '77.8', '3.267', '11.2', '17.7', '14.8', '4.2', '15.2', '29.1', '18.4', '10.0', '18.1', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['08', '8', '7', '5', '0', '21', '52', '0', '11', '1', '61', '11', '51', '29.4', '0.076', '4.1', '13.8', '8.3', '21.5', '5.3', '3.1', '5.7', '3.0', '6.1', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']

आक्रामक लाइनें:

['09', '9', '15', '22', '46', '9', '51', '0', '11', '1', '57', '9', '70', '36.3', '0.242', '11.8', '16.2', '6.4', '4.1', '5.8', '31.3', '5.5', '3.9', '6.8', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['09', '9', '15', '22', '46', '25', '31', '0', '11', '1', '70', '9', '73', '67.8', '2.196', '10.4', '17.0', '13.4', '4.4', '12.2', '31.8', '15.6', '4.2', '16.2', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']
['09', '9', '15', '22', '46', '28', '41', '0', '11', '1', '70', '5', '22', '7.4', '0.003', '4.0', '13.1', '3.4', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '0.0', '', '', '', '', '', '', '', '', '', '', '', '32']

जैसा कि आपने सुझाव दिया था, मैं फ़ाइल को पढ़ने की कोशिश करूंगा, फिर डेटाफ़्रेम (नाम बदलें कॉलम, अनावश्यक लोगों को हटाएं आदि) को संशोधित करें या बस python इंजन (लंबे प्रसंस्करण समय) का उपयोग करें।

ekinsenturk 31 अक्तू॰ 2015

👍2 🎉1

आगे की जांच के अनुसार, कमांड के अनुक्रम में काम करता है (मैं डेटा की पहली पंक्ति खो देता हूं- header=None वर्तमान-, लेकिन कम से कम यह लोड होता है):

df = pd.read_csv(filename, 
                 usecols=range(0, 42))
df.columns = ['YR', 'MO', 'DAY', 'HR', 'MIN', 'SEC', 'HUND',
                        'ERROR', 'RECTYPE', 'LANE', 'SPEED', 'CLASS',
                        'LENGTH', 'GVW', 'ESAL', 'W1', 'S1', 'W2', 'S2',
                        'W3', 'S3', 'W4', 'S4', 'W5', 'S5', 'W6', 'S6',
                        'W7', 'S7', 'W8', 'S8', 'W9', 'S9', 'W10', 'S10',
                        'W11', 'S11', 'W12', 'S12', 'W13', 'S13', 'W14']

निम्नलिखित काम नहीं करता है:

df = pd.read_csv(filename,
                 names=['YR', 'MO', 'DAY', 'HR', 'MIN', 'SEC', 'HUND',
                        'ERROR', 'RECTYPE', 'LANE', 'SPEED', 'CLASS',
                        'LENGTH', 'GVW', 'ESAL', 'W1', 'S1', 'W2', 'S2',
                        'W3', 'S3', 'W4', 'S4', 'W5', 'S5', 'W6', 'S6',
                        'W7', 'S7', 'W8', 'S8', 'W9', 'S9', 'W10', 'S10',
                        'W11', 'S11', 'W12', 'S12', 'W13', 'S13', 'W14'],
                 usecols=range(0, 42))

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

निम्नलिखित काम नहीं करता है:

df = pd.read_csv(filename,
                 header=None)

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54

ekinsenturk 31 अक्तू॰ 2015

👍9

उपयोग प्रश्न के रूप में समापन।

jreback 1 नव॰ 2015

dic_df = _create_init_dic ("C: / Users / swati / Downloads / VQA-Med 2018 Dataset / c5e905f7-6eb0-4a98-b284-da0729a1caf3_VQAMed2018Train/ VQAMed2018Train/train/that/dqe_dit_dic_dic_dic_dit_dit_dic_dic_dic&hl=hi"
ParserError: डेटा टोकन में त्रुटि। C त्रुटि: पंक्ति 33 में 1 फ़ील्ड की अपेक्षा, 3 देखा

swaeety 16 जन॰ 2019

इसे इस्तेमाल करे:

  df = pd.read_csv(filename,header=None,error_bad_lines=False)

antonyj453 11 मार्च 2019

👍16

यह कोशिश की और एक समान त्रुटि के लिए काम किया धन्यवाद!

rahlouni 5 दिस॰ 2019

पढ़ने पर quoting=3 जोड़ने का प्रयास करें

peter-wang-wsl 31 दिस॰ 2019

क्या पांडा के लिए एक रास्ता है कि वह किसी भी पंक्ति में अतिरिक्त फ़ील्ड को अनदेखा कर सकता है जिसमें अधिक फ़ील्ड हैं?
उदाहरण के लिए "1605634 में 53 क्षेत्रों की उम्मीद, 54 को देखा"
यह लाइन 1605634 में केवल 54 क्षेत्र गिराती है

amm123 7 फ़र॰ 2020

एक और मामला! लेकिन "error_bad_lines = गलत" के साथ हल किया गया, यह अभी भी त्रुटि प्रिंट करता है, लेकिन 'निकास कोड 0'

manel00 10 फ़र॰ 2020

मुझे भी यही त्रुटि मिली

मैं सिर्फ read_csv मोड में सीमांकक पैरामीटर जोड़ता हूं

और यह काम किया

svnsatyasai 18 मार्च 2020

👍2

error_bad_lines = झूठी
यह काम करता हैं

monti777777 6 अप्रैल 2020

👍2

pd.read_csv(filename, header=None) gives the following error:

CParserError: Error tokenizing data. C error: Expected 53 fields in line 1605634, saw 54
पहली पंक्ति से स्तंभों की संख्या के अनुमान के अनुसार अपेक्षित है। यदि आप names यदि यह एक निर्धारण सुविधा के रूप में उपयोग करेगा।
इसलिए विभिन्न विकल्पों को आज़माते रहें। आप इसे वास्तव में names और usecols साथ थोड़ा बहुत विवश कर रहे हैं। आप इसे पढ़ने से बेहतर हो सकते हैं, फिर आपकी आवश्यकता के अनुसार फिर से विचार कर सकते हैं।

यह काम! मैं आर भाषा का उपयोग करके सीएसवी लिखता हूं और इसे अजगर में पढ़ने की कोशिश करता हूं। पहली पंक्ति में सभी लाइनों की अधिकतम लंबाई होनी चाहिए। यह तरीका खराब लाइनों की समस्या को ठीक करेगा और कोई भी रेखा नहीं खोएगा।

changwn 24 अग॰ 2020

❤1

यदि आप कमांड pd.read_csv का उपयोग करके .xlsx फ़ाइल आयात करने का प्रयास करेंगे, तो आपको यह त्रुटि मिलेगी।

Pd.read_csv के बजाय pd.read_excel का उपयोग करने का प्रयास करें

salubriousdux 30 अग॰ 2020

इसे ठीक करने का सबसे आसान तरीका अपनी CSV फ़ाइल को Excel फ़ाइल में बदलना और डेटा पढ़ने के लिए pd.read_csv के बजाय pd.read_excel का उपयोग करना है

hamlahichem 22 नव॰ 2020

क्या यह पृष्ठ उपयोगी था?

0 / 5 - 0 रेटिंग्स

Pandas: read_csv "CParserError: त्रुटि टोकन डेटा" चर संख्या के साथ फ़ील्ड

सबसे उपयोगी टिप्पणी

सभी 17 टिप्पणियाँ

संबंधित मुद्दों