Pandas: ENH: دعم أحرف التعليق المتعددة مع القراء

تم إنشاؤها على ٤ نوفمبر ٢٠١٤  ·  3تعليقات  ·  مصدر: pandas-dev/pandas

سأكون سعيدًا جدًا إذا دعمت Pandas أحرف تعليق متعددة عند قراءة البيانات من الملفات. وفق:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

لا أعرف ما إذا كان هذا يتطلب جهد تنفيذ بسيط أو كبير؟

الأفضل،
إريك

Enhancement IO CSV

التعليق الأكثر فائدة

متعلق ب:

سيكون رائعًا إذا كان من الممكن أن يكون حرف التعليق في الواقع حرفين ، على سبيل المثال "##". على سبيل المثال ، في ملفات VCF ، يتم تحديد بعض بيانات التعريف في بداية الملف بـ "##" قبل بدء الجدول الفعلي:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

غالبًا ما يريد المرء فقط تجاهل هذه ، ولكن:

df = pd.read_csv("data.vcf", comment="##")

لا يعمل. لاحظ أنه بالنسبة إلى VCF ، لن يعمل استخدام comment="#" فقط لأن سطر العنوان يبدأ فعليًا بـ "#" واحد.

ال 3 كومينتر

سيكون هذا القليل من الجهد. القارئ أساسًا بايت بايت (مع بعض إمكانية الرجوع للخلف). لذلك سيتعين عليه التحقق مرة أخرى من المخزن المؤقت لأحرف التعليقات (يقوم بالتحقق فقط من الحرف الفردي الآن ، ولكن فقط إذا لم يكن NULL) ، بطريقة فعالة. يمكن القيام به.

متعلق ب:

سيكون رائعًا إذا كان من الممكن أن يكون حرف التعليق في الواقع حرفين ، على سبيل المثال "##". على سبيل المثال ، في ملفات VCF ، يتم تحديد بعض بيانات التعريف في بداية الملف بـ "##" قبل بدء الجدول الفعلي:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

غالبًا ما يريد المرء فقط تجاهل هذه ، ولكن:

df = pd.read_csv("data.vcf", comment="##")

لا يعمل. لاحظ أنه بالنسبة إلى VCF ، لن يعمل استخدام comment="#" فقط لأن سطر العنوان يبدأ فعليًا بـ "#" واحد.

سيكون هذا صعبًا. أنا أغلق هذا الآن

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات