سأكون سعيدًا جدًا إذا دعمت Pandas أحرف تعليق متعددة عند قراءة البيانات من الملفات. وفق:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
لا أعرف ما إذا كان هذا يتطلب جهد تنفيذ بسيط أو كبير؟
الأفضل،
إريك
سيكون هذا القليل من الجهد. القارئ أساسًا بايت بايت (مع بعض إمكانية الرجوع للخلف). لذلك سيتعين عليه التحقق مرة أخرى من المخزن المؤقت لأحرف التعليقات (يقوم بالتحقق فقط من الحرف الفردي الآن ، ولكن فقط إذا لم يكن NULL) ، بطريقة فعالة. يمكن القيام به.
متعلق ب:
سيكون رائعًا إذا كان من الممكن أن يكون حرف التعليق في الواقع حرفين ، على سبيل المثال "##". على سبيل المثال ، في ملفات VCF ، يتم تحديد بعض بيانات التعريف في بداية الملف بـ "##" قبل بدء الجدول الفعلي:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
غالبًا ما يريد المرء فقط تجاهل هذه ، ولكن:
df = pd.read_csv("data.vcf", comment="##")
لا يعمل. لاحظ أنه بالنسبة إلى VCF ، لن يعمل استخدام comment="#"
فقط لأن سطر العنوان يبدأ فعليًا بـ "#" واحد.
سيكون هذا صعبًا. أنا أغلق هذا الآن
التعليق الأكثر فائدة
متعلق ب:
سيكون رائعًا إذا كان من الممكن أن يكون حرف التعليق في الواقع حرفين ، على سبيل المثال "##". على سبيل المثال ، في ملفات VCF ، يتم تحديد بعض بيانات التعريف في بداية الملف بـ "##" قبل بدء الجدول الفعلي:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
غالبًا ما يريد المرء فقط تجاهل هذه ، ولكن:
لا يعمل. لاحظ أنه بالنسبة إلى VCF ، لن يعمل استخدام
comment="#"
فقط لأن سطر العنوان يبدأ فعليًا بـ "#" واحد.