Data.table: قد يفشل fread في تحليل ملف صالح عند dec = '،'

تم إنشاؤها على ١٣ أبريل ٢٠١٨  ·  3تعليقات  ·  مصدر: Rdatatable/data.table

> fread('a,b,c,d\n1e1,1e2,1e3,"4,0001"\n1,2,3,4\n', dec=',')
       a     b     c      d
   <num> <num> <num>  <num>
1:    10   100  1000 4.0001
Warning message:
In fread("a,b,c,d\n1e1,1e2,1e3,\"4,0001\"\n1,2,3,4\n", dec = ",") :
  Discarded single-line footer: <<1,2,3,4>>

يحدث هذا لأن المحلل اللغوي العائم يستهلك جشعًا 1,2 كرمز واحد ، بينما بدون علامات الاقتباس يجب تحليله على أنه حقلين منفصلين.

بالإضافة إلى ذلك ، يحتوي قسم "التفاصيل" في الوثائق على المعلومات التالية (والتي تعد قديمة منذ فترة طويلة):

يستخدم 'fread' دالة C 'strtod' لقراءة البيانات الرقمية ؛ على سبيل المثال ،
"1.23" أو "1،23". يسترد "strtod" الفاصل العشري ("." أو
'،' عادةً) من الإعدادات المحلية لجلسة R بدلاً من ملف
تم تمرير الحجة إلى وظيفة "strtod". وذلك ل
'fread (...، dec = "،")' للعمل ، "fread" يغير هذا (وهذا فقط)
لغة جلسة R مؤقتًا إلى لغة توفر الامتداد
المطلوب فاصل عشري.

bug fread

ال 3 كومينتر

حزمة رهيبة! شكرا لك.
من قبيل الصدفة ، واجهت سلوكًا غريبًا محتملًا مع fread أمس.
هنا مثال بسيط (مشتق من حالة حقيقية باستخدام lapply fread على مجموعة من الملفات).

library(data.table)

DT = data.table(A = rep("20,1", 1e4))
fwrite(DT, "DT.csv", quote = FALSE)

classA = character(1e3)

for (i in seq_along(classA)) {

  DT = fread("DT.csv", sep = ";", dec = ",", colClasses = "numeric")
  classA[i] = DT[, class(A)]
}

table(classA)

هذا يعطيني:

Warning message:
In fread("DT.csv", sep = ";", dec = ",", colClasses = "numeric",  :
  Bumped column 1 to type character on data row 387, field contains '20,1'. Coercing previously read values in this column from logical, integer or numeric back to character which may not be lossless; e.g., if '00' and '000' occurred before they will now be just '0', and there may be inconsistencies with treatment of ',,' and ',NA,' too (if they occurred in this column before the bump). If this matters please rerun and set 'colClasses' to 'character' for this column. Please note that column type detection uses a sample of 1,000 rows (100 rows at 10 points) so hopefully this message should be very rare. If reporting to datatable-help, please rerun and include the output from verbose=TRUE.

table(classA)
# classA
# character   numeric 
#        1       999 
which(classA == "character")
# [1] 9
`````

So, sometimes, the column is read as character with the spotted row index being different for different runs. And the ```which``` indicates it is more likely to happen in the first iterations. I don't get the randomness and the fact that colClasses is ignored (I set colClasses after reading fread doc...).
And... I did not manage to reproduce the error when setting verbose = TRUE... Also, the bug was observed using RStudio, not reproduced in the R console...
Sorry if I missed or misunderstood something...

```r
sessionInfo()
R version 3.3.2 (2016-10-31)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] data.table_1.10.4-3

loaded via a namespace (and not attached):
[1] tools_3.3.2 yaml_2.1.18

يرجى التأكد من التحديث إلى إصدار التطوير من data.table والاختبار مرة أخرى. كان هناك الكثير من التحسينات على fread منذ الإصدار الأخير

في الواقع ... ركض نفس المثال بضع مرات مع 1.10.5 وعمل بشكل جيد.
شكرا لك.

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات