أحاول دمج إطار بيانات متعددة مع عمليات دمج متتالية ، وأريد إضافة لاحقة إلى اسم أسماء الأعمدة المدمجة حديثًا. تبدو نسخة مبسطة من الكود الخاص بي كما يلي:
from pandas import *
f0 = DataFrame(columns=['data'], data=[1,2,3], index=['a','b','c'])
f1 = DataFrame(columns=['data'], data=[4,5,6], index=['c','b','a'])
f2 = DataFrame(columns=['data'], data=[7,8,9], index=['a','c','b'])
merged = f0
merged = merged.merge(f1, left_index=True, right_index=True, suffixes=("_0", "_1"))
merged = merged.merge(f2, left_index=True, right_index=True, suffixes=("", "_2"))
print merged.columns
مع pandas 0.15.2 على python 2.7 ، يعود هذا:
Index([u'data_0', u'data_1', u'data'], dtype='object')
بينما كنت أتوقع
Index([u'data_0', u'data_1', u'data_2'], dtype='object')
يبدو أنك تريد هذا فقط؟
In [45]: pd.concat([f0,f1,f2],axis=1,ignore_index=True)
Out[45]:
0 1 2
a 1 6 7
b 2 5 9
c 3 4 8
تنطبق اللواحق فقط إذا كانت هناك أعمدة مكررة لا توجد بعد الدمج الأول (عند مقارنتها بالثالث)
In [46]: merged1 = merged.merge(f1, left_index=True, right_index=True, suffixes=("_0", "_1"))
In [47]: merged1
Out[47]:
data_0 data_1
c 3 4
b 2 5
a 1 6
In [48]: merged1.merge(f2, left_index=True, right_index=True, suffixes=("", "_2"))
Out[48]:
data_0 data_1 data
a 1 6 7
c 3 4 8
b 2 5 9
آه ، شكرًا على التوضيح ، فاتني حقيقة أن اللواحق يتم تطبيقها فقط على أسماء الأعمدة المكررة. وبالفعل فإن حل concat أبسط. وللتسجيل: concat (... ignore_index = True) هي بالضبط عكس ما أريد ، ولكن مع concat (... ignore_index = False) تعمل بشكل جيد.
عظيم
ضع في اعتبارك أنك لا تريد عمومًا أن يكون لديك أعمدة مكررة
قد ترغب في نتيجة متعددة المستويات - استخدم وسيطة المفاتيح للتسلسل
التعليق الأكثر فائدة
يبدو أنك تريد هذا فقط؟
تنطبق اللواحق فقط إذا كانت هناك أعمدة مكررة لا توجد بعد الدمج الأول (عند مقارنتها بالثالث)