Pandas: पंडों get_dummies () और n-1 स्पष्ट एन्कोडिंग विकल्प Collinearity से बचने के लिए?

को निर्मित 15 जन॰ 2016 · 3टिप्पणियाँ · स्रोत: pandas-dev/pandas

रैखिक प्रतिगमन और श्रेणीबद्ध चर एन्कोडिंग करते समय, पूर्ण समरूपता एक समस्या हो सकती है। इसके आसपास जाने के लिए, सुझाया गया तरीका n-1 कॉलम का उपयोग करना है। यह उपयोगी होगा यदि pd.get_dummies() में एक बूलियन पैरामीटर होता है जो एन्कोड किए जाने वाले प्रत्येक श्रेणीबद्ध कॉलम के लिए n-1 देता है।

उदाहरण:

>>> df
    Account  Network      Device
0  Account1   Search  Smartphone
1  Account1  Display      Tablet
2  Account2   Search  Smartphone
3  Account3  Display  Smartphone
4  Account2   Search      Tablet
5  Account3   Search  Smartphone

>>> pd.get_dummies(df)
   Account_Account1  Account_Account2  Account_Account3  Network_Display  \
0                 1                 0                 0                0   
1                 1                 0                 0                1   
2                 0                 1                 0                0   
3                 0                 0                 1                1   
4                 0                 1                 0                0   
5                 0                 0                 1                0   

   Network_Search  Device_Smartphone  Device_Tablet  
0               1                  1              0  
1               0                  0              1  
2               1                  1              0  
3               0                  1              0  
4               1                  0              1  
5               1                  1              0

इसके बजाय, मैं drop_first=True में get_dummies() जैसे कुछ पैरामीटर रखना चाहता हूं और यह ऐसा कुछ करता है:

>>> new_df = pd.DataFrame(index=df.index)
>>> for i in df:
    new_df = new_df.join(pd.get_dummies(df[i]).iloc[:, 1:])


>>> new_df
   Account2  Account3  Search  Tablet
0         0         0       1       0
1         0         0       0       1
2         1         0       1       0
3         0         1       0       0
4         1         0       1       1
5         0         1       1       0

सूत्रों का कहना है
http://fastml.com/converting-categorical-data-into-numbers-with-pandas-and-scikit-learn/
http://stackoverflow.com/questions/31498390/how-to-get-pandas-get-dummies-to-emit-n-1-variables-to-avoid-co-lineraity
http://dss.princeton.edu/online_help/analysis/dummy_variables.htm

Reshaping

स्रोत

jaradc

सबसे उपयोगी टिप्पणी

एक विशिष्ट मूल्य को छोड़ने की अनुमति देना फायदेमंद होगा, न कि केवल 'पहले' को।

छोड़ी गई श्रेणी (संदर्भ समूह) गुणांक की व्याख्या को प्रभावित करती है।

उदाहरण के लिए, संदर्भ श्रेणी के रूप में 'सबसे बड़े' मान को छोड़ना एक सर्वोत्तम अभ्यास है;

````

गर्म = डीएफ [['vol_k', 'सक्रियण']]

cat_vars = सूची (df.select_dtypes (शामिल करें = ['श्रेणी'])। कॉलम)
cat_vars में वर के लिए:
नया = pd.get_dummies(df[var])
गर्म = गर्म। शामिल हों (नया)

#drop most frequent variable for ref category
drop_col = df.groupby([var]).size().idxmax()
hot.drop(drop_col, axis=1, inplace=True)

print(var + " dropping " + drop_col)
print(df.groupby([var]).size())`

```

jcress 9 नव॰ 2017

👍7

सभी 3 टिप्पणियाँ

अच्छा लगता है, पुल अनुरोध सबमिट करने में दिलचस्पी है?

TomAugspurger 15 जन॰ 2016

:+1:

StephenKappel 19 जन॰ 2016