Scikit-learn: 提案：ペナルティのないロジスティック回帰のサポートを追加する

作成日 2016年04月30日 · 34コメント · ソース: scikit-learn/scikit-learn

LinearRegression unpenalized OLSを提供し、 SGDClassifierサポートする、 loss="log" 、またサポートしていますpenalty="none" 。あなたは、昔ながらのunpenalizedロジスティック回帰をしたい場合しかし、あなたは設定することで、偽のそれに持っているCでLogisticRegression大量に、または使用Logitからstatsmodels代わりは。

Documentation Easy

ソース

Kodiologist

👍10

最も参考になるコメント

なぜ正則化せずにロジスティック回帰を実行したいのかと質問していますか？（1）サンプルが特徴の数に比例して十分に大きいため、正則化では何も購入されない場合があり、（2）予測精度を最大化するのではなく、最適な係数が重要な場合があります。

Kodiologist 2016年10月11日

👍28

全てのコメント34件

LogisticRegressionのCを多数に設定して偽造する必要があります

そのアプローチの問題は何ですか？

mblondel 2016年05月02日

ペナルティのないロジスティック回帰を直接実装するよりも不正確で遅いと思いました。私が間違っている？

次のようにCが高すぎると、 LogisticRegression.fitがハングすることに気付きました。しかし、これがバグなのか、それともアルゴリズムと64ビットコンピューターでの実装に固有の特性なのかはわかりません。

import numpy as np
from sklearn.linear_model import LogisticRegression

x = np.matrix([0, 0, 0, 0,  1, 1, 1, 1]).T
y =           [1, 0, 0, 0,  1, 1, 1, 0]

m = LogisticRegression(C = 1e200)
m.fit(x, y)
print m.intercept_, m.coef_

Kodiologist 2016年05月02日

次のようにCを高く設定しすぎると、LogisticRegression.fitがハングすることに気付きました。

はい、Cが大きいと問題が不適切になるため、これは予想されることです。反復ソルバーは、不適切な問題で低速です。

あなたの例では、アルゴリズムが目的の許容範囲に到達するまでに永遠に時間がかかります。 tolを増やすか、 max_iterハードコードする必要があります。

mblondel 2016年05月02日

@mblondel 「反復ソルバー」に代わるものはありますか？
正規化されていないオプションを正確に取得することはできませんよね？

@Kodiologistなぜあなたはこれが欲しいのですか？

amueller 2016年10月11日

Kodiologist 2016年10月11日

👍28

はい、それが私の質問でした。

（1）は正しくありません。それは常にあなたにより速いソルバーを買うでしょう。

（2）は統計分析の領域にありますが、これは実際にはscikit-learnの焦点ではありません。これを追加できると思いますが、どのソルバーを使用するかわかりません。非統計家として、少し正則化することで変化する係数はどれほど良いのだろうかと思います。

amueller 2016年10月11日

計算が得意ではないので、（1）についてはあまり言えません。（2）については、私は統計のバックグラウンドを持つデータアナリストです。 scikit-learnは従来の機械学習に重点を置いていることは知っていますが、今のところデータ分析に最適なPythonパッケージであり、あまり制限しないことでメリットが得られると思います。（LarryWassermanとAndrewGelmanに続いて、統計と機械学習は相互に混合することで相互に利益が得られると思いますが、それはワームの独自の缶だと思います。）すべての係数は正則化によって変化します。それが正則化が行うことです。

Kodiologist 2016年10月11日

👍15 ❤6

私は正則化なしでソルバーを追加することに反対していません。何が良いかを確認することも、保釈してl-bfgsを使用し、状態が悪いかどうかを事前に確認することもできますか？

はい、すべての係数は正則化によって変化します。私はあなたが後で彼らと何をしたいのか正直に興味があります。

amueller 2016年10月13日

おい、
このトピックのステータスは何ですか？ペナルティのないロジスティック回帰に本当に興味があります。このように、p値は統計的に言えば何かを意味します。そうでなければ、私はそのようなユースケースのためにR😢を使い続ける必要があります...
ありがとう、
アレックス

alexcombessie 2018年02月09日

👍3

または状態モデル？

jnothman 2018年02月10日

👍2

どのソルバーを実装することをお勧めしますか？これは、C-> inftyですでに使用しているソルバーとどのように異なりますか？

mblondel 2018年02月12日

どのソルバーを実装することをお勧めしますか？これは、C-> inftyですでに使用しているソルバーとどのように異なりますか？

あなたはアイデアのためにRまたはstatsmodelsを見てみることができます。私はそれらの方法に精通していませんが、それらは適度に高速であり、正則化をまったく使用していません。

Kodiologist 2018年02月13日

👍1

行列の反転にQRアルゴリズムを使用する場合は、statsmodelsもその役割を果たします。私のユースケースは、モデルの解釈可能性に関するものです。パフォーマンスのために、私は間違いなく正則化を使用します。

alexcombessie 2018年02月13日

新しいソルバーを追加する必要はないと思います...ロジスティック回帰は閉じた形の解を享受しません。つまり、statsmodelはある種の反復ソルバーも使用する必要があります（私の推測では、反復再重み付け最小二乗ですが、確認していません）。 C=np.inf （または同等にalpha = 0 ）を設定すると、原則として現在のソルバーで機能するはずです。この設定ではliblinearが実際に非常に遅くなる可能性があるため、L-BFGSまたはNewton-CGソルバーに切り替えることをお勧めします。おそらく、 solver="auto"オプションを追加して、 C=np.infまたは同等のpenalty="none"ときに、これらのいずれかに自動的に切り替えることができますか？

mblondel 2018年02月14日

＃10001fwiwでデフォルトのソルバーをlbfgsに変更します

jnothman 2018年02月14日

（私のように）不規則なロジスティック回帰を本当に望んでいる人々のために。 statsmodelsを使用して、SKLearnAPIを模倣するラッパークラスを作成する必要がありました。

arose13 2018年04月20日

👍6 ❤1

これに関する更新はありますか？これは、scikit-learnを人々に勧めたいという私の意欲を妨げる大きな要因です。また、scikit-learnがデフォルトで正則化を実行し、それを無効にする方法がないことは、他のライブラリから来ている人々にはまったく明らかではありません。

shermstats 2018年11月12日

👍5

@shermstatsは、そのドキュメントを改善する方法を提案していますか？私はそれがあまり明白ではないかもしれないことに同意します。
l-bfgsはC=np.inf許可しますか？

amueller 2018年11月12日

あなたは指定することができますC=np.inf通り、それはあなたに同じ結果を与えるだろうが、 C=large value 。私が試した例では、statsmodelよりも適切に適合し、statsmodelは他のほとんどのランダムシードと収束できませんでした。

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm

X, y = make_classification(random_state=2)
lr = LogisticRegression(C=np.inf, solver='lbfgs').fit(X, y)


logit = sm.Logit(y, X)
res = logit.fit()

Optimization terminated successfully.
         Current function value: 0.167162
         Iterations 10

from sklearn.metrics import log_loss
log_loss(y, lr.predict_proba(X))
log_loss(y, res.predict(X))

0.16197793224715606
0.16716164149746823

したがって、Cを大きく設定するかnp.infに設定することで、ペナルティのないモデルを取得できることを文書化する必要があると主張します。

amueller 2018年11月12日

docstringとユーザーガイドに追加することをお勧めします
「LogisticRegregressionモデルはデフォルトでペナルティが課せられます。C= np.infおよびsolver = 'lbfgs'を設定することで、ペナルティのないモデルを取得できます。」

amueller 2018年11月12日

statsmodelよりも適切に適合し、statsmodelは他のほとんどのランダムシードと収束できませんでした

Rのglmはより成熟しており、より良い比較に役立つ可能性があります。

docstringとユーザーガイドに追加することをお勧めします
「LogisticRegregressionモデルはデフォルトでペナルティが課せられます。C= np.infおよびsolver = 'lbfgs'を設定することで、ペナルティのないモデルを取得できます。」

許可penalty = "none" a la SGDClassifier追加してみませんか？

Kodiologist 2018年11月12日

@Kodiologist私はpenalty="none"を追加することに反対していませんが、冗長オプションを追加することの利点が何であるかはわかりません。
そして、glmとの比較を歓迎すると思います。私はglmにあまり詳しくないので、おそらく比較を行うのに適した人ではありません。ただし、対数損失を最適化しているため、実際には違いはありません。たぶん彼らは異なるソルバーを実装しているので、ベンチマークがあるといいでしょう。

amueller 2018年11月12日

私はpenalty="none"を追加することに反対していませんが、冗長オプションを追加することの利点が何であるかはわかりません。

ペナルティのないモデルを取得する方法が明確になります。
ペナルティのないモデルを使用しているコードが何をしようとしているのかが読者に明らかになります。
これにより、sklearnは、人々のコードを壊すことなく、将来、非正規化モデルの実装を変更できます。

Kodiologist 2018年11月12日

👍11

発見可能性が増すと思われる場合は、追加できます。3は有効なポイントです（実際には、おそらく非推奨なしに変更することはできませんが、ソルバーの現在の変更を参照してください）。
PRを送りますか？

amueller 2018年11月12日

私はそれのための丸いtuitsを持っていません。ごめん。

Kodiologist 2018年11月12日

@Kodiologist少なくともあなたは私が知らなかったイディオムを教えてくれました;）

amueller 2018年11月13日

貢献者のために開いてください：オプションとしてpenalty='none'を追加してください。また、どのソルバーがこれをサポートしているかを確認し、これで効率的であり（liblinearはおそらくそうではありません）、それらのソルバーに制限します。

amueller 2018年11月13日

docstringとユーザーガイドに追加することをお勧めします
「LogisticRegregressionモデルはデフォルトでペナルティが課せられます。C= np.infおよびsolver = 'lbfgs'を設定することで、ペナルティのないモデルを取得できます。」

これは私には合理的に聞こえます。また、他の機械学習やデータ分析環境から来た人々にとっては当然のことながら驚くべきことなので、最初の文を太字にすることをお勧めします。

shermstats 2018年11月13日

@shermstatsしたがって、 @ Kodiologistは、 penalty="none"を追加してより明確にすることを提案しました。これは、 C=np.infエイリアスになります。このようにこれをより明確にすることは私にとって理にかなっています。あなたはそれについて考えがありますか？
次に、それがドキュメントの内容になります。そして、私は太字が良い考えかもしれないことに同意します。
MLのバックグラウンドを持つ人にとって、これは（多分？）予想されることだと思います。統計のバックグラウンドを持つ人にとって、これは非常に驚くべきことのようです。

amueller 2018年11月13日

👍2

丁度！私は統計のバックグラウンドを持っており、Rまたはポイントアンドクリックインターフェイスから来る多くの統計の人々と協力してきましたが、この動作は私たちにとって非常に驚くべきものです。今のところ、 penalty=None （ "none"とNoneについてはよくわかりません）が良い解決策だと思います。将来的には、 @ mblondelが説明した問題を防ぐために、

shermstats 2018年11月13日

申し訳ありませんが、どの問題を意味しますか？デフォルトでl-bfgsに切り替えています。また、誰かがpenalty='none'指定した場合、内部でソルバーをl-bfgsに自動的に切り替えることもできます（多くの場合、Noneは非推奨のパラメーターに使用する特別なトークンですが、停止しましたそれでも「none」はライブラリの他の部分とより一貫性があります）。
とにかくsolver="auto"が必要なので、ペナルティに基づいてソルバーを変更することは問題にはなりません。

amueller 2018年11月13日

この問題は、大きなCでは反復アルゴリズムが非常に遅くなることを示しています。私は数値解析の専門家ではありませんが、l-bfgsによって速度が低下するのを防ぐことができれば、それは正しい解決策のように思えます。 penalty='none'も、これを処理する正しい方法のように聞こえます。

shermstats 2018年11月14日

@shermstatsはい、l-bfgsでは、これは問題ではないようです。ただし、広範なベンチマークを実行したことはなく、実行する時間もありません。誰かがベンチマークを実行したいのであれば、それは大きな助けになるでしょう。

amueller 2018年11月14日

ペナルティ= 'none'を含める場合は、OLSの場合と同じコリニアXに関する警告をユーザーガイドに追加することをお勧めします（特にワンホットエンコードされた機能の場合）。

lorentzenchr 2019年01月02日

このページは役に立ちましたか？

0 / 5 - 0 評価

Scikit-learn: 提案：ペナルティのないロジスティック回帰のサポートを追加する

最も参考になるコメント

全てのコメント34件

関連する問題