この機能を#346機能ブランチに追加し、 predict
を再計算し、automlの速度を低下させていたため、#606でバックアウトしました。
デフォルトでこれを再度有効にする必要があります。 そのためには、現在スコアで計算されている予測出力をキャッシュする必要があります。 長期的な解決策は、予測をキャッシュ(#466)でメモ化することですが、短期的には何かを実行できるはずです。
これは、パイプラインクラスのscore
メソッド間の重複コードのクリーンアップを追跡する#579にも関連しています。
来週はひびを入れたいと思います。 私はキャッシュを行うためのいくつかの異なる方法を研究していて、いくつかのものをローカルでテストしました。
パフォーマンステストMVPができるまで、これを行うべきではありません
パフォーマンステストMVPができたので、これを実行する必要があります。 これは#1024の一部として登場しました。
@ angela97linありがとうございます! はい、間違いなく。
次のステップは、いくつかの二項分類問題について、パフォーマンスの前後の比較を生成することです。
追加の考慮事項
今後の仕事
4月の元の記事で、私は言った
現在スコアで計算されている予測出力をキャッシュする必要があります。
私はそれがもう当てはまらないと信じています、無視することができます。 そのコメントは、 score
をリファクタリングする前から残っていました。 さらに、別の分割でしきい値の最適化を行うため、キャッシュするものはありません。 @freddyaboulton FYI
@dsherry @ angela97lin分析ドキュメントの最初のいくつかのセクションをここにまとめ
@freddyaboultonコメントを残しました。 間違いなく対数損失を確認する必要があります。これは、少なくとも最初のバッチでは変化がないことを示しているはずです。 ただし、チューニングを有効にした場合の効果を確認できるように、F1などのしきい値に敏感なものの最適化も試してみる必要があると思います。
@freddyaboulton申し訳ありませんが、テンプレートから残ったプロットに混乱しました。最初の部分だけを読んだことについてのコメントは表示されませんでした🤦♂️私はあなたが持っているものが好きです
@freddyaboulton参考までに、ドキュメントを投稿してから、この問題を進行中に移動しました
@dsherry @ angela97lin 「datasets_small_0.yaml」ファイルの分析を終了しました。
つまり、しきい値を調整した後、パフォーマンスが実際に低下しました。これは、しきい値を調整するために層化分割を使用していないことが原因である可能性があります。
@freddyaboultonああ、そうかもしれない。
私はあなたのドキュメントをレビューし、コメントを残しました。 私は新しいチャートと統計が好きです。 それらを再利用できるように、それらをlooking_glass/analysis/
に追加し直す方法を見つける必要があります。 でも押さない。
上から頭に浮かぶいくつかのオプション:
最初に層化サンプリングに切り替えて、それが何をするかを確認する必要があると思います。
もう1つの試みは、分割サイズを80%トレーニング20%しきい値最適化から50%トレーニング50%しきい値最適化に切り替えることです。 これがうまくいくかどうかは少し疑わしいですが、試してみるのは簡単で、見るのも面白いでしょう。
@jeremyliweishihが#1049、 @ freddyaboultonをピックアップしているので、これを彼に渡すことをお勧めします。 私はあなたにそれを理解させます:)
@freddyaboultonあなたはこれに取り組んでいませんよね? @jeremyliweishihはそれを取ることができますか?
@jeremyliweishih @dsherryどうぞどうぞ! 最初の分析では、チューニングを有効にするだけではスコアは向上しないことが示されました。 別のデータ分割戦略を使用すると役立つ場合があります。
Dev Backlogに戻り、さらにデータ分割作業を行った後、これを実行します。
@ bchen1116と私は話し合いましたが、これは#973に必要だと感じています