Scikit-learn: تأكد من توثيق جميع السمات

تم إنشاؤها على ١٢ يوليو ٢٠١٩  ·  79تعليقات  ·  مصدر: scikit-learn/scikit-learn

كما تمت مناقشته في # 13385 ، نحتاج إلى ضمان توثيق جميع السمات.

إذا كنت ترغب في العمل على هذا ، يجب عليك اختيار وحدة فرعية محددة وإصلاح جميع حالات عدم تطابق وثائق السمات في تلك الوحدة الفرعية.

فيما يلي نص برمجي للعثور على العناصر المتبقية (قد تكون هناك بعض الإيجابيات الخاطئة):

import numpy as np
from sklearn.base import clone
from sklearn.utils.testing import all_estimators
from sklearn.utils.estimator_checks import pairwise_estimator_convert_X, enforce_estimator_tags_y
from numpydoc import docscrape

ests = all_estimators()

for name, Est in ests:
    try:
        estimator_orig = Est()
    except:
        continue
    rng = np.random.RandomState(0)
    X = pairwise_estimator_convert_X(rng.rand(40, 10), estimator_orig)
    X = X.astype(object)
    y = (X[:, 0] * 4).astype(np.int)
    est = clone(estimator_orig)
    y = enforce_estimator_tags_y(est, y)
    try:
        est.fit(X, y)
    except:
        continue
    fitted_attrs = [(x, getattr(est, x, None))
                    for x in est.__dict__.keys() if x.endswith("_")
                    and not x.startswith("_")]
    doc = docscrape.ClassDoc(type(est))
    doc_attributes = []
    incorrect = []
    for att_name, type_definition, param_doc in doc['Attributes']:
        if not type_definition.strip():
            if ':' in att_name and att_name[:att_name.index(':')][-1:].strip():
                incorrect += [name +
                              ' There was no space between the param name and '
                              'colon (%r)' % att_name]
            elif name.rstrip().endswith(':'):
                incorrect += [name +
                              ' Parameter %r has an empty type spec. '
                              'Remove the colon' % (att_name.lstrip())]

        if '*' not in att_name:
            doc_attributes.append(att_name.split(':')[0].strip('` '))
    assert incorrect == []
    fitted_attrs_names = [x[0] for x in fitted_attrs]

    bad = sorted(list(set(fitted_attrs_names) ^ set(doc_attributes)))
    if len(bad) > 0:
        msg = '{}\n'.format(name) + '\n'.join(bad)
        print("Docstring Error: Attribute mismatch in " + msg)


Documentation Easy good first issue help wanted

التعليق الأكثر فائدة

سلاسل مستندات السمة مفقودة لكل مقدر

قم بالإشارة إلى هذه المشكلة في العلاقات العامة الخاصة بك

  • [x] ARDRegression [intercept_]
  • [x] AdaBoostClassifier ، [base_estimator_]
  • [x] AdaBoostRegressor ، [base_estimator_]
  • [x] AdditiveChi2Sampler ، [sample_interval_]
  • [x] التجميع التجميعي ، [n_components_] (مهمل)
  • [x] تصنيف التعبئة ، [n_features_]
  • [x] تسجيل التعبئة ، [base_estimator_ ، n_features_]
  • [x] مزيج BayesianGaussianMix ، [mean_precision_prior ، mean_precision_prior_]
  • [x] BayesianRidge، [X_offset_، X_scale_]
  • [x] BernoulliNB، [coef_، intercept_]
  • [x] BernoulliRBM ، [h_samples_]
  • [] بيرش ، [تناسب_ ، تناسب_جزئي_]
  • [] CCA ، [coef_ ، x_mean_ ، x_std_ ، y_mean_ ، y_std_]
  • [x] CheckingClassifier ، [classes_]
  • [x] ComplementNB ، [coef_، intercept_]
  • [x] CountVectorizer، [stop_words_، vocabulary_]
  • [] DecisionTreeRegressor ، [فئات_ ، n_classes_]
  • [x] DictVectorizer ، [feature_names_، vocabulary_]
  • [] DummyClassifier ، [output_2d_]
  • [] DummyRegressor ، [output_2d_]
  • [] ElasticNet ، [dual_gap_]
  • [] ElasticNetCV ، [dual_gap_]
  • [] EllipticEnvelope ، [dist_، raw_covariance_، raw_location_، raw_support_]
  • [x] ExtraTreeClassifier ، [feature_importances_]
  • [] ExtraTreeRegressor ، [الفئات_ ، السمات_الأساسية_ ، n_classes_]
  • [x] ExtraTreesClassifier ، [base_estimator_]
  • [x] ExtraTreesRegressor ، [base_estimator_]
  • [x] تحليل العوامل ، [يعني_]
  • [] تكتل الميزات ، [n_components_]
  • [x] GaussianProcessClassifier ، [base_estimator_]
  • [x] GaussianRandomProject [مكونات_]
  • [x] GradientBoostingClassifier ، [max_features_، n_classes_، n_features_، oob_improvement_]
  • [x] GradientBoostingRegressor ، [max_features_، n_classes_، n_estimators_، n_features_، oob_improvement_]
  • [x] HistGradientBoostingClassifier ، [bin_mapper_ ، classes_ ، do_early_stopping_ ، loss_ ، n_features_ ، scorer_]
  • [x] HistGradientBoostingRegressor، [bin_mapper_، do_early_stopping_، loss_، n_features_، scorer_]
  • [x] IncrementalPCA ، [batch_size_]
  • [x] IsolationForest ، [base_estimator_ ، مقدّر_ميزات_ ، n_features_]
  • [x] الانحدار متساوي التوتر ، [X_max_، X_min_، f_]
  • [x] IterativeImputer، [random_state_]
  • [x] KNeighboursClassifier ، [الفصول_المقياس_الفعال_المقياس الفعال_المعايير_المخرجات_2d_]
  • [x] KNeighboursRegressor ، [مقياس_فعالية_فعالية ، مقياس_فعالية_المعايير_المؤثرة_
  • [x] KernelCenterer، [K_fit_all_، K_fit_rows_]
  • [x] كثافة النواة ، [الشجرة_]
  • [x] KernelPCA، [X_transformed_fit_، dual_coef_]
  • [x] LabelBinarizer ، [class_، sparse_input_، y_type_]
  • [x] LabelEncoder ، [فئات_]
  • [x] LarsCV ، [active_]
  • [x] لاسو ، [dual_gap_]
  • [x] LassoLarsCV ، [active_]
  • [x] LassoLarsIC ، [alphas_]
  • [x] تخصيص LatentDirichlet ، [ملزم_ ، doc_topic_prior_ ، exp_dirichlet_component_ ، حالة_ عشوائية ، موضوع_كلمة_أول_]
  • [x] LinearDiscriminantAnalysis، [التغاير_]
  • [x] الانحدار الخطي ، [الترتيب_ ، المفرد_]
  • [x] LinearSVC ، [فئات_]
  • [x] LocalOutlierFactor ، [القيم_المؤثرة_المقياس الفعّال_المعايير_المؤثرة_
  • [x] MDS، [disimilarity_matrix_، n_iter_]
  • [x] MLPClassifier ، [best_loss_، loss_curve_، t_]
  • [x] MLPRegressor ، [best_loss_، loss_curve_، t_]
  • [x] MinMaxScaler ، [n_samples_seen_]
  • [x] MiniBatchDictionaryLearning ، [iter_offset_]
  • [x] MiniBatchKMeans ، [counts_، init_size_، n_iter_]
  • [x] MultiLabelBinarizer ، [classes_]
  • [x] MultiTaskElasticNet ، [dual_gap_ ، eps_ ، sparse_coef_]
  • [x] MultiTaskElasticNetCV ، [dual_gap_]
  • [x] MultiTaskLasso ، [dual_gap_ ، eps_ ، sparse_coef_]
  • [x] MultiTaskLassoCV ، [dual_gap_]
  • [x] أقرب مركز ، [class_]
  • [x] الجيران الأقرب ، [مقياس_فعالية_فعالية ، معايير_قياس_ فعالة_ فعالة
  • [x] NeighborhoodComponentsAnalysis ، [حالة_ عشوائية]
  • [x] NuSVC، [class_weight_، fit_status_، probA_، probB_، shape_fit_]
  • [] NuSVR، [class_weight_، fit_status_، n_support_، probA_، probB_، shape_fit_]
  • [x] OAS ، [location_]
  • [] OneClassSVM، [class_weight_، fit_status_، n_support_، probA_، probB_، shape_fit_]
  • [x] OneVsOneClassifier ، [n_classes_]
  • [x] OneVsRestClassifier ، [coef_، intercept_، n_classes_]
  • [x] OrthogonalMatchingPursuit ، [n_nonzero_coefs_]
  • [] PLSC متعارف عليه ، [coef_، x_mean_، x_std_، y_mean_، y_std_]
  • [x] PLSRegression ، [x_mean_، x_std_، y_mean_، y_std_]
  • [] PLSSVD ، [x_mean_ ، x_std_ ، y_mean_ ، y_std_]
  • [x] PassiveAggressiveClassifier ، [خسارة_وظيفة_ ، t_]
  • [x] PassiveAggressiveRegressor ، [t_]
  • [x] Perceptron ، [خسارة_وظيفة_]
  • [x] التحليل التربيعي ، [الفئات_ ، التغاير_]
  • [x] RBFSampler، [random_offset_، random_weights_]
  • [] RFE ، [فئات_]
  • [] RFECV ، [فئات_]
  • [x] RadiusNeighboursClassifier ، [الفئات_ ، مقياس_فعالية_الفعالية ، مقياس_المعايير الفعالة_المخرجات_المخرجات_
  • [x] RadiusNeighboursRegressor ، [مقياس_فعالية_فعالية ، مقياس_فعالية_المعايير_المؤثرة_
  • [x] RandomForestClassifier ، [oob_decision_function_، oob_score_]
  • [x] RandomForestRegressor ، [oob_prediction_، oob_score_]
  • [x] RandomTreesEmbedding ، [base_estimator_ ، feature_importances_ ، n_features_ ، n_outputs_ ، one_hot_encoder_]
  • [x] RidgeCV ، [cv_values_]
  • [x] RidgeClassifier ، [classes_]
  • [x] RidgeClassifierCV ، [cv_values_]
  • [x] تصنيف SGD ، [فئات_ ، t_]
  • [x] SGDRegressor ، [average_coef_، average_intercept_]
  • [x] SVC ، [class_weight_، shape_fit_]
  • [] SVR، [class_weight_، fit_status_، n_support_، probA_، probB_، shape_fit_]
  • [x] SelectKBest، [pvalues_، scores_]
  • [x] التباين المنكمش [الانكماش]
  • [x] SkewedChi2Sampler، [random_offset_، random_weights_]
  • [x] الإسقاط العشوائي المتناثر ، [المكونات_ ، الكثافة_]
  • [x] إفراغ طيفي ، [n_ الجيران_]
  • [x] TfidfVectorizer، [stop_words_، vocabulary_]

ال 79 كومينتر

لقد وجدت بالفعل عدم تطابق واحد على الأقل في وثائق السمات في وصف فئة NMF. أعتقد أنه يمكنني أخذ بعض من هذا العمل. أنا جاهز تقريبًا لاقتراح بعض التغييرات ضمن الوحدات الفرعية decomposition و random_projection .

سلاسل مستندات السمة مفقودة لكل مقدر

قم بالإشارة إلى هذه المشكلة في العلاقات العامة الخاصة بك

  • [x] ARDRegression [intercept_]
  • [x] AdaBoostClassifier ، [base_estimator_]
  • [x] AdaBoostRegressor ، [base_estimator_]
  • [x] AdditiveChi2Sampler ، [sample_interval_]
  • [x] التجميع التجميعي ، [n_components_] (مهمل)
  • [x] تصنيف التعبئة ، [n_features_]
  • [x] تسجيل التعبئة ، [base_estimator_ ، n_features_]
  • [x] مزيج BayesianGaussianMix ، [mean_precision_prior ، mean_precision_prior_]
  • [x] BayesianRidge، [X_offset_، X_scale_]
  • [x] BernoulliNB، [coef_، intercept_]
  • [x] BernoulliRBM ، [h_samples_]
  • [] بيرش ، [تناسب_ ، تناسب_جزئي_]
  • [] CCA ، [coef_ ، x_mean_ ، x_std_ ، y_mean_ ، y_std_]
  • [x] CheckingClassifier ، [classes_]
  • [x] ComplementNB ، [coef_، intercept_]
  • [x] CountVectorizer، [stop_words_، vocabulary_]
  • [] DecisionTreeRegressor ، [فئات_ ، n_classes_]
  • [x] DictVectorizer ، [feature_names_، vocabulary_]
  • [] DummyClassifier ، [output_2d_]
  • [] DummyRegressor ، [output_2d_]
  • [] ElasticNet ، [dual_gap_]
  • [] ElasticNetCV ، [dual_gap_]
  • [] EllipticEnvelope ، [dist_، raw_covariance_، raw_location_، raw_support_]
  • [x] ExtraTreeClassifier ، [feature_importances_]
  • [] ExtraTreeRegressor ، [الفئات_ ، السمات_الأساسية_ ، n_classes_]
  • [x] ExtraTreesClassifier ، [base_estimator_]
  • [x] ExtraTreesRegressor ، [base_estimator_]
  • [x] تحليل العوامل ، [يعني_]
  • [] تكتل الميزات ، [n_components_]
  • [x] GaussianProcessClassifier ، [base_estimator_]
  • [x] GaussianRandomProject [مكونات_]
  • [x] GradientBoostingClassifier ، [max_features_، n_classes_، n_features_، oob_improvement_]
  • [x] GradientBoostingRegressor ، [max_features_، n_classes_، n_estimators_، n_features_، oob_improvement_]
  • [x] HistGradientBoostingClassifier ، [bin_mapper_ ، classes_ ، do_early_stopping_ ، loss_ ، n_features_ ، scorer_]
  • [x] HistGradientBoostingRegressor، [bin_mapper_، do_early_stopping_، loss_، n_features_، scorer_]
  • [x] IncrementalPCA ، [batch_size_]
  • [x] IsolationForest ، [base_estimator_ ، مقدّر_ميزات_ ، n_features_]
  • [x] الانحدار متساوي التوتر ، [X_max_، X_min_، f_]
  • [x] IterativeImputer، [random_state_]
  • [x] KNeighboursClassifier ، [الفصول_المقياس_الفعال_المقياس الفعال_المعايير_المخرجات_2d_]
  • [x] KNeighboursRegressor ، [مقياس_فعالية_فعالية ، مقياس_فعالية_المعايير_المؤثرة_
  • [x] KernelCenterer، [K_fit_all_، K_fit_rows_]
  • [x] كثافة النواة ، [الشجرة_]
  • [x] KernelPCA، [X_transformed_fit_، dual_coef_]
  • [x] LabelBinarizer ، [class_، sparse_input_، y_type_]
  • [x] LabelEncoder ، [فئات_]
  • [x] LarsCV ، [active_]
  • [x] لاسو ، [dual_gap_]
  • [x] LassoLarsCV ، [active_]
  • [x] LassoLarsIC ، [alphas_]
  • [x] تخصيص LatentDirichlet ، [ملزم_ ، doc_topic_prior_ ، exp_dirichlet_component_ ، حالة_ عشوائية ، موضوع_كلمة_أول_]
  • [x] LinearDiscriminantAnalysis، [التغاير_]
  • [x] الانحدار الخطي ، [الترتيب_ ، المفرد_]
  • [x] LinearSVC ، [فئات_]
  • [x] LocalOutlierFactor ، [القيم_المؤثرة_المقياس الفعّال_المعايير_المؤثرة_
  • [x] MDS، [disimilarity_matrix_، n_iter_]
  • [x] MLPClassifier ، [best_loss_، loss_curve_، t_]
  • [x] MLPRegressor ، [best_loss_، loss_curve_، t_]
  • [x] MinMaxScaler ، [n_samples_seen_]
  • [x] MiniBatchDictionaryLearning ، [iter_offset_]
  • [x] MiniBatchKMeans ، [counts_، init_size_، n_iter_]
  • [x] MultiLabelBinarizer ، [classes_]
  • [x] MultiTaskElasticNet ، [dual_gap_ ، eps_ ، sparse_coef_]
  • [x] MultiTaskElasticNetCV ، [dual_gap_]
  • [x] MultiTaskLasso ، [dual_gap_ ، eps_ ، sparse_coef_]
  • [x] MultiTaskLassoCV ، [dual_gap_]
  • [x] أقرب مركز ، [class_]
  • [x] الجيران الأقرب ، [مقياس_فعالية_فعالية ، معايير_قياس_ فعالة_ فعالة
  • [x] NeighborhoodComponentsAnalysis ، [حالة_ عشوائية]
  • [x] NuSVC، [class_weight_، fit_status_، probA_، probB_، shape_fit_]
  • [] NuSVR، [class_weight_، fit_status_، n_support_، probA_، probB_، shape_fit_]
  • [x] OAS ، [location_]
  • [] OneClassSVM، [class_weight_، fit_status_، n_support_، probA_، probB_، shape_fit_]
  • [x] OneVsOneClassifier ، [n_classes_]
  • [x] OneVsRestClassifier ، [coef_، intercept_، n_classes_]
  • [x] OrthogonalMatchingPursuit ، [n_nonzero_coefs_]
  • [] PLSC متعارف عليه ، [coef_، x_mean_، x_std_، y_mean_، y_std_]
  • [x] PLSRegression ، [x_mean_، x_std_، y_mean_، y_std_]
  • [] PLSSVD ، [x_mean_ ، x_std_ ، y_mean_ ، y_std_]
  • [x] PassiveAggressiveClassifier ، [خسارة_وظيفة_ ، t_]
  • [x] PassiveAggressiveRegressor ، [t_]
  • [x] Perceptron ، [خسارة_وظيفة_]
  • [x] التحليل التربيعي ، [الفئات_ ، التغاير_]
  • [x] RBFSampler، [random_offset_، random_weights_]
  • [] RFE ، [فئات_]
  • [] RFECV ، [فئات_]
  • [x] RadiusNeighboursClassifier ، [الفئات_ ، مقياس_فعالية_الفعالية ، مقياس_المعايير الفعالة_المخرجات_المخرجات_
  • [x] RadiusNeighboursRegressor ، [مقياس_فعالية_فعالية ، مقياس_فعالية_المعايير_المؤثرة_
  • [x] RandomForestClassifier ، [oob_decision_function_، oob_score_]
  • [x] RandomForestRegressor ، [oob_prediction_، oob_score_]
  • [x] RandomTreesEmbedding ، [base_estimator_ ، feature_importances_ ، n_features_ ، n_outputs_ ، one_hot_encoder_]
  • [x] RidgeCV ، [cv_values_]
  • [x] RidgeClassifier ، [classes_]
  • [x] RidgeClassifierCV ، [cv_values_]
  • [x] تصنيف SGD ، [فئات_ ، t_]
  • [x] SGDRegressor ، [average_coef_، average_intercept_]
  • [x] SVC ، [class_weight_، shape_fit_]
  • [] SVR، [class_weight_، fit_status_، n_support_، probA_، probB_، shape_fit_]
  • [x] SelectKBest، [pvalues_، scores_]
  • [x] التباين المنكمش [الانكماش]
  • [x] SkewedChi2Sampler، [random_offset_، random_weights_]
  • [x] الإسقاط العشوائي المتناثر ، [المكونات_ ، الكثافة_]
  • [x] إفراغ طيفي ، [n_ الجيران_]
  • [x] TfidfVectorizer، [stop_words_، vocabulary_]

يمكنني تناول التوثيق غير المتطابق لسمة الوحدة الفرعية tree ، والذي يتضمن:

  • DecisionTreeRegressor ، [فئات_ ، n_classes_]
  • ExtraTreeClassifier ، [class_، max_features_، n_classes_، n_features_، n_outputs_، tree_]
  • ExtraTreeRegressor ، [classes_، max_features_، n_classes_، n_features_، n_outputs_، tree_]

أنا أعمل على الانحدار الخطي ، [رتبة_ ، مفرد_].

أنا أعمل على LinearSVC و [n_iter_] و LinearSVR ، [n_iter_]

سآخذ Gradient boosting ie

  • GradientBoostingClassifier [base_estimator_، max_features_، n_classes_، n_features_]

    • GradientBoostingRegressor [base_estimator_، classes_، max_features_، n_estimators_، n_features_]

لا يهم ، أخطأ في القراءة حيث تكون السمات مفقودة وأينما لا

يبدو أن هناك أيضًا سمة classes_ غير موثقة للمصنفات للوحدة الفرعية naive_bayes . لقد بدأت في إصلاحه.

سأعمل على TfidfVectorizer، [fixed_vocabulary_]

سأعمل على:

  • RandomForestClassifier ، [base_estimator_]
  • RandomForestRegressor ، [base_estimator_ ، n_classes_]
  • ExtraTreesClassifier ، [base_estimator_]
  • ExtraTreesRegressor ، [base_estimator_، n_classes_]

أنا أعمل على:

  • SGDClassifier، [average_coef_، average_intercept_، standard_coef_، standard_intercept_]
  • SGDRegressor ، [standard_coef_، standard_intercept_]

تحرير: فتح قضية لتغيير هذه السمات من عام إلى خاص (المرجع: # ​​14364)

اعمل على ذلك:
KernelCenterer، [K_fit_all_، K_fit_rows_]
MinMaxScaler ، [n_samples_seen_]

سأعمل على:

  • عشوائية الأشجار

لقد اكتشفت أيضًا أن الوحدات KNeighborsClassifier و KNeighborsRegressor وربما فئات أخرى من الوحدة النمطية neighbors لا تحتوي على أي وثائق سمات على الإطلاق. أعمل حاليًا على KNeighborsRegressor الذي يحتوي على سمتين:

  • effective_metric_
  • effective_metric_params_

فئة KNeighborsClassifier لها أربع سمات:

  • classes_
  • effective_metric_
  • effective_metric_params_
  • outputs_2d_

تضمين التغريدة شكر!

العمل على QuadraticDiscriminantAnalysis، [classes_، covariance_]

العمل على KNeighboursClassifier ، [classes_، dynamic_metric_، Effective_metric_params_، outputs_2d_]
RadiusNeighboursClassifier ، [الفئات_ ، مقياس_فعالية_الفعالية ، مقياس_المعايير_الفعالة_ ، المخرجات_2 د_]

يعمل على:
LinearSVC ، [فئات_]
NuSVC، [class_weight_، classes_، fit_status_، probA_، probB_، shape_fit_]
SVC ، [class_weight_، classes_، shape_fit_]

يعمل على:

  • [] تصنيف التعبئة ، [n_features_، oob_decision_function_، oob_score_]
  • [] تسجيل التعبئة ، [base_estimator_ ، n_features_ ، oob_prediction_ ، oob_score_]
  • [] AdaBoostClassifier ، [base_estimator_]
  • [] AdaBoostRegressor ، [base_estimator_]

يعمل على:

CountVectorizer ، [stop_words_، vocabulary_]
DictVectorizer ، [feature_names_، vocabulary_]

مرحبا انا!! أود المساعدة في هذا .. هل يمكن لأي شخص أن يخبرني من أين أبدأ ؟؟

نحن نعمل على الوظائف في dict_learning.py spbail

العمل على LinearDiscriminantAnalysis مع @ olgadk7

العمل على عدم تطابق السمة في RidgeClassifierCV @ npatta01

العمل على DecisionTreeRegressor باستخدام @ ingrid88 + @ npatta01

العمل على LinearDiscriminantAnalysis مع @ olgadk7

خطأ موجب لنصوص السمة أعلاه. تم توثيق هذا.

العمل على AdditiveChi2Sampler مع @ olgadk7

العمل على LabelEncoder معeugeniaft

سيحاول العمل على تصنيف عشوائي!

يعمل على

بيرسبترون

تعمل في BernoulliRBM

العمل على ExtraTreeClassifer

العمل على LabelEncoder معeugeniaft

يبدو أن LabelEncoder لا يوجد به أي عدم تطابق ، فنحن نعمل على OneClassSVM

أعتقد أن رجالات الشجرة يجب أن تستبعد فئاتهم بدلاً من ذلك.

العمل على SVR

يعمل على:

  • OneVsOneClassifier ، [n_classes_]
  • OneVsRestClassifier ، [coef_، intercept_، n_classes_]

العمل على الانحدار الخطي ، [رتبة_ ، مفرد_]

العمل على LatentDirichletAllocation، [bound_، doc_topic_prior_، exp_dirichlet_component_، random_state_، topic_word_prior_]

يعمل على
تصنيف التعبئة ، [n_features_، oob_decision_function_، oob_score_]
سجل التعبئة ، [base_estimator_، n_features_، oob_prediction_، oob_score_]

تصنيف التعبئة ، [n_features_، oob_decision_function_، oob_score_]
سجل التعبئة ، [base_estimator_، n_features_، oob_prediction_، oob_score_]
سمات oob_ هي العنوان في PR # 14779 ، n_features_ & base_estimator_ هي إيجابيات خاطئة.

يعمل على
AdaBoostClassifier ، [base_estimator_]

التحديث: تم إصلاحه بالفعل في https://github.com/scikit-learn/scikit-learn/pull/14477

أعتقد أننا لا يجب أن نوصي بهذه المشكلة للسباقات التالية ، أو نستخدم إصدارًا أكثر تنسيقًا.

استنادًا إلى تجربتي في السباق السابق ، لا يزال هناك الكثير من الإيجابيات الخاطئة ، وينتهي بنا الأمر إلى مطالبة المساهمين بإهمال السمات العامة فعليًا لجعلها خاصة ، وهو أمر يمكن القول إنه أصعب بكثير (ويمكن أن يكون محبطًا لأن المساهمين يشعرون أنهم عملوا من أجلها لا شيئ).

بينغamuellerthomasjpfan WDYT؟

أعتقد أننا لا يجب أن نوصي بهذه المشكلة للسباقات التالية ، أو نستخدم إصدارًا أكثر تنسيقًا.

ربما إذا كان لدينا أداة عامة للتحقق من صحة docstring كما هو مقترح في https://github.com/numpy/numpydoc/issues/213 ، ستكون الأمور أسهل قليلاً للمساهمين. على الرغم من أنني أوافق على أنه لا يعالج بشكل كامل حقيقة أن بعض السمات تكون عامة بينما لا ينبغي أن تكون كذلك.

TfidfVectorizer, SpectralEmbedding, SparseRandomProjection .

كنت أتساءل عن أخذ هذه المشكلة كأول موضوع لي ، ولكن بعد الانتقاء العشوائي للوحدات الفرعية المدرجة حسب البرنامج النصي ، فإن الفئات الوحيدة التي وجدتها موثقة بشكل غير صحيح هي فئات PLS *. لكنهم يعيشون في ملف _pls_.py ، والذي يبدو أنه غير عام. هل يجب أن أعمل عليها أم أجد مشكلة أولى جيدة أخرى؟

طالما أن الفصول الفعلية عامة ، فهي مؤهلة. يتم سرد الفصول العامة في doc/modules/classes.rst . توجد فصول PLS * لذا لا تتردد في توثيقها

هل يعقل ترتيب جميع السمات أبجديًا أيضًا؟ أعتقد أنه سيوفر هيكلًا للقسم ويجعل قراءة القسم أسهل.

pwalchessen أوافق ، تبدو فكرة جيدة. كما ذكر شخصيًا ، أود أيضًا أن أضيف ذلك للاختبار.

يبدو أن هذه لا تزال مفتوحة وواضحة نوعًا ما:

Docstring Error: Attribute mismatch in RidgeCV
cv_values_
Docstring Error: Attribute mismatch in RidgeClassifier
classes_
Docstring Error: Attribute mismatch in RidgeClassifierCV
classes_
cv_values_
Docstring Error: Attribute mismatch in SkewedChi2Sampler
random_offset_
random_weights_
Docstring Error: Attribute mismatch in PLSCanonical
coef_
x_mean_
x_std_
y_mean_
y_std_
Docstring Error: Attribute mismatch in PLSRegression
x_mean_
x_std_
y_mean_
y_std_
Docstring Error: Attribute mismatch in PLSSVD
x_mean_
x_std_
y_mean_
y_std_
Docstring Error: Attribute mismatch in PassiveAggressiveClassifier
loss_function_
Docstring Error: Attribute mismatch in Perceptron
loss_function_
Docstring Error: Attribute mismatch in PolynomialFeatures
powers_
Docstring Error: Attribute mismatch in QuadraticDiscriminantAnalysis
covariance_
Docstring Error: Attribute mismatch in RBFSampler
random_offset_
random_weights_
Docstring Error: Attribute mismatch in RadiusNeighborsClassifier
n_samples_fit_
outlier_label_
Docstring Error: Attribute mismatch in RadiusNeighborsRegressor
n_samples_fit_
Docstring Error: Attribute mismatch in RadiusNeighborsTransformer
effective_metric_
effective_metric_params_
n_samples_fit_
Docstring Error: Attribute mismatch in ElasticNet
dual_gap_
sparse_coef_
Docstring Error: Attribute mismatch in ElasticNetCV
dual_gap_
Docstring Error: Attribute mismatch in EllipticEnvelope
dist_
raw_covariance_
raw_location_
raw_support_

ومجموعة أخرى ...

قائمة محدثة من السمات البارزة التي يجب إضافتها.

  • [] خليط بايزي غاوسي

    • [x] mean_precision_prior

    • [] متوسط ​​الدقة_الأولى

  • [] BayesianRidge

    • [] X_offset_

    • [] X_scale_

  • [] BernoulliNB

    • [] coef_ مجموعة

    • [ ] تقاطع_

  • [] بيرش

    • [ ] لائق بدنيا_

    • [] الملاءمة الجزئية

  • [] CCA

    • [] coef_ array، shape (1، n_features) أو (n_classes، n_features)؛ معامل السمات في وظيفة القرار.

    • [] x_mean_: المصفوفة والشكل (n_features،) يعني أكثر من الميزات.

    • [] x_std_

    • [] y_mean_

    • [] y_std_

  • [x] CategoricalNB

    • [x] class_ (classes_: array، shape (n_classes،)

      قائمة تسميات الفئات المعروفة للمصنف.

  • [] ComplementNB

    • [] coef_: صفيف ، شكل (1 ، n_features) أو (n_classes ، n_features) ؛ معامل السمات في وظيفة القرار.

    • [ ] تقاطع_

  • [x] CountVectorizer

    • [x] stop_words_

    • [x] مفردات_

  • [x] DecisionTreeClassifier

    • [x] ميزة_أهم_الميزات_

  • [] DecisionTreeRegressor

    • [] class_: الصفيف مثل ، الشكل (n_classes ،) ؛ تسميات الفصل الفريدة

    • [] n_classes_: int؛ عدد تسميات الفصل الفريدة

    • [x] ميزة_أهم_الميزات_

  • [] DictVectorizer

    • [] feature_names_

    • [ ] كلمات_

  • [] DummyClassifier

    • [] الإخراج_2d_

  • [] DummyRegressor

    • [] الإخراج_2d_

  • [] ElasticNet

    • [] فجوة_ مزدوجة

    • [] sparse_coef_

  • [] ElasticNetCV

    • [] فجوة_ مزدوجة

  • [] EllipticEnvelope

    • [] توزيع_

    • [] تغاير خام_

    • [] موقع_الخامة_

    • [] raw_support_

  • [] ExtraTreeClassifier

    • [] الميزات_الأهمية_

  • [] ExtraTreeRegressor

    • [] class_: الصفيف مثل ، الشكل (n_classes ،) ؛ تسميات الفصل الفريدة

    • [] الميزات_الأهمية_

    • [] n_classes_: int؛ عدد تسميات الفصل الفريدة

  • [] FeatureAgglomeration

    • [] n_components_

    • [x] مسافات_

  • [] GaussianProcessClassifier

    • [] base_estimator_

    • [x] kernel_

  • [x] GaussianRandomProject

    • [x] مكونات_

  • [] GradientBoostingClassifier

    • [] الحد الأقصى للميزات_

    • [] n_classes_: int؛ عدد الفصول الفريدة.

    • [] n_features_: int؛ عدد الميزات المستخدمة.

    • [x] oob_improvement_

    • [x] ميزة_أهم_الميزات_

  • [] GradientBoostingRegressor

    • [] الحد الأقصى للميزات_

    • [] n_classes_: int؛ عدد الفصول الفريدة.

    • [] n_estimators_

    • [] n_features_: int؛ عدد الميزات المستخدمة.

    • [x] oob_improvement_

    • [x] ميزة_أهم_الميزات_

  • [] HistGradientBoostingClassifier

    • [] bin_mapper_

    • [ ] الطبقات_

    • [] إيقاف_في وقت مبكر_

    • [ ] خسارة_

    • [] n_features_: int؛ عدد الميزات المختارة.

    • [x] n_iter_

    • [] المسجل_

  • [] HistGradientBoostingRegressor

    • [] bin_mapper_

    • [] إيقاف_في وقت مبكر_

    • [ ] خسارة_

    • [] n_features_: int؛ عدد الميزات المختارة.

    • []

    • [] المسجل_

  • [] IncrementalPCA

    • [ ] حجم الدفعة_

  • [] IsolationForest

    • [] base_estimator_

    • [] مقدرات_ميزات_

    • [x] مقدر_نماذج_

    • [] n_features_: int؛ عدد الميزات المختارة.

  • [] KernelCenterer

    • [] K_fit_all_

    • [] K_fit_rows_

  • [] كثافة النواة

    • [] شجرة_

  • [] LarsCV

    • [ ] نشيط_

  • [] لاسو

    • [] فجوة_ مزدوجة

    • [x] sparse_coef_

  • [] LassoLarsCV

    • [ ] نشيط_

  • [] LassoLarsIC

    • [] alphas_

  • [ ] تخصيص ديريتشليت الكامنة

    • [x] ملزم

    • [x] doc_topic_prior_

    • [] exp_dirichlet_component_

    • [] حالة_ عشوائية

  • [] LocalOutlierFactor

    • [] مقياس_ فعال_

    • [] معايير_مقاييس_ فعالة_

    • [] n_samples_fit_: int؛ عدد العينات في البيانات المجهزة.

  • [] MDS

    • [] متشابهة_ماتريكس_

    • [] n_iter_: int؛ عدد التكرارات.

  • [] MLPClassifier

    • [] أفضل_خسارة_

    • [] loss_curve_

    • [] ر

  • [] MLPRegressor

    • [] أفضل_خسارة_

    • [] loss_curve_

    • [] ر

  • [] MiniBatchKMeans

    • [ ] العد_

    • [] init_size_

    • [] n_iter_: int؛ عدد التكرارات.

  • [] MultiTaskElasticNet

    • [] فجوة_ مزدوجة

    • [] eps_

    • [] sparse_coef_

  • [] MultiTaskElasticNetCV

    • [] فجوة_ مزدوجة

  • [] MultiTaskLasso

    • [] فجوة_ مزدوجة

    • [] eps_

    • [] sparse_coef_

  • [] MultiTaskLassoCV

    • [] فجوة_ مزدوجة

  • [] OAS

    • [ ] موقعك_

  • [] OneVsRestClassifier

    • [] coef_: صفيف ، شكل (1 ، n_features) أو (n_classes ، n_features) ؛ معامل السمات في وظيفة القرار.

    • [ ] تقاطع_

    • [] n_classes_: int؛ عدد الفصول الفريدة.

  • [] OrthogonalMatchingPursuit

    • [] n_nonzero_coefs_

  • [] PLS قانوني

    • [] coef_: صفيف ، شكل (1 ، n_features) أو (n_classes ، n_features) ؛ معامل السمات في وظيفة القرار.

    • [] x_mean_: تعويم ؟؟؟؛ بمعنى

    • [] x_std_

    • [] y_mean_

    • [] y_std_

  • [] PLS الانحدار

    • [] x_mean_

    • [] x_std_

    • [] y_mean_

    • [] y_std_

  • [] PLSSVD

    • [] x_mean_

    • [] x_std_

    • [] y_mean_

    • [] y_std_

  • [] PassiveAggressiveClassifier

    • [ ] فقدان وظيفة_

  • [] RBFSampler

    • [] مجموعة_إزاحة عشوائية

    • [] أوزان_عشوائية_

  • [] التباين المنكمش

    • [] الانكماش

  • [] SkewedChi2Sampler

    • [] مجموعة_إزاحة عشوائية

    • [] أوزان_عشوائية_

  • [] _BaseRidgeCV

    • [] alpha_

    • [] coef_

    • [ ] تقاطع_

  • [] _المتوقع المستمر

    • [] ص

  • [] _RidgeGCV

    • [] alpha_

    • [] coef_

    • [] dual_coef_

    • [ ] تقاطع_

سأقوم بإضافة feature_importances_ إلى وثائق ExtraTreeRegressor

سأبدأ أنا ومجموعة من تخصصات علوم البيانات في العمل على BayesianRidge ، [X_offset_، X_scale_] وثائق السمات.

مرحبًا ، ستعمل مجموعتنا من المساهمين على:

  • PLSSVD
  • CCA
  • تزايدي PCA
  • MiniBatchKMeans
  • لاسو

الإصلاحات المحتملة في # 16826

تمت إضافة الاختبار في # 16286.
لا يزال هناك فصلان تم تخطيهما حاليًا:
https://github.com/scikit-learn/scikit-learn/blob/753da1de06a764f264c3f5f4817c9190dbe5e021/sklearn/tests/test_docstring_parameters.py#L180

بعض هؤلاء لديهم بالفعل علاقات عامة ، لذا تأكد من التحقق من ذلك قبل البدء في العمل عليه.

بعض هؤلاء لديهم بالفعل علاقات عامة ، لذا تأكد من التحقق من ذلك قبل البدء في العمل عليه.

قد يكون الخيار الجيد أيضًا هو محاولة إلقاء نظرة على العلاقات العامة المفتوحة التي لم يتم دمجها ومحاولة إنهاءها.

كقاعدة عامة ، إذا لم يكن للعلاقات العامة بعض النشاط لأكثر من 2-3 أسابيع ، فلا بأس من محاولة تولي الأمر ومحاولة إنهاءه.

إذا كنت مهتمًا بمثل هذا الحل ، فهناك طريقة لتنفيذ امتداد لأبو الهول يتحقق من أن جميع المعلمات موثقة أو غير مخطئة (يمكنك الاطلاع على مثال هنا: https://github.com/sdpython/pyquickhelper/blob /master/src/pyquickhelper/sphinxext/sphinx_docassert_extension.py). ربما يكون من المفيد إضافة واحدة مخصصة لتوثيق scikit-Learn.

sdpython ، سيكون ذلك رائعًا! إذا كنت لا تعمل على شيء آخر ، فربما يمكنك اقتراح مسودة علاقات عامة؟ شكر!

مثير للإعجاب!

IIRC لدينا اختبارات مشتركة تتحقق من توثيق جميع السمات. تمت إضافته في https://github.com/scikit-learn/scikit-learn/pull/16286. كما يبدو أنني أتذكر أن mne-python كان لديه شيء مشابه.

ليس لدي رأي مستنير حول النهج الأفضل ولكن أود أن أقول إن توثيق المعلمات المفقودة ربما يكون أولوية أعلى من تحديد الطريقة التي نريد إجراء الفحص بها.

المشكلة في القيام بذلك في Sphinx هي أنه في حالتنا يستغرق إنشاء التوثيق وقتًا طويلاً (بسبب إنشاء جميع الأمثلة) لذلك سيكون اختبار الوحدة أو الأداة المستقلة أسهل في الاستخدام. لاحظ أننا استخدمنا سابقًا التحقق من صحة numpydoc في https://github.com/scikit-learn/scikit-learn/issues/15440 ويمكن إجراء بعض التحقق من صحة سلسلة المستندات باستخدام التعليقات التوضيحية من النوع https://github.com/terrencepreilly / دارجلينت. لذلك ربما يجب أن نتجنب حالة استخدام 5 أدوات مختلفة للتحقق من صحة المستندات أيضًا :)

أحب القدرة على استخدام pytest للتحقق من النتائج ، على سبيل المثال:

pytest -v  --runxfail -k IsolationForest sklearn/tests/test_docstring_parameters.py

لذلك ربما ليس من الضروري تغيير بناء أبو الهول لهذا الغرض.

لقد تحققت من سلاسل مستندات السمة التي لا تزال مفقودة (القائمة أعلاه قديمة). هؤلاء هم الذين وجدتهم:

مزيج بايزيان غاوسي ، [mean_precision_prior]
بايزيان ريدج ، [X_offset_، X_scale_]
BernoulliNB، [coef_، intercept_]
بيرش [fit_، جزئي_fit_]
CCA ، [x_mean_ ، x_std_ ، y_mean_ ، y_std_]
DecisionTreeRegressor ، [فئات_ ، n_classes_]
DummyClassifier ، [output_2d_]
DummyRegressor ، [output_2d_]
ElasticNet ، [dual_gap_]
ElasticNetCV ، [dual_gap_]
ExtraTreeRegressor ، [فئات_ ، n_classes_]
تكتل الميزة ، [n_components_]
LarsCV ، [active_]
لاسو ، [dual_gap_]
LassoLarsCV ، [active_]
LassoLarsIC ، [alphas_]
MiniBatchKMeans، [counts_، init_size_، n_iter_]
MultiTaskElasticNet ، [dual_gap_ ، eps_ ، sparse_coef_]
MultiTaskElasticNetCV ، [dual_gap_]
MultiTaskLasso ، [dual_gap_ ، eps_ ، sparse_coef_]
MultiTaskLassoCV ، [dual_gap_]
NuSVR، [probA_، probB_]
OneClassSVM ، [probA_، probB_]
OneVsRestClassifier ، [coef_، intercept_]
OrthogonalMatchingPursuit ، [n_nonzero_coefs_]
PLSC متعارف عليه ، [x_mean_ ، x_std_ ، y_mean_ ، y_std_]
PLSSVD، [x_mean_، x_std_، y_mean_، y_std_]
SVR ، [probA_، probB_]

شكراmarenwestermann!

أنا أعمل على MiniBatchKMeans

أنا أعمل على اللاسو.

أعمل الآن على إضافة السمة sparse_coef_ إلى MultiTaskElasticNet و MultiTaskLasso.

أنا أعمل على LarsCV.

thomasjpfan يُقال في الفصول SVR و OneClassSVM :
"تم إهمال السمة probA_ في الإصدار 0.23 وستتم إزالتها في الإصدار 0.25." و
"تم إهمال السمة probB_ في الإصدار 0.23 وستتم إزالتها في الإصدار 0.25."

لذلك ، ربما لا تحتاج هذه السمات إلى التوثيق بعد الآن ، أليس كذلك؟
بالانتقال من هنا ، هل سيتم أيضًا إهمال هاتين السمتين في الفصل NuSVR ؟

السمتان classes_ و n_classes_ لـ ExtraTreeRegressor هي سمات إيجابية خاطئة.

لذلك ، ربما لا تحتاج هذه السمات إلى التوثيق بعد الآن ، أليس كذلك؟
بالانتقال من هنا ، هل سيتم أيضًا إهمال هاتين السمتين في فئة NuSVR؟

نظرًا لأننا نهملهم ، أود أن أقول إننا لن نحتاج إلى توثيقهم.

السمتان class_ و n_classes_ for ExtraTreeRegressor هي صفات إيجابية خاطئة.

نعم ، يجب إهمال هذه الأشياء ثم إزالتها إذا لم تكن كذلك بالفعل.

تقول فئة DecisionTreeRegressor :
"السمة n_classes_ سيتم إهمالها من الإصدار 0.22 وستتم إزالتها في 0.24."
"سيتم إهمال السمة class_uae من الإصدار 0.22 وستتم إزالتها في 0.24."

إذن هذه السمات أيضًا لا تحتاج إلى وثائق ، أليس كذلك؟

إذن هذه السمات أيضًا لا تحتاج إلى وثائق ، أليس كذلك؟

RightAbilityguy ، شكرًا على الإشارة إلى ذلك.

يمكنني رؤية عدم تطابق أدناه في _RidgeGCV:
خطأ في سلسلة Docstring: السمة غير متطابقة في _RidgeGCV
ألفا_
أفضل_درجة_
coef_
مزدوج
تقاطع_
n_features_in_

وفي _BaseRidgeCV:
خطأ في سلسلة المستندات: عدم تطابق السمة في _BaseRidgeCV
ألفا_
أفضل_درجة_
coef_
تقاطع_
n_features_in_

هل يمكنني تناولها؟ أنا أول جهاز توقيت وأريد المساهمة.

marenwestermann في فئة FeatureAgglomeration ، يُقال أنه في الإصدار 0.21 ، تمت إضافة n_connected_components_ لاستبدال n_components_ ، ثم n_components_ سيكون خطأ إيجابيًا صحيحًا ..؟

@ srivathsa729 من فهمي نعم. ومع ذلك ، سيكون من الجيد أن يتحقق أحد المطورين الأساسيين مرة أخرى.

سوف أتناول ElasticNet

تمت إضافة توثيق السمتين X_offset_ و X_scale_ for BayesianRidge مع # 18607.

تم إهمال إخراج السمة_2d_ في DummyClassifier و DummyRegressor (انظر # 14933).

قمت بتشغيل البرنامج النصي المقدم من amueller في الجزء العلوي من هذا PR (يحتاج الرمز إلى تعديل طفيف لأن الأشياء انتقلت) لم أتمكن من العثور على أي سمات أخرى تحتاج إلى توثيقها باستثناء n_features_in_ التي أرى أنها مقدمة في # 16112. أعتقد أن هذه السمة غير موثقة في جميع الفئات التي تم تقديمها إليها. هل يجب توثيقها؟
تضمين التغريدة

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات