Scikit-learn: لا تذكر مستندات CountVectorizer و TfidfVectorizer أنه يتم تجاهل token_pattern عند تمرير رمز مميز مخصص

تم إنشاؤها على ٢٩ نوفمبر ٢٠١٩  ·  3تعليقات  ·  مصدر: scikit-learn/scikit-learn

وصف

وثائق Countvectorizer و TfidfVectorizer ليست واضحة بشأن التفاعل بين token_pattern وتمرير tokenizer مخصص. حاليا، عندما tokenizer يتم تمريرها، و token_pattern يتم تجاهل. لكن إدخال docstring لمعلمة tokenizer يذكر فقط Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . بالنسبة لي ، لم يكن واضحًا على الفور أن هذا يعني أنه لم يتم استخدام token_pattern على الإطلاق.

هنا 'المستخدم الذي تم طرحه بواسطة هذا: Stackoverflow

بعض الأشياء التي يمكنني التفكير فيها:

  • رفع تحذير إذا قام المستخدم بتمرير نمط رمزي (غير قياسي) ورمز مميز مخصص
  • تحديث docstring ليكون صريحًا بشأن التفاعل

التعليق الأكثر فائدة

التحذير جديد. دعونا نرى كيف ستسير الامور

ال 3 كومينتر

يجب أن تكون التحذيرات موجودة في 0.23rc3. جربه لنا؟

بالتأكيد. يظهر التحذير ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) بالفعل ، سيئتي لعدم التحقق منه أولاً. إذا كنت تريد ، يمكنني إنشاء علاقات عامة مع بعض تعديلات المستندات التي توضح ما يجري ، ولكن ربما يكون التحذير كافيًا.

التحذير جديد. دعونا نرى كيف ستسير الامور

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات