Scikit-learn: لا تذكر مستندات CountVectorizer و TfidfVectorizer أنه يتم تجاهل token_pattern عند تمرير رمز مميز مخصص

تم إنشاؤها على ٢٩ نوفمبر ٢٠١٩ · 3تعليقات · مصدر: scikit-learn/scikit-learn

وصف

وثائق Countvectorizer و TfidfVectorizer ليست واضحة بشأن التفاعل بين token_pattern وتمرير tokenizer مخصص. حاليا، عندما tokenizer يتم تمريرها، و token_pattern يتم تجاهل. لكن إدخال docstring لمعلمة tokenizer يذكر فقط Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . بالنسبة لي ، لم يكن واضحًا على الفور أن هذا يعني أنه لم يتم استخدام token_pattern على الإطلاق.

هنا 'المستخدم الذي تم طرحه بواسطة هذا: Stackoverflow

بعض الأشياء التي يمكنني التفكير فيها:

رفع تحذير إذا قام المستخدم بتمرير نمط رمزي (غير قياسي) ورمز مميز مخصص
تحديث docstring ليكون صريحًا بشأن التفاعل

مصدر

stephantul

التعليق الأكثر فائدة

التحذير جديد. دعونا نرى كيف ستسير الامور

jnothman في ١ ديسمبر ٢٠١٩

👍3

ال 3 كومينتر

يجب أن تكون التحذيرات موجودة في 0.23rc3. جربه لنا؟

jnothman في ٣٠ نوفمبر ٢٠١٩

بالتأكيد. يظهر التحذير ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) بالفعل ، سيئتي لعدم التحقق منه أولاً. إذا كنت تريد ، يمكنني إنشاء علاقات عامة مع بعض تعديلات المستندات التي توضح ما يجري ، ولكن ربما يكون التحذير كافيًا.

stephantul في ٣٠ نوفمبر ٢٠١٩

التحذير جديد. دعونا نرى كيف ستسير الامور

jnothman في ١ ديسمبر ٢٠١٩

👍3

هل كانت هذه الصفحة مفيدة؟

0 / 5 - 0 التقييمات