وثائق Countvectorizer و TfidfVectorizer ليست واضحة بشأن التفاعل بين token_pattern
وتمرير tokenizer
مخصص. حاليا، عندما tokenizer
يتم تمريرها، و token_pattern
يتم تجاهل. لكن إدخال docstring لمعلمة tokenizer يذكر فقط Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
. بالنسبة لي ، لم يكن واضحًا على الفور أن هذا يعني أنه لم يتم استخدام token_pattern
على الإطلاق.
هنا 'المستخدم الذي تم طرحه بواسطة هذا: Stackoverflow
بعض الأشياء التي يمكنني التفكير فيها:
يجب أن تكون التحذيرات موجودة في 0.23rc3. جربه لنا؟
بالتأكيد. يظهر التحذير ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
) بالفعل ، سيئتي لعدم التحقق منه أولاً. إذا كنت تريد ، يمكنني إنشاء علاقات عامة مع بعض تعديلات المستندات التي توضح ما يجري ، ولكن ربما يكون التحذير كافيًا.
التحذير جديد. دعونا نرى كيف ستسير الامور
التعليق الأكثر فائدة
التحذير جديد. دعونا نرى كيف ستسير الامور