Nltk: Aktualisieren Sie verschiedene Regex-Escape-Sequenzen

Erstellt am 28. Aug. 2019  ·  14Kommentare  ·  Quelle: nltk/nltk

Die neuesten Versionen von Python sind strenger. Flucht in Regex.
Zum Beispiel gibt es mit 3.6.8 mehr als 10 Warnungen wie diese:

lib/python3.6/site-packages/nltk/ DeprecationWarning: invalid escape sequence \d
    RANGE_RE = re.compile('(-?\d+):(-?\d+)')

Die regulären Ausdrücke sollten aktualisiert werden, um diese Warnungen auszuschalten.

goodfirstbug pythonic

Hilfreichster Kommentar

Wenn niemand daran arbeitet, würde ich gerne. Können Sie bitte Schritte zum Duplizieren des Problems angeben?

Alle 14 Kommentare

Wenn niemand daran arbeitet, würde ich gerne. Können Sie bitte Schritte zum Duplizieren des Problems angeben?

@PabloDino Installieren Sie Python 3.6.8 oder höher und versuchen Sie, jedes Modul zu importieren. Korrigieren Sie den regulären Ausdruck entweder mithilfe von rohen Zeichenfolgen oder mithilfe eines geeigneten Escape-Codes, sodass dies sowohl unter Python 2 als auch unter Python 3 funktioniert

Ich habe einige Übungen durchgearbeitet, aber keine Warnungen gesehen. Können Sie ein Code-Snippet posten, in dem sich die Warnungen manifestieren? Pl

@PabloDino :

$ python --version
Python 3.6.8
$ git clone git://
$ pip install pytest
$ pytest -vvs nltk/ --collect-only
========================================= warnings summary =========================================
  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \d
    name, n = re.sub("\d+$", "",, 2

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \d
    RANGE_RE = re.compile("(-?\d+):(-?\d+)")

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \w
    ENT = re.compile("&(\w+?);")

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \s

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \d
    assert re.match("^[exps]\d+$", var), var

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \ 
    + [" \  " + blank + line for line in term_lines[1:2]]

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \ 
    + [" /\ " + var_string + line for line in term_lines[2:3]]

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \w
    _STANDARD_NONTERM_RE = re.compile("( [\w/][\w/^<>-]* ) \s*", re.VERBOSE)

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \w
    _CONTEXT_RE = re.compile("\w+|[\.\!\?]")

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
    pat = "\s*".join(re.escape(c) for c in tok)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \(
    line_regex = re.compile("^\((\d+), (\d+), (.+)\)$", re.MULTILINE)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \-
    c for c in lowercase_text if re.match("[a-z\-' \n\t]", c)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
    matches = re.finditer("\w+", text)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
    FUNKY_PUNCT_1 = re.compile(u'([،;؛¿!"\])}»›”؟¡%٪°±©®।॥…])'), r" \1 "

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \[
    FUNKY_PUNCT_2 = re.compile(u"([({\[“‘„‚«‹「『])"), r" \1 "

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \|
    PIPE = re.compile("\|"), " &#124; "

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \]

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
    re.compile(pattern.replace("(?#X)", "\s"))

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
    re.compile(pattern.replace("(?#X)", "\s"))

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s
    if"\s", brackets):

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s
    node_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s
    leaf_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \$
    reserved_chars = re.compile("([#\$%&~_\{\}])")

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/tag/ DeprecationWarning: invalid escape sequence \w
    elif re.match("\w+$", word):

  /home/pombreda/tmp/nl/nltk/nltk/tag/ DeprecationWarning: invalid escape sequence \W
    elif re.match("\W+$", word):

  /home/pombreda/tmp/nl/nltk/nltk/tag/ DeprecationWarning: invalid escape sequence \.
    if re.match("[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$", word):

  /home/pombreda/tmp/nl/nltk/nltk/classify/ DeprecationWarning: invalid escape sequence \w
    tokenizer = RegexpTokenizer("[\w.@:/]+|\w+|\$[\d.]+")

  /home/pombreda/tmp/nl/nltk/nltk/classify/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \S
    _LINE_RE = re.compile("(\S+)\s+(\S+)\s+([IOB])-?(\S+)?")

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \w
    _IEER_TYPE_RE = re.compile('<b_\w+\s+[^>]*?type="(?P<type>\w+)"')

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \s
    for piece_m in re.finditer("<[^>]+>|[^\s<]+", s):

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    _BRACKETS = re.compile("[^\{\}]+")

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    s = re.sub("\{\}", "", s)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "{\g<chunk>}", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "}\g<chink>{", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    regexp = re.compile("\{(?P<chunk>%s)\}" % tag_pattern2re_pattern(tag_pattern))

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "\g<chunk>", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "\g<left>", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "{\g<left>\g<right>", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \}

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "\g<left>\g<right>}", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    r"^((%s|<%s>)*)$" % ("([^\{\}<>]|\{\d+,?\}|\{\d*,\d+\})+", "[^\{\}<>]+")

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/inference/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/stem/ DeprecationWarning: invalid escape sequence \*
    valid_rule = re.compile("^[a-z]+\*?\d[a-z]*[>\.]?$")

  /home/pombreda/tmp/nl/nltk/nltk/stem/ DeprecationWarning: invalid escape sequence \*
    valid_rule = re.compile("^([a-z]+)(\*?)(\d)([a-z]*)([>\.]?)$")

  /home/pombreda/tmp/nl/nltk/nltk/stem/ DeprecationWarning: invalid escape sequence \m

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    crubadan = LazyCorpusLoader("crubadan", CrubadanCorpusReader, ".*\.txt")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    "dependency_treebank", DependencyCorpusReader, ".*\.dp", encoding="ascii"

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    "timit", TimitTaggedCorpusReader, ".+\.tags", tagset="wsj", encoding="ascii"

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    twitter_samples = LazyCorpusLoader("twitter_samples", TwitterCorpusReader, ".*\.json")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    wordnet_ic = LazyCorpusLoader("wordnet_ic", WordNetICCorpusReader, ".*\.dat")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
    if re.match("^\d+-\d+", line) is not None:

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
    if re.match("======+\s*$", line):

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
    m = re.match("(.*\.zip)/?(.*)$|", root)

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
    encoding = [(".*\.wav", None), (".*", encoding)]

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
    _XML_TAG_NAME = re.compile("<\s*/?\s*([^\s>]+)")

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \_

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
    _UTTERANCE_RE = re.compile("(\w+)\.(\d+)\:\s*(.*)")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
    m = re.match("P(\d+)Y(\d+)M?(\d?\d?)D?", age_year)

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \-
    ("Abkhaz\-Cyrillic\+Abkh", "cp1251"),

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/ccg/ DeprecationWarning: invalid escape sequence \Y

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \ 

Und FWIW: -and-bytes-literals

Im Gegensatz zu Standard C bleiben alle nicht erkannten Escape-Sequenzen in der Zeichenfolge unverändert, dh der Backslash bleibt im Ergebnis. (Dieses Verhalten ist beim Debuggen hilfreich: Wenn eine Escape-Sequenz falsch eingegeben wird, wird die resultierende Ausgabe leichter als fehlerhaft erkannt.) Es ist auch wichtig zu beachten, dass die Escape-Sequenzen, die nur in Zeichenfolgenliteralen erkannt werden, in die Kategorie der nicht erkannten Escape-Zeichen für Bytes fallen Literale.

In Version 3.6 geändert: Nicht erkannte Escape-Sequenzen erzeugen eine DeprecationWarning. In einigen zukünftigen Versionen von Python werden sie ein SyntaxError sein.

$ python --version
Python 3.6.7
$ pytest --version
Dies ist die aus / importierte Pytest-Version

cachedir: .pytest_cache
rootdir: ** / nltk
381 Artikel gesammelt

Unit-Tests für nltk.compat.
Siehe auch nltk / test / compatible.doctest.

Unit-Tests für nltk.metrics.aline

Testen Sie den Aline-Algorithmus zum Ausrichten phonetischer Sequenzen

Testen Sie aline, um die Differenz zwischen zwei Segmenten zu berechnen

Tests für Brill Tagger.

Test auf Fehler

    Ensures that curly bracket quantifiers can be used inside a chunk rule.
    This type of quantifier has been used for the supplementary example

Unit-Tests für nltk.classify. Siehe auch: nltk / test / classify.doctest

Text erstellt mit:

Mock-Test für Stanford CoreNLP-Wrapper.

Corpus View Regressionstests

Klasse mit Unit-Tests für nltk.metrics.agreement.Disagreement.

Weiterentwickelter Test, basierend auf

Gleiches fortgeschritteneres Beispiel, jedoch mit 1 entfernter Bewertung.
Auch hier sollte die Entfernung dieser 1 Bewertung keine Rolle spielen.

Einfacher Test, basierend auf

Gleicher einfacher Test mit 1 entfernter Bewertung.
Das Entfernen dieser Bewertung sollte keine Rolle spielen: K-Apha ignoriert Elemente mit
nur 1 Bewertung.

Regressionstests für json2csv() und json2csv_entities() in Twitter

Überprüfen Sie, ob der Dateivergleich keine falsch positiven Ergebnisse liefert.

Unit-Tests für nltk.corpus.nombank

Tests für nltk.pos_tag

Der folgende Test führt eine zufällige Reihe von Lese-, Such- und Suchvorgängen durch
sagt und prüft, ob die Ergebnisse konsistent sind.

Unit-Tests für Senna

Unittest für nltk.classify.senna


Unittest für nltk.tag.senna

Dieses Gerät testet zum Test den Schneeball Arabic Light Stemmer
Dieser Stemmer befasst sich mit Präfixen und Suffixen

Test auf Fehler

    Ensures that 'oed' can be stemmed without throwing an error.
  <TestCaseFunction test_vocabulary_martin_mode>
    Tests all words from the test vocabulary provided by M Porter

    The sample vocabulary and output were sourced from:
    and are linked to from the Porter Stemmer algorithm's homepage
  <TestCaseFunction test_vocabulary_nltk_mode>
  <TestCaseFunction test_vocabulary_original_mode>

Unit-Tests für nltk.tgrep.

Klasse mit Unit-Tests für nltk.tgrep.

Testen Sie die Fehlerbehandlung von undefinierten tgrep-Operatoren.

Testen Sie, ob Kommentare aus der tgrep-Suche korrekt herausgefiltert wurden

Testen Sie die grundlegenden Beispiele aus dem TGrep2-Handbuch.

Testen Sie beschriftete Knoten.

    Test case from Emily M. Bender.
  <TestCaseFunction test_multiple_conjs>
    Test that multiple (3 or more) conjunctions of node relations are
    handled properly.
  <TestCaseFunction test_node_encoding>
    Test that tgrep search strings handles bytes and strs the same
  <TestCaseFunction test_node_nocase>
    Test selecting nodes using case insensitive node names.
  <TestCaseFunction test_node_noleaves>
    Test node name matching with the search_leaves flag set to False.
  <TestCaseFunction test_node_printing>
    Test that the tgrep print operator ' is properly ignored.
  <TestCaseFunction test_node_quoted>
    Test selecting nodes using quoted node names.
  <TestCaseFunction test_node_regex>
    Test regex matching on nodes.
  <TestCaseFunction test_node_regex_2>
    Test regex matching on nodes.
  <TestCaseFunction test_node_simple>
    Test a simple use of tgrep for finding nodes matching a given
  <TestCaseFunction test_node_tree_position>
    Test matching on nodes based on NLTK tree position.
  <TestCaseFunction test_rel_precedence>
    Test matching nodes based on precedence relations.
  <TestCaseFunction test_rel_sister_nodes>
    Test matching sister nodes in a tree.
  <TestCaseFunction test_tokenize_encoding>
    Test that tokenization handles bytes and strs the same way.
  <TestCaseFunction test_tokenize_examples>
    Test tokenization of the TGrep2 manual example patterns.
  <TestCaseFunction test_tokenize_link_types>
    Test tokenization of basic link types.
  <TestCaseFunction test_tokenize_macros>
    Test tokenization of macro definitions.
  <TestCaseFunction test_tokenize_node_labels>
    Test tokenization of labeled nodes.
  <TestCaseFunction test_tokenize_nodenames>
    Test tokenization of node names.
  <TestCaseFunction test_tokenize_quoting>
    Test tokenization of quoting.
  <TestCaseFunction test_tokenize_segmented_patterns>
    Test tokenization of segmented patterns.
  <TestCaseFunction test_tokenize_simple>
    Simple test of tokenization.
  <TestCaseFunction test_trailing_semicolon>
    Test that semicolons at the end of a tgrep2 search string won't
    cause a parse failure.
  <TestCaseFunction test_use_macros>
    Test defining and using tgrep2 macros.
  <TestCaseFunction tests_rel_dominance>
    Test matching nodes based on dominance relations.
  <TestCaseFunction tests_rel_indexed_children>
    Test matching nodes based on their index in their parent node.

Unit-Tests für nltk.tokenize.
Siehe auch nltk / test / tokenize.doctest

Testen Sie das Auffüllen des Sterns auf Wort-Tokenisierung.

Testen Sie das Auffüllen von dotdot * auf Wort-Tokenisierung.

Testen Sie eine Zeichenfolge, die einer Telefonnummer ähnelt, aber eine neue Zeile enthält

Testen Sie remove_handle () aus mit speziell gestalteten Edge-Cases

Testen Sie den SyllableTokenizer-Tokenizer.

Testen Sie den Stanford Word Segmenter auf Arabisch (Standardkonfiguration)

Testen Sie den Stanford Word Segmenter für Chinesisch (Standardkonfiguration)

Testen Sie die Funktion TreebankWordTokenizer.span_tokenize

Testen Sie TweetTokenizer mit Wörtern mit Sonderzeichen und Akzentzeichen.

Testen Sie die Funktion word_tokenize

Tests für statische Teile des Twitter-Pakets

Testet, ob die Informationen zu Twitter-Anmeldeinformationen aus der Datei korrekt verarbeitet werden.

Die Standarddatei für Anmeldeinformationen wird identifiziert

Die Standarddatei für Anmeldeinformationen wurde korrekt gelesen

Der Pfad zur Standarddatei für Anmeldeinformationen ist unter Angabe der angegebenen Form wohlgeformt

Das Setzen des Unterverzeichnisses auf einen leeren Pfad sollte einen Fehler auslösen.

Das Setzen von Unterverzeichnis auf None sollte einen Fehler auslösen.

Testen Sie, ob die Umgebungsvariable korrekt gelesen wurde.

Die Anmeldeinformationsdatei 'bad_oauth1-1.txt' ist unvollständig

Der erste Schlüssel in der Anmeldeinformationsdatei 'bad_oauth1-2.txt' ist fehlerhaft

Der erste Schlüssel in der Anmeldeinformationsdatei 'bad_oauth1-2.txt' ist fehlerhaft

Das Setzen des Unterverzeichnisses auf ein nicht vorhandenes Verzeichnis sollte einen Fehler auslösen.

Die Standardeinstellungen für die Authentifizierung schlagen fehl, da 'credentials.txt' dies nicht tut
im Standard-Unterverzeichnis vorhanden, wie aus os.environ['TWITTER'] gelesen.

Die Anmeldeinformationsdatei 'foobar' kann nicht im Standard-Unterverzeichnis gefunden werden.

Unit-Tests für nltk.corpus.wordnet
Siehe auch nltk / test / wordnet.doctest

Tests für NgramCounter, die nur Nachschlagen, keine Änderung beinhalten.

Unit-Tests für das MLE-Gramm-Modell.


Unit-Tests für die Lidstone-Klasse

Unit-Tests für die Laplace-Klasse

Generieren Sie mit dem MLE-Modell Text.

testet Vokabeltrainer

Tests für die BLEU-Übersetzungsbewertungsmetrik

Beispiele aus dem Original-BLEU-Papier

Testet GDFA-Alignments

Testen von GDFA mit den ersten 10 eflomalen Ausgaben aus Ausgabe Nr. 1829

Tests für IBM Model 1-Trainingsmethoden

Tests für IBM Model 2-Trainingsmethoden

Tests für IBM Model 3-Trainingsmethoden

Tests für IBM Model 4-Trainingsmethoden

Tests für IBM Model 5-Trainingsmethoden

=========================== In 2.13s wurden keine Tests ausgeführt ================ =============

Ich sehe die gleiche Ausgabe wie @pombredanne.

Hallo, plant @PabloDino noch, an dem Problem zu arbeiten?

Ich konnte die Ausgabe von @pombredanne replizieren und möchte an der Behebung dieses Problems arbeiten.

Ich habe noch nicht repliziert

Am Montag, 30. September 2019 um 11:40 Uhr Armin Stepanjan [email protected]

Hallo, plant @PabloDino noch zu arbeiten ?
zu dem Thema?

Ich konnte @pombredanne replizieren 's Ausgabe und möchte daran arbeiten
Behebung dieses Problems.

- -
Sie erhalten dies, weil Sie erwähnt wurden.
Antworte direkt auf diese E-Mail und sieh sie dir auf GitHub an
oder schalten Sie den Thread stumm

@ ab-10 Konnten Sie diese Dep-Warnungen beheben?

Eine aktualisierte Liste mit Python 3.8 mit dem folgenden Befehl:

find . -iname '*.py' | xargs -P 4 -I{} python3.8 -Wall -m py_compile {}
./nltk/chat/ DeprecationWarning: invalid escape sequence \<
  "u think I can%2??! really?? kekeke \<_\<",
./nltk/tag/ DeprecationWarning: invalid escape sequence \w
  elif re.match("\w+$", word):
./nltk/tag/ DeprecationWarning: invalid escape sequence \W
  elif re.match("\W+$", word):
./nltk/tag/ DeprecationWarning: invalid escape sequence \.
  if re.match("[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$", word):
./nltk/app/ DeprecationWarning: invalid escape sequence \#
  "\t<regexp><\#><CD> # This is a comment...</regexp>\n"
./nltk/app/ DeprecationWarning: invalid escape sequence \s
  grammar = re.sub("\n\s+", "\n", grammar)
./nltk/app/ DeprecationWarning: invalid escape sequence \w
  key=lambda t_w: re.match("\w+", t_w[0])
./nltk/app/ DeprecationWarning: invalid escape sequence \#
  "^\# Regexp Chunk Parsing Grammar[\s\S]*" "F-score:.*\n", "", grammar
./nltk/sem/ DeprecationWarning: invalid escape sequence \P
./nltk/sem/ DeprecationWarning: invalid escape sequence \w
  ENT = re.compile("&(\w+?);")
./nltk/sem/ DeprecationWarning: invalid escape sequence \s
  roles = """
./nltk/sem/ DeprecationWarning: invalid escape sequence \d
  assert re.match("^[exps]\d+$", var), var
./nltk/sem/ DeprecationWarning: invalid escape sequence \ 
  + [" \  " + blank + line for line in term_lines[1:2]]
./nltk/sem/ DeprecationWarning: invalid escape sequence \ 
  + [" /\ " + var_string + line for line in term_lines[2:3]]
./nltk/sem/ DeprecationWarning: invalid escape sequence \P
./nltk/sem/ DeprecationWarning: invalid escape sequence \P
  template = "PropN[num=sg, sem=<\P.(P %s)>] -> '%s'\n"
./nltk/sem/ DeprecationWarning: invalid escape sequence \ 
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
  if re.match("^\d+-\d+", line) is not None:
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
  if re.match("======+\s*$", line):
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
  _XML_TAG_NAME = re.compile("<\s*/?\s*([^\s>]+)")
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
  """Corpus reader for the XML version of the British National Corpus.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \-
  ("Abkhaz\-Cyrillic\+Abkh", "cp1251"),
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
  encoding = [(".*\.wav", None), (".*", encoding)]
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
  m = re.match("P(\d+)Y(\d+)M?(\d?\d?)D?", age_year)
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
  _UTTERANCE_RE = re.compile("(\w+)\.(\d+)\:\s*(.*)")
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
  m = re.match("(.*\.zip)/?(.*)$|", root)
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  crubadan = LazyCorpusLoader("crubadan", CrubadanCorpusReader, ".*\.txt")
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  "dependency_treebank", DependencyCorpusReader, ".*\.dp", encoding="ascii"
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  "timit", TimitTaggedCorpusReader, ".+\.tags", tagset="wsj", encoding="ascii"
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  twitter_samples = LazyCorpusLoader("twitter_samples", TwitterCorpusReader, ".*\.json")
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  wordnet_ic = LazyCorpusLoader("wordnet_ic", WordNetICCorpusReader, ".*\.dat")
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/ DeprecationWarning: invalid escape sequence \w
  _CONTEXT_RE = re.compile("\w+|[\.\!\?]")
./nltk/inference/ DeprecationWarning: invalid escape sequence \ 
./nltk/ DeprecationWarning: invalid escape sequence \ 
./nltk/ DeprecationWarning: invalid escape sequence \s
  if"\s", brackets):
./nltk/ DeprecationWarning: invalid escape sequence \s
  node_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)
./nltk/ DeprecationWarning: invalid escape sequence \s
  leaf_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)
./nltk/ DeprecationWarning: invalid escape sequence \s
./nltk/ DeprecationWarning: invalid escape sequence \$
  reserved_chars = re.compile("([#\$%&~_\{\}])")
./nltk/ccg/ DeprecationWarning: invalid escape sequence \Y
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
  FUNKY_PUNCT_1 = re.compile(u'([،;؛¿!"\])}»›”؟¡%٪°±©®।॥…])'), r" \1 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \[
  FUNKY_PUNCT_2 = re.compile(u"([({\[“‘„‚«‹「『])"), r" \1 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \|
  PIPE = re.compile("\|"), " &#124; "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
  pat = "\s*".join(re.escape(c) for c in tok)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \(
  line_regex = re.compile("^\((\d+), (\d+), (.+)\)$", re.MULTILINE)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \{
  PUNCT = re.compile("([\{-\~\[-\` -\&\(-\+\:-\@\/])"), " \\1 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \.
  PERIOD_COMMA_PRECEED = re.compile("([^0-9])([\.,])"), "\\1 \\2 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \.
  PERIOD_COMMA_FOLLOW = re.compile("([\.,])([^0-9])"), " \\1 \\2"
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
  re.compile(pattern.replace("(?#X)", "\s"))
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
  re.compile(pattern.replace("(?#X)", "\s"))
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \-
  c for c in lowercase_text if re.match("[a-z\-' \n\t]", c)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
  matches = re.finditer("\w+", text)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
./nltk/classify/ DeprecationWarning: invalid escape sequence \ 
./nltk/classify/ DeprecationWarning: invalid escape sequence \w
  tokenizer = RegexpTokenizer("[\w.@:/]+|\w+|\$[\d.]+")
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/chunk/ DeprecationWarning: invalid escape sequence \S
  _LINE_RE = re.compile("(\S+)\s+(\S+)\s+([IOB])-?(\S+)?")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \w
  _IEER_TYPE_RE = re.compile('<b_\w+\s+[^>]*?type="(?P<type>\w+)"')
./nltk/chunk/ DeprecationWarning: invalid escape sequence \s
  for piece_m in re.finditer("<[^>]+>|[^\s<]+", s):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \w
  elif re.match("\w+$", word, re.UNICODE):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \W
  elif re.match("\W+$", word, re.UNICODE):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \.
  if re.match("[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$", word, re.UNICODE):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \s
  text = re.sub("[\s\S]*<TEXT>", subfunc, text)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \s
  text = re.sub("</TEXT>[\s\S]*", "", text)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  _BRACKETS = re.compile("[^\{\}]+")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  s = re.sub("\{\}", "", s)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "{\g<chunk>}", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "}\g<chink>{", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  regexp = re.compile("\{(?P<chunk>%s)\}" % tag_pattern2re_pattern(tag_pattern))
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "\g<chunk>", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "\g<left>", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "{\g<left>\g<right>", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \}
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "\g<left>\g<right>}", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  r"^((%s|<%s>)*)$" % ("([^\{\}<>]|\{\d+,?\}|\{\d*,\d+\})+", "[^\{\}<>]+")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  r"^((%s|<%s>)*)$" % ("([^\{\}<>]|\{\d+,?\}|\{\d*,\d+\})+", "[^\{\}<>]+")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \.
./nltk/ DeprecationWarning: invalid escape sequence \d
  name, n = re.sub("\d+$", "",, 2
./nltk/ DeprecationWarning: invalid escape sequence \d
  RANGE_RE = re.compile("(-?\d+):(-?\d+)")
./nltk/draw/ DeprecationWarning: invalid escape sequence \s
  _ARROW_RE = re.compile("\s*(->|(" + ARROW + "))\s*")
./nltk/draw/ DeprecationWarning: invalid escape sequence \s
  _ARROW_RE = re.compile("\s*(->|(" + ARROW + "))\s*")
./nltk/draw/ DeprecationWarning: invalid escape sequence \s
  + "))\s*"
./nltk/ DeprecationWarning: invalid escape sequence \_
./nltk/ DeprecationWarning: invalid escape sequence \*
./nltk/ DeprecationWarning: invalid escape sequence \w
  _STANDARD_NONTERM_RE = re.compile("( [\w/][\w/^<>-]* ) \s*", re.VERBOSE)
./nltk/stem/ DeprecationWarning: invalid escape sequence \m
  """Returns the 'measure' of stem, per definition in the paper
./nltk/stem/ DeprecationWarning: invalid escape sequence \*
  valid_rule = re.compile("^[a-z]+\*?\d[a-z]*[>\.]?$")
./nltk/stem/ DeprecationWarning: invalid escape sequence \*
  valid_rule = re.compile("^([a-z]+)(\*?)(\d)([a-z]*)([>\.]?)$")
./nltk/ DeprecationWarning: invalid escape sequence \ 
./tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE1 = "<programlisting>[\s\S]*?</programlisting>"
./tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE2 = "<literal>[\s\S]*?</literal>"
./tools/ DeprecationWarning: invalid escape sequence \w
  TOKEN_RE = re.compile('[\w\.]+')
./tools/ DeprecationWarning: invalid escape sequence \s
./tools/ DeprecationWarning: invalid escape sequence \s
./tools/ DeprecationWarning: invalid escape sequence \s
./tools/ DeprecationWarning: invalid escape sequence \.
  '({})\.read\('.format('|'.join(re.escape(n) for n in dir(nltk.corpus)))
./tools/ DeprecationWarning: invalid escape sequence \s
  CLASS_DEF_RE = re.compile('^\s*class\s+(\w+)\s*[:\(]')

@gertjanwytynck Ich repariere sie derzeit

Wurde dies abgeschlossen?

Es sieht so aus, als wären noch ein paar übrig. Ich frage mich, ob das Hinzufügen eines Komponententests helfen könnte.

  • ./nltk/tools/
  • ./nltk/tools/
  • ./nltk/nltk/tokenize/

... und obwohl die Auswirkungen der Abwertung von Tools nicht sehr groß sind, gibt es ein bisschen Ironie, dass die -Skripte eine veraltete Syntax verwenden :)

$ git clone
$ find . -iname '*.py' | xargs -P 4 -I{} python3.8 -Wall -m py_compile {}
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE1 = "<programlisting>[\s\S]*?</programlisting>"
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE2 = "<literal>[\s\S]*?</literal>"
./nltk/tools/ DeprecationWarning: invalid escape sequence \w
  TOKEN_RE = re.compile('[\w\.]+')
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
./nltk/tools/ DeprecationWarning: invalid escape sequence \.
  '({})\.read\('.format('|'.join(re.escape(n) for n in dir(nltk.corpus)))
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
  CLASS_DEF_RE = re.compile('^\s*class\s+(\w+)\s*[:\(]')
./nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
  return "(?:[)\";}\]\*:@\'\({\[%s])" % re.escape("".join(set(self.sent_end_chars) - {"."}))
War diese Seite hilfreich?
0 / 5 - 0 Bewertungen

Verwandte Themen

libingnan54321 picture libingnan54321  ·  3Kommentare

alvations picture alvations  ·  3Kommentare

DavidNemeskey picture DavidNemeskey  ·  4Kommentare

Chris00 picture Chris00  ·  3Kommentare

BLKSerene picture BLKSerene  ·  4Kommentare