Nltk: Perbarui berbagai urutan escape regex

Dibuat pada 28 Agu 2019  ·  14Komentar  ·  Sumber: nltk/nltk

Versi terbaru Python lebih ketat. melarikan diri dalam regex.
Misalnya dengan 3.6.8, ada 10+ peringatan seperti ini:

lib/python3.6/site-packages/nltk/ DeprecationWarning: invalid escape sequence \d
    RANGE_RE = re.compile('(-?\d+):(-?\d+)')

Regex (es) harus diperbarui untuk menonaktifkan peringatan ini.

goodfirstbug pythonic

Komentar yang paling membantu

Jika tidak ada yang mengerjakan ini, saya mau. Bisakah Anda memberi tahu langkah-langkah untuk menduplikasi masalah?

Semua 14 komentar

Jika tidak ada yang mengerjakan ini, saya mau. Bisakah Anda memberi tahu langkah-langkah untuk menduplikasi masalah?

@PabloDino Instal Python 3.6.8 atau yang lebih baru dan coba impor setiap modul. Perbaiki regex baik dengan menggunakan string mentah atau menggunakan escape yang tepat sehingga ini berfungsi baik pada Python 2 dan 3

Saya sedang mengerjakan beberapa latihan tetapi tidak melihat peringatan apa pun. Dapatkah Anda memposting cuplikan kode yang manifes peringatan pl

@PabloDino :

$ python --version
Python 3.6.8
$ git clone git://
$ pip install pytest
$ pytest -vvs nltk/ --collect-only
========================================= warnings summary =========================================
  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \d
    name, n = re.sub("\d+$", "",, 2

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \d
    RANGE_RE = re.compile("(-?\d+):(-?\d+)")

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \w
    ENT = re.compile("&(\w+?);")

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \s

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \d
    assert re.match("^[exps]\d+$", var), var

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \ 
    + [" \  " + blank + line for line in term_lines[1:2]]

  /home/pombreda/tmp/nl/nltk/nltk/sem/ DeprecationWarning: invalid escape sequence \ 
    + [" /\ " + var_string + line for line in term_lines[2:3]]

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \w
    _STANDARD_NONTERM_RE = re.compile("( [\w/][\w/^<>-]* ) \s*", re.VERBOSE)

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \w
    _CONTEXT_RE = re.compile("\w+|[\.\!\?]")

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
    pat = "\s*".join(re.escape(c) for c in tok)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \(
    line_regex = re.compile("^\((\d+), (\d+), (.+)\)$", re.MULTILINE)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \-
    c for c in lowercase_text if re.match("[a-z\-' \n\t]", c)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
    matches = re.finditer("\w+", text)

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
    FUNKY_PUNCT_1 = re.compile(u'([،;؛¿!"\])}»›”؟¡%٪°±©®।॥…])'), r" \1 "

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \[
    FUNKY_PUNCT_2 = re.compile(u"([({\[“‘„‚«‹「『])"), r" \1 "

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \|
    PIPE = re.compile("\|"), " &#124; "

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \]

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
    re.compile(pattern.replace("(?#X)", "\s"))

  /home/pombreda/tmp/nl/nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
    re.compile(pattern.replace("(?#X)", "\s"))

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s
    if"\s", brackets):

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s
    node_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s
    leaf_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \s

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \$
    reserved_chars = re.compile("([#\$%&~_\{\}])")

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/parse/ DeprecationWarning: invalid escape sequence \*

  /home/pombreda/tmp/nl/nltk/nltk/tag/ DeprecationWarning: invalid escape sequence \w
    elif re.match("\w+$", word):

  /home/pombreda/tmp/nl/nltk/nltk/tag/ DeprecationWarning: invalid escape sequence \W
    elif re.match("\W+$", word):

  /home/pombreda/tmp/nl/nltk/nltk/tag/ DeprecationWarning: invalid escape sequence \.
    if re.match("[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$", word):

  /home/pombreda/tmp/nl/nltk/nltk/classify/ DeprecationWarning: invalid escape sequence \w
    tokenizer = RegexpTokenizer("[\w.@:/]+|\w+|\$[\d.]+")

  /home/pombreda/tmp/nl/nltk/nltk/classify/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \S
    _LINE_RE = re.compile("(\S+)\s+(\S+)\s+([IOB])-?(\S+)?")

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \w
    _IEER_TYPE_RE = re.compile('<b_\w+\s+[^>]*?type="(?P<type>\w+)"')

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \s
    for piece_m in re.finditer("<[^>]+>|[^\s<]+", s):

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    _BRACKETS = re.compile("[^\{\}]+")

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    s = re.sub("\{\}", "", s)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "{\g<chunk>}", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "}\g<chink>{", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    regexp = re.compile("\{(?P<chunk>%s)\}" % tag_pattern2re_pattern(tag_pattern))

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "\g<chunk>", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "\g<left>", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "{\g<left>\g<right>", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \}

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \g
    RegexpChunkRule.__init__(self, regexp, "\g<left>\g<right>}", descr)

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \{
    r"^((%s|<%s>)*)$" % ("([^\{\}<>]|\{\d+,?\}|\{\d*,\d+\})+", "[^\{\}<>]+")

  /home/pombreda/tmp/nl/nltk/nltk/chunk/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/inference/ DeprecationWarning: invalid escape sequence \ 

  /home/pombreda/tmp/nl/nltk/nltk/stem/ DeprecationWarning: invalid escape sequence \*
    valid_rule = re.compile("^[a-z]+\*?\d[a-z]*[>\.]?$")

  /home/pombreda/tmp/nl/nltk/nltk/stem/ DeprecationWarning: invalid escape sequence \*
    valid_rule = re.compile("^([a-z]+)(\*?)(\d)([a-z]*)([>\.]?)$")

  /home/pombreda/tmp/nl/nltk/nltk/stem/ DeprecationWarning: invalid escape sequence \m

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    crubadan = LazyCorpusLoader("crubadan", CrubadanCorpusReader, ".*\.txt")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    "dependency_treebank", DependencyCorpusReader, ".*\.dp", encoding="ascii"

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    "timit", TimitTaggedCorpusReader, ".+\.tags", tagset="wsj", encoding="ascii"

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    twitter_samples = LazyCorpusLoader("twitter_samples", TwitterCorpusReader, ".*\.json")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.
    wordnet_ic = LazyCorpusLoader("wordnet_ic", WordNetICCorpusReader, ".*\.dat")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
    if re.match("^\d+-\d+", line) is not None:

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
    if re.match("======+\s*$", line):

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
    m = re.match("(.*\.zip)/?(.*)$|", root)

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
    encoding = [(".*\.wav", None), (".*", encoding)]

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
    _XML_TAG_NAME = re.compile("<\s*/?\s*([^\s>]+)")

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \_

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
    _UTTERANCE_RE = re.compile("(\w+)\.(\d+)\:\s*(.*)")

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
    m = re.match("P(\d+)Y(\d+)M?(\d?\d?)D?", age_year)

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \-
    ("Abkhaz\-Cyrillic\+Abkh", "cp1251"),

  /home/pombreda/tmp/nl/nltk/nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.

  /home/pombreda/tmp/nl/nltk/nltk/ccg/ DeprecationWarning: invalid escape sequence \Y

  /home/pombreda/tmp/nl/nltk/nltk/ DeprecationWarning: invalid escape sequence \ 

Dan FWIW: -and-bytes-literals

Tidak seperti Standar C, semua urutan escape yang tidak dikenali dibiarkan dalam string tidak berubah, yaitu, garis miring terbalik dibiarkan di hasil. (Perilaku ini berguna saat men-debug: jika urutan pelolosan salah ketik, keluaran yang dihasilkan lebih mudah dikenali sebagai rusak.) Penting juga untuk dicatat bahwa urutan pelolosan yang hanya dikenali dalam string literal termasuk dalam kategori pelarian tak dikenal untuk byte literal.

Berubah pada versi 3.6: Urutan pelolosan yang tidak dikenal menghasilkan DeprecationWarning. Dalam beberapa versi Python yang akan datang, mereka akan menjadi SyntaxError.

$ python --version
Python 3.6.7
$ pytest --version
Ini adalah versi pytest 5.1.2, diimpor dari /$ pytest -vvs nltk / --collect-only============================= sesi tes dimulai ================== ============platform linux - Python 3.6.7, pytest-5.1.2, py-1.8.0, pluggy-0.12.0 - * / python3
cachedir: .pytest_cache
rootdir: ** / nltk
mengumpulkan 381 item

Pengujian unit untuk nltk.compat.
Lihat juga nltk / test / compat.doctest.

Tes unit untuk nltk.metrics.aline

Uji algoritma Aline untuk menyelaraskan urutan fonetik

Uji aline untuk menghitung perbedaan antara dua segmen

Tes untuk Brill tagger.

Uji bug

    Ensures that curly bracket quantifiers can be used inside a chunk rule.
    This type of quantifier has been used for the supplementary example

Pengujian unit untuk nltk.classify. Lihat juga: nltk / test / classify.doctest

Teks dibuat menggunakan:

Uji tiruan untuk pembungkus Stanford CoreNLP.

Tes Regresi Tampilan Corpus

Kelas yang berisi pengujian unit untuk nltk.metrics.agreement.Disagreement.

Tes lebih lanjut, berdasarkan

Contoh lanjutan yang sama, tetapi dengan 1 peringkat dihapus.
Sekali lagi, penghapusan 1 peringkat itu seharusnya tidak masalah.

Tes sederhana, berdasarkan

Tes sederhana yang sama dengan 1 peringkat dihapus.
Penghapusan peringkat itu tidak masalah: K-Apha mengabaikan item dengan
hanya 1 peringkat.

Tes regresi untuk json2csv() dan json2csv_entities() di Twitter

Sanity memeriksa bahwa perbandingan file tidak memberikan hasil positif palsu.

Tes unit untuk nltk.corpus.nombank

Tes untuk nltk.pos_tag

Tes berikut melakukan serangkaian pembacaan, pencarian, dan
memberitahu, dan memeriksa bahwa hasilnya konsisten.

Tes unit untuk Senna

Unittest untuk nltk.classify.senna

Antarmuka pipa Senna

Unittest untuk nltk.tag.senna

unit ini menguji untuk menguji bola salju arabic light stemmer
stemmer ini berhubungan dengan prefiks dan sufiks

Uji bug

    Ensures that 'oed' can be stemmed without throwing an error.
  <TestCaseFunction test_vocabulary_martin_mode>
    Tests all words from the test vocabulary provided by M Porter

    The sample vocabulary and output were sourced from:
    and are linked to from the Porter Stemmer algorithm's homepage
  <TestCaseFunction test_vocabulary_nltk_mode>
  <TestCaseFunction test_vocabulary_original_mode>

Tes unit untuk nltk.tgrep.

Kelas yang berisi pengujian unit untuk nltk.tgrep.

Uji penanganan kesalahan operator tgrep yang tidak ditentukan.

Uji apakah komentar disaring dengan benar dari pencarian tgrep

Uji Contoh Dasar dari manual TGrep2.

Uji node berlabel.

    Test case from Emily M. Bender.
  <TestCaseFunction test_multiple_conjs>
    Test that multiple (3 or more) conjunctions of node relations are
    handled properly.
  <TestCaseFunction test_node_encoding>
    Test that tgrep search strings handles bytes and strs the same
  <TestCaseFunction test_node_nocase>
    Test selecting nodes using case insensitive node names.
  <TestCaseFunction test_node_noleaves>
    Test node name matching with the search_leaves flag set to False.
  <TestCaseFunction test_node_printing>
    Test that the tgrep print operator ' is properly ignored.
  <TestCaseFunction test_node_quoted>
    Test selecting nodes using quoted node names.
  <TestCaseFunction test_node_regex>
    Test regex matching on nodes.
  <TestCaseFunction test_node_regex_2>
    Test regex matching on nodes.
  <TestCaseFunction test_node_simple>
    Test a simple use of tgrep for finding nodes matching a given
  <TestCaseFunction test_node_tree_position>
    Test matching on nodes based on NLTK tree position.
  <TestCaseFunction test_rel_precedence>
    Test matching nodes based on precedence relations.
  <TestCaseFunction test_rel_sister_nodes>
    Test matching sister nodes in a tree.
  <TestCaseFunction test_tokenize_encoding>
    Test that tokenization handles bytes and strs the same way.
  <TestCaseFunction test_tokenize_examples>
    Test tokenization of the TGrep2 manual example patterns.
  <TestCaseFunction test_tokenize_link_types>
    Test tokenization of basic link types.
  <TestCaseFunction test_tokenize_macros>
    Test tokenization of macro definitions.
  <TestCaseFunction test_tokenize_node_labels>
    Test tokenization of labeled nodes.
  <TestCaseFunction test_tokenize_nodenames>
    Test tokenization of node names.
  <TestCaseFunction test_tokenize_quoting>
    Test tokenization of quoting.
  <TestCaseFunction test_tokenize_segmented_patterns>
    Test tokenization of segmented patterns.
  <TestCaseFunction test_tokenize_simple>
    Simple test of tokenization.
  <TestCaseFunction test_trailing_semicolon>
    Test that semicolons at the end of a tgrep2 search string won't
    cause a parse failure.
  <TestCaseFunction test_use_macros>
    Test defining and using tgrep2 macros.
  <TestCaseFunction tests_rel_dominance>
    Test matching nodes based on dominance relations.
  <TestCaseFunction tests_rel_indexed_children>
    Test matching nodes based on their index in their parent node.

Tes unit untuk nltk.tokenize.
Lihat juga nltk / test / tokenize.doctest

Uji padding asterisk untuk tokenisasi kata.

Uji padding dotdot * untuk tokenisasi kata.

Uji string yang menyerupai nomor telepon tetapi berisi baris baru

Uji remove_handle () dari dengan case edge yang dibuat khusus

Uji Tokenizer SyllableTokenizer.

Uji Stanford Word Segmenter untuk bahasa Arab (konfigurasi default)

Uji Stanford Word Segmenter untuk bahasa China (konfigurasi default)

Uji fungsi TreebankWordTokenizer.span_tokenize

Uji TweetTokenizer menggunakan kata-kata dengan karakter khusus dan beraksen.

Uji fungsi word_tokenize

Menguji bagian statis dari paket Twitter

Menguji bahwa informasi kredensial Twitter dari file ditangani dengan benar.

File kredensial default diidentifikasi

File kredensial default telah dibaca dengan benar

Jalur ke file kredensial default dibentuk dengan baik, jika ditentukan

Mengatur subdir ke jalur kosong akan menimbulkan kesalahan.

Menyetel subdirektori ke None akan memunculkan kesalahan.

Uji bahwa variabel lingkungan telah dibaca dengan benar.

File kredensial 'bad_oauth1-1.txt' tidak lengkap

Kunci pertama dalam file kredensial 'bad_oauth1-2.txt' salah format

Kunci pertama dalam file kredensial 'bad_oauth1-2.txt' salah format

Menyetel subdir ke direktori yang tidak ada seharusnya menimbulkan kesalahan.

Default untuk otentikasi akan gagal karena 'credentials.txt' bukan
hadir dalam subdirektori default, seperti yang dibaca dari os.environ['TWITTER'] .

File kredensial 'foobar' tidak dapat ditemukan di subdir default.

Tes unit untuk nltk.corpus.wordnet
Lihat juga nltk / test / wordnet.doctest

Tes untuk NgramCounter yang hanya melibatkan pencarian, tanpa modifikasi.

Tes unit untuk model ngram MLE.

Tes model trigram MLE

Tes unit untuk kelas Lidstone

Tes unit untuk kelas Laplace

Menggunakan model MLE, buat beberapa teks.

tes Kelas Kosakata

Tes untuk metrik evaluasi terjemahan BLEU

Contoh dari kertas BLEU asli

Menguji keselarasan GDFA

Menguji GDFA dengan 10 keluaran eflomal pertama dari masalah # 1829

Pengujian untuk metode pelatihan Model 1 IBM

Pengujian untuk metode pelatihan Model 2 IBM

Pengujian untuk metode pelatihan Model 3 IBM

Pengujian untuk metode pelatihan Model 4 IBM

Pengujian untuk metode pelatihan Model 5 IBM

============================ tidak ada tes yang dijalankan dalam 2.13s ================ =============

Saya melihat hasil yang sama dengan @pombredanne.

Hai, apakah @PabloDino masih berencana untuk menangani masalah ini?

Saya dapat mereplikasi keluaran @pombredanne dan ingin bekerja untuk memperbaiki masalah ini.

@ ab-10 Apakah Anda dapat memperbaiki peringatan dep tersebut?

Daftar yang diperbarui dengan Python 3.8 dengan menjalankan perintah di bawah ini:

find . -iname '*.py' | xargs -P 4 -I{} python3.8 -Wall -m py_compile {}
./nltk/chat/ DeprecationWarning: invalid escape sequence \<
  "u think I can%2??! really?? kekeke \<_\<",
./nltk/tag/ DeprecationWarning: invalid escape sequence \w
  elif re.match("\w+$", word):
./nltk/tag/ DeprecationWarning: invalid escape sequence \W
  elif re.match("\W+$", word):
./nltk/tag/ DeprecationWarning: invalid escape sequence \.
  if re.match("[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$", word):
./nltk/app/ DeprecationWarning: invalid escape sequence \#
  "\t<regexp><\#><CD> # This is a comment...</regexp>\n"
./nltk/app/ DeprecationWarning: invalid escape sequence \s
  grammar = re.sub("\n\s+", "\n", grammar)
./nltk/app/ DeprecationWarning: invalid escape sequence \w
  key=lambda t_w: re.match("\w+", t_w[0])
./nltk/app/ DeprecationWarning: invalid escape sequence \#
  "^\# Regexp Chunk Parsing Grammar[\s\S]*" "F-score:.*\n", "", grammar
./nltk/sem/ DeprecationWarning: invalid escape sequence \P
./nltk/sem/ DeprecationWarning: invalid escape sequence \w
  ENT = re.compile("&(\w+?);")
./nltk/sem/ DeprecationWarning: invalid escape sequence \s
  roles = """
./nltk/sem/ DeprecationWarning: invalid escape sequence \d
  assert re.match("^[exps]\d+$", var), var
./nltk/sem/ DeprecationWarning: invalid escape sequence \ 
  + [" \  " + blank + line for line in term_lines[1:2]]
./nltk/sem/ DeprecationWarning: invalid escape sequence \ 
  + [" /\ " + var_string + line for line in term_lines[2:3]]
./nltk/sem/ DeprecationWarning: invalid escape sequence \P
./nltk/sem/ DeprecationWarning: invalid escape sequence \P
  template = "PropN[num=sg, sem=<\P.(P %s)>] -> '%s'\n"
./nltk/sem/ DeprecationWarning: invalid escape sequence \ 
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
  if re.match("^\d+-\d+", line) is not None:
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
  if re.match("======+\s*$", line):
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \s
  _XML_TAG_NAME = re.compile("<\s*/?\s*([^\s>]+)")
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
  """Corpus reader for the XML version of the British National Corpus.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \-
  ("Abkhaz\-Cyrillic\+Abkh", "cp1251"),
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
  encoding = [(".*\.wav", None), (".*", encoding)]
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \d
  m = re.match("P(\d+)Y(\d+)M?(\d?\d?)D?", age_year)
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \w
  _UTTERANCE_RE = re.compile("(\w+)\.(\d+)\:\s*(.*)")
./nltk/corpus/reader/ DeprecationWarning: invalid escape sequence \.
  m = re.match("(.*\.zip)/?(.*)$|", root)
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  crubadan = LazyCorpusLoader("crubadan", CrubadanCorpusReader, ".*\.txt")
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  "dependency_treebank", DependencyCorpusReader, ".*\.dp", encoding="ascii"
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  "timit", TimitTaggedCorpusReader, ".+\.tags", tagset="wsj", encoding="ascii"
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  twitter_samples = LazyCorpusLoader("twitter_samples", TwitterCorpusReader, ".*\.json")
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
  wordnet_ic = LazyCorpusLoader("wordnet_ic", WordNetICCorpusReader, ".*\.dat")
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/corpus/ DeprecationWarning: invalid escape sequence \.
./nltk/ DeprecationWarning: invalid escape sequence \w
  _CONTEXT_RE = re.compile("\w+|[\.\!\?]")
./nltk/inference/ DeprecationWarning: invalid escape sequence \ 
./nltk/ DeprecationWarning: invalid escape sequence \ 
./nltk/ DeprecationWarning: invalid escape sequence \s
  if"\s", brackets):
./nltk/ DeprecationWarning: invalid escape sequence \s
  node_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)
./nltk/ DeprecationWarning: invalid escape sequence \s
  leaf_pattern = "[^\s%s%s]+" % (open_pattern, close_pattern)
./nltk/ DeprecationWarning: invalid escape sequence \s
./nltk/ DeprecationWarning: invalid escape sequence \$
  reserved_chars = re.compile("([#\$%&~_\{\}])")
./nltk/ccg/ DeprecationWarning: invalid escape sequence \Y
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
  FUNKY_PUNCT_1 = re.compile(u'([،;؛¿!"\])}»›”؟¡%٪°±©®।॥…])'), r" \1 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \[
  FUNKY_PUNCT_2 = re.compile(u"([({\[“‘„‚«‹「『])"), r" \1 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \|
  PIPE = re.compile("\|"), " &#124; "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
  pat = "\s*".join(re.escape(c) for c in tok)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \(
  line_regex = re.compile("^\((\d+), (\d+), (.+)\)$", re.MULTILINE)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \{
  PUNCT = re.compile("([\{-\~\[-\` -\&\(-\+\:-\@\/])"), " \\1 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \.
  PERIOD_COMMA_PRECEED = re.compile("([^0-9])([\.,])"), "\\1 \\2 "
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \.
  PERIOD_COMMA_FOLLOW = re.compile("([\.,])([^0-9])"), " \\1 \\2"
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
  re.compile(pattern.replace("(?#X)", "\s"))
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \s
  re.compile(pattern.replace("(?#X)", "\s"))
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \-
  c for c in lowercase_text if re.match("[a-z\-' \n\t]", c)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
  matches = re.finditer("\w+", text)
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
./nltk/tokenize/ DeprecationWarning: invalid escape sequence \w
./nltk/classify/ DeprecationWarning: invalid escape sequence \ 
./nltk/classify/ DeprecationWarning: invalid escape sequence \w
  tokenizer = RegexpTokenizer("[\w.@:/]+|\w+|\$[\d.]+")
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/parse/ DeprecationWarning: invalid escape sequence \*
./nltk/chunk/ DeprecationWarning: invalid escape sequence \S
  _LINE_RE = re.compile("(\S+)\s+(\S+)\s+([IOB])-?(\S+)?")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \w
  _IEER_TYPE_RE = re.compile('<b_\w+\s+[^>]*?type="(?P<type>\w+)"')
./nltk/chunk/ DeprecationWarning: invalid escape sequence \s
  for piece_m in re.finditer("<[^>]+>|[^\s<]+", s):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \w
  elif re.match("\w+$", word, re.UNICODE):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \W
  elif re.match("\W+$", word, re.UNICODE):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \.
  if re.match("[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$", word, re.UNICODE):
./nltk/chunk/ DeprecationWarning: invalid escape sequence \s
  text = re.sub("[\s\S]*<TEXT>", subfunc, text)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \s
  text = re.sub("</TEXT>[\s\S]*", "", text)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  _BRACKETS = re.compile("[^\{\}]+")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  s = re.sub("\{\}", "", s)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "{\g<chunk>}", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "}\g<chink>{", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  regexp = re.compile("\{(?P<chunk>%s)\}" % tag_pattern2re_pattern(tag_pattern))
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "\g<chunk>", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "\g<left>", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "{\g<left>\g<right>", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \}
./nltk/chunk/ DeprecationWarning: invalid escape sequence \g
  RegexpChunkRule.__init__(self, regexp, "\g<left>\g<right>}", descr)
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  r"^((%s|<%s>)*)$" % ("([^\{\}<>]|\{\d+,?\}|\{\d*,\d+\})+", "[^\{\}<>]+")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \{
  r"^((%s|<%s>)*)$" % ("([^\{\}<>]|\{\d+,?\}|\{\d*,\d+\})+", "[^\{\}<>]+")
./nltk/chunk/ DeprecationWarning: invalid escape sequence \.
./nltk/ DeprecationWarning: invalid escape sequence \d
  name, n = re.sub("\d+$", "",, 2
./nltk/ DeprecationWarning: invalid escape sequence \d
  RANGE_RE = re.compile("(-?\d+):(-?\d+)")
./nltk/draw/ DeprecationWarning: invalid escape sequence \s
  _ARROW_RE = re.compile("\s*(->|(" + ARROW + "))\s*")
./nltk/draw/ DeprecationWarning: invalid escape sequence \s
  _ARROW_RE = re.compile("\s*(->|(" + ARROW + "))\s*")
./nltk/draw/ DeprecationWarning: invalid escape sequence \s
  + "))\s*"
./nltk/ DeprecationWarning: invalid escape sequence \_
./nltk/ DeprecationWarning: invalid escape sequence \*
./nltk/ DeprecationWarning: invalid escape sequence \w
  _STANDARD_NONTERM_RE = re.compile("( [\w/][\w/^<>-]* ) \s*", re.VERBOSE)
./nltk/stem/ DeprecationWarning: invalid escape sequence \m
  """Returns the 'measure' of stem, per definition in the paper
./nltk/stem/ DeprecationWarning: invalid escape sequence \*
  valid_rule = re.compile("^[a-z]+\*?\d[a-z]*[>\.]?$")
./nltk/stem/ DeprecationWarning: invalid escape sequence \*
  valid_rule = re.compile("^([a-z]+)(\*?)(\d)([a-z]*)([>\.]?)$")
./nltk/ DeprecationWarning: invalid escape sequence \ 
./tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE1 = "<programlisting>[\s\S]*?</programlisting>"
./tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE2 = "<literal>[\s\S]*?</literal>"
./tools/ DeprecationWarning: invalid escape sequence \w
  TOKEN_RE = re.compile('[\w\.]+')
./tools/ DeprecationWarning: invalid escape sequence \s
./tools/ DeprecationWarning: invalid escape sequence \s
./tools/ DeprecationWarning: invalid escape sequence \s
./tools/ DeprecationWarning: invalid escape sequence \.
  '({})\.read\('.format('|'.join(re.escape(n) for n in dir(nltk.corpus)))
./tools/ DeprecationWarning: invalid escape sequence \s
  CLASS_DEF_RE = re.compile('^\s*class\s+(\w+)\s*[:\(]')

@gertjanwytynck Saat ini saya sedang memperbaikinya satu per satu, harus selesai pada akhir minggu.

Apakah ini sudah selesai?

Sepertinya masih ada beberapa yang tersisa. Saya ingin tahu apakah menambahkan tes unit bisa membantu.

  • ./nltk/tools/
  • ./nltk/tools/
  • ./nltk/nltk/tokenize/

... dan meskipun dampak dari penghentian alat tidak terlalu besar, ada sedikit ironi bahwa skrip menggunakan sintaks yang tidak digunakan lagi :)

$ git clone
$ find . -iname '*.py' | xargs -P 4 -I{} python3.8 -Wall -m py_compile {}
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE1 = "<programlisting>[\s\S]*?</programlisting>"
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
  SCAN_RE2 = "<literal>[\s\S]*?</literal>"
./nltk/tools/ DeprecationWarning: invalid escape sequence \w
  TOKEN_RE = re.compile('[\w\.]+')
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
./nltk/tools/ DeprecationWarning: invalid escape sequence \.
  '({})\.read\('.format('|'.join(re.escape(n) for n in dir(nltk.corpus)))
./nltk/tools/ DeprecationWarning: invalid escape sequence \s
  CLASS_DEF_RE = re.compile('^\s*class\s+(\w+)\s*[:\(]')
./nltk/nltk/tokenize/ DeprecationWarning: invalid escape sequence \]
  return "(?:[)\";}\]\*:@\'\({\[%s])" % re.escape("".join(set(self.sent_end_chars) - {"."}))
Apakah halaman ini membantu?
0 / 5 - 0 peringkat

Masalah terkait

libingnan54321 picture libingnan54321  ·  3Komentar

talbaumel picture talbaumel  ·  4Komentar

ndvbd picture ndvbd  ·  4Komentar

goodmami picture goodmami  ·  4Komentar

stevenbird picture stevenbird  ·  3Komentar