Doccano: Permintaan Fitur: Output level token

Dibuat pada 3 Okt 2019 · 4Komentar · Sumber: doccano/doccano

Deskripsi fitur

doccano saat ini hanya mengeluarkan anotasi tingkat karakter. Namun, beberapa alur kerja yang digunakan untuk NLP memerlukan input sebagai daftar kata dan daftar label token:

Sample sentence: 
['Two', ',', 'Samsung', 'based', ',', 'electronic', 'cash', 'registers', 'were', 'reconstructed', 'in', 'order', 'to', 'expand', 'their', 'functions', 'and', 'adapt', 'them', 'for', 'networking', '.']

Sample sentence labels: 
['O', 'O', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']

Direferensikan dalam edisi sebelumnya (#7) bahwa ini dilakukan seperti ini karena fakta bahwa beberapa bahasa tidak dipisahkan oleh spasi. Saya pikir akan lebih baik untuk memiliki opsi dan pengguna yang membubuhi keterangan bahasa yang dipisahkan ruang dapat menggunakannya untuk input mulus ke alur kerja mereka.

Contoh diambil dari: https://github.com/microsoft/nlp/blob/master/examples/named_entity_recognition/ner_wikigold_bert.ipynb

feature request

Sumber

atakanokan

👍2

Komentar yang paling membantu

Saya punya rencana untuk membuat paket Python baru bernama doccano-transformer .
Ini akan mengubah dokumen beranotasi ke dalam format lain seperti https://github.com/chakki-works/doccano/issues/362 , https://github.com/chakki-works/doccano/issues/454 dan seterusnya. Jadi, output level token harus disertakan dalam doccano-transformer .

Hironsan pada 26 Nov 2019

👍3

Semua 4 komentar

Hai, yang di sana! Saya menulis sesuatu yang serupa untuk diri saya sendiri dan saya ingin berkontribusi dengan PR :) namun, saya tidak yakin bagaimana menangani token yang salah label. Yaitu, bagaimana jika token hanya ditandai sebagian? Untuk tujuan saya sendiri, saya mencetak token yang salah label, yang merupakan peringatan bagi pengguna skrip, dan menghapus anotasi token tetapi dalam produksi ini bukan cara yang tepat.

Hal-hal lain adalah, apa yang seharusnya menjadi token "non-entitas"? 'O' ? Maka kita harus mencegah pengguna menambahkan label seperti itu yang mungkin menyesatkan bagi sebagian orang. Atau mungkin kita harus membuat formulir di mana pengguna itu sendiri dapat memberikan token? Atau biarkan kosong?

Saya pikir permintaan fitur ini bagus tapi kita harus setuju bagaimana sebenarnya menangani ini :senyum: Saya akan senang membaca saran Anda

prokotg pada 30 Okt 2019

Hironsan pada 26 Nov 2019

👍3

Ada pembaruan tentang ini? Saya ingin mengimpor kumpulan data hanya sebagai .txt (di mana setiap baris adalah kalimat):

George Washington went to Washington.
Sam Houston stayed home.

... dan ekspor (setelah membuat anotasi) sebagai berikut, juga dalam .txt:

George B-PER
Washington I-PER
went O
to O
Washington B-LOC

Sam B-PER
Houston I-PER
stayed O
home O

Dengan kata lain, ekspor dalam format anotasi IOB yang terkenal. Jadi untuk ini, Doccano secara otomatis mengetahui bahwa jika entitas beranotasi terdiri dari lebih dari 1 token harus dianotasi dengan label B (awal) dan I (di dalam). Juga, ada skema anotasi yang lebih canggih selain IOB, seperti BIOES. Di sini, S (tunggal) digunakan untuk mewakili potongan yang berisi satu token. Skema anotasi BIOES akan menghasilkan sebagai berikut:

George B-PER
Washington E-PER
went O
to O
Washington S-LOC

Sam B-PER
Houston E-PER
stayed O
home O

Akan luar biasa jika saya dapat mengekspor kumpulan data beranotasi dalam format IOB atau BIOES (atau lainnya). Banyak perpustakaan canggih untuk NER memerlukan anotasi tingkat token untuk melatih model (Flair dari Zalando, Transformers dari HuggingFace,...).

NielsRogge pada 29 Feb 2020

Kami merilis doccano-transformator . Ini mendukung transformasi data. Saat ini, tugas yang didukung diberi nama pengenalan entitas dan format yang didukung adalah CoNLL2003 dan spaCy.

Kami memiliki rencana untuk memperluas tugas dan format.
Silakan menantikannya.

Hironsan pada 12 Mei 2020

Apakah halaman ini membantu?

0 / 5 - 0 peringkat