doccanoは現在、文字レベルの注釈のみを出力します。 ただし、NLPに使用される一部のワークフローでは、単語のリストおよびトークンラベルのリストとして入力する必要があります。
Sample sentence:
['Two', ',', 'Samsung', 'based', ',', 'electronic', 'cash', 'registers', 'were', 'reconstructed', 'in', 'order', 'to', 'expand', 'their', 'functions', 'and', 'adapt', 'them', 'for', 'networking', '.']
Sample sentence labels:
['O', 'O', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
以前の号(#7)で、一部の言語がスペースで区切られていないため、これがこのように行われたことが参照されています。 スペースで区切られた言語に注釈を付けるオプションとユーザーが、ワークフローへのシームレスな入力にそれを使用できるとよいと思います。
例: https :
やあ! 私は自分自身のために似たようなものを書き、PRで貢献したいと思っています:)しかし、誤ったラベルのトークンを処理する方法がわかりません。 つまり、トークンが部分的にしかマークされていない場合はどうなりますか? 私自身の目的のために、スクリプトのユーザーへの警告である誤ったラベルのトークンを印刷し、トークンの注釈を削除しますが、本番環境ではこれを行う方法ではありません。
他のことは、「非エンティティ」トークンは何であるべきかということです。 'O'
? 次に、一部の人にとって誤解を招く可能性のあるそのようなラベルをユーザーが追加しないようにする必要があります。 または、ユーザー自身がトークンを提供できるフォームを作成する必要がありますか? または空白のままにしますか?
この機能のリクエストは素晴らしいと思いますが、これにどれだけ正確に取り組むかについて同意する必要があります:smile:私はあなたの提案を読みたいです
doccano-transformer
という名前の新しいPythonパッケージを作成する計画があります。
それは、次のような他の形式に注釈付き文書を変換しますhttps://github.com/chakki-works/doccano/issues/362 、 https://github.com/chakki-works/doccano/issues/454など。 したがって、トークンレベルの出力はdoccano-transformer
含める必要があります。
これに関する更新はありますか? データセットを単純に.txt(各行が文)としてインポートしたいのですが:
George Washington went to Washington.
Sam Houston stayed home.
...そして(注釈を付けた後)次のように、これも.txtでエクスポートします。
George B-PER
Washington I-PER
went O
to O
Washington B-LOC
Sam B-PER
Houston I-PER
stayed O
home O
つまり、よく知られているIOB注釈形式でエクスポートします。 したがって、このために、Doccanoは、注釈付きエンティティが複数のトークンで構成されている場合、B(開始)ラベルとI(内部)ラベルで注釈を付ける必要があることを自動的に認識する必要があります。 また、BIOESなど、IOB以外にも高度な注釈スキームがあります。 ここで、S(シングル)は、単一のトークンを含むチャンクを表すために使用されます。 BIOESアノテーションスキームは次のようになります。
George B-PER
Washington E-PER
went O
to O
Washington S-LOC
Sam B-PER
Houston E-PER
stayed O
home O
注釈付きのデータセットをIOBまたはBIOES(またはその他の)形式でエクスポートできれば素晴らしいと思います。 NERの多くの最先端のライブラリでは、モデルをトレーニングするためにトークンレベルのアノテーションが必要です(ZalandoのFlair、HuggingFaceのTransformersなど)。
doccano-transformerをリリースし
タスクとフォーマットを拡張する計画があります。
どうぞお楽しみに。
最も参考になるコメント
doccano-transformer
という名前の新しいPythonパッケージを作成する計画があります。それは、次のような他の形式に注釈付き文書を変換しますhttps://github.com/chakki-works/doccano/issues/362 、 https://github.com/chakki-works/doccano/issues/454など。 したがって、トークンレベルの出力は
doccano-transformer
含める必要があります。