λ¬Έμλ λ€μκ³Ό κ°μ΄ μ€λͺ ν©λλ€.
λ€λ₯Έ λͺ¨λ μ΄ (csv μ©) λλ ν€ (json μ©)λ μ μ§λλ©° λ©ν λ°μ΄ν° μ΄ λλ ν€μμμλ κ·Έλλ‘ λ΄λ³΄λ΄μ§λλ€.
κ·Έλ¬λ μ΄κ²μ λ΄κ° κ²½ννλ νλμ΄ μλλλ€. Windows 10 νΈμ€νΈμμ μ€νλλ Doccanoμ Docker μ΄λ―Έμ§ λ²μ μ μ¬μ©νκ³ μμ΅λλ€. μνμ€ λ μ΄λΈ μ§μ νλ‘μ νΈμ κ²½μ° λ€μ JSON λΌμΈ νμμΌλ‘ λ°μ΄ν°λ₯Ό κ°μ Έμ΅λλ€.
{"external_id": "abc12345", "other_field": 5, "text": "hello world"}
{"external_id": "abc12346", "other_field": 2, "text": "this is a test"}
λ°μ΄ν°μ λ μ΄λΈμ μ§μ ν ν _Edit Data_> _Export Data_λ‘ μ΄λνμ¬ _JSONL_ λλ _JSON (Text-Labels) _ νμμΌλ‘ λ΄ λ³΄λ λλ€ (λ¬Έμ κ° μ΄λ μͺ½μ΄λ λνλ¨). λ€μμ _JSON (Text-Labels) _ μΆλ ₯μΌλ‘ μ»μ μΆλ ₯μ λλ€.
{"id": 101, "text": "hello world", "meta": {}, "labels": [[0, 6, "Something"]]}
{"id": 102, "text": "this is a test", "meta": {}, "labels": []}
λ¬Έμμ μ€λͺ λλλ‘ "λ©ν λ°μ΄ν°"νλκ° μμΌλ©° "λ©ν"νλμλ μ£Όμμ΄ λ¬λ¦° μμ λ₯Ό λ΄ μ¬μ© μ¬λ‘μ νμν λ€λ₯Έ κ΄λ ¨ λ°μ΄ν°μ λ€μ κ²°ν©νλ λ° νμν λ©ν λ°μ΄ν°κ° ν¬ν¨λμ΄ μμ§ μμ΅λλ€.
ν΄λΉ μ¬ν μμ
μ€λ Dockerμ μ΅μ λ²μ μ Doccanoλ‘ μ΄κ²μ λ€μ ν μ€νΈνμ§λ§ μ¬μ ν λμΌν λ¬Έμ κ° λ°μν©λλ€. λλ μ΄κ²μ΄ λ¬Έμμ μΌμΉνμ§ μλ νλμ΄κΈ° λλ¬Έμ μ΄κ²μ΄ μ§λ¬Έλ³΄λ€ λ²κ·Έλ‘ λΆλ₯λλ κ²μ΄ λ λ«λ€κ³ μκ°ν©λλ€.
λ΄κ° μλ ν, κ°μ Έ μ€κΈ°μ λ΄λ³΄λ΄κΈ° λͺ¨λμ "λ©ν"ν€λ₯Ό λͺ μ μ μΌλ‘ μ¬μ©ν΄μΌν©λλ€. https://github.com/chakki-works/doccano/wiki/Import-and-Export-File-Formats μ κ°μ΅λλ€.
λ°λΌμ κ°μ Έ μ€κΈ°λ λ€μκ³Ό κ°μ΅λλ€.
{"text": "hello world", "meta": {"external_id": "abc12345", "other_field": 5}}
κ·Έλ¬λ©΄ λ΄λ³΄λ΄κΈ°μλ λμΌν νλκ° ν¬ν¨λ©λλ€. κ·Έκ²μ λλ₯Ό μν΄ μλν©λλ€. νμ§λ§ λ¬Έμκ° μ λ°μ΄νΈλμ΄μΌνλ€κ³ μκ°ν©λλ€.
μ΄κ²μ λ¬Έμμ μΆκ°νμμμ€. μ€λμ΄ λ¬Έμ λ₯Ό λ§λ¬μ΅λλ€.
Ok-μ¬κΈ°μμ PRμ μ΄μμ΅λλ€ : https://github.com/chakki-works/doccano/pull/315
κ°μ₯ μ μ©ν λκΈ
λ΄κ° μλ ν, κ°μ Έ μ€κΈ°μ λ΄λ³΄λ΄κΈ° λͺ¨λμ "λ©ν"ν€λ₯Ό λͺ μ μ μΌλ‘ μ¬μ©ν΄μΌν©λλ€. https://github.com/chakki-works/doccano/wiki/Import-and-Export-File-Formats μ κ°μ΅λλ€.
λ°λΌμ κ°μ Έ μ€κΈ°λ λ€μκ³Ό κ°μ΅λλ€.
κ·Έλ¬λ©΄ λ΄λ³΄λ΄κΈ°μλ λμΌν νλκ° ν¬ν¨λ©λλ€. κ·Έκ²μ λλ₯Ό μν΄ μλν©λλ€. νμ§λ§ λ¬Έμκ° μ λ°μ΄νΈλμ΄μΌνλ€κ³ μκ°ν©λλ€.