Okuna-api: Postagens multilíngues

Criado em 2 abr. 2019  ·  10Comentários  ·  Fonte: OkunaOrg/okuna-api

De Ronald no Slack

Talvez seja uma boa ideia definir os idiomas preferidos antes de irmos publicamente. Se a linha do tempo de tendências estiver cheia de postagens escritas em chinês, isso será um problema.

A solução possível é .. na integração, deixe a pessoa selecionar os idiomas preferidos, pré-selecionando o idioma do dispositivo atual.

Quando uma pessoa está postando, podemos tentar detectar o idioma e mostrar isso em algum lugar o tempo todo.

A pessoa pode tocar nele para substituí-lo, se estiver errado. Podemos mostrar a lista de idiomas preferidos primeiro.

Depois que essas duas coisas forem definidas, podemos filtrar os cronogramas por idioma (s).

EDITAR: Veja a parte inferior para ver as sugestões mais recentes.

medium feature

Comentários muito úteis

Não tenho certeza se isso se aplica diretamente a esse problema. Mas deve ser possível alterar o atributo de idioma. Especialmente com postagens muito misturadas com várias palavras estrangeiras, pode acontecer que o idioma errado seja armazenado. Até o MS Word produz erros regulares com a minha experiência.

Todos 10 comentários

Outra opção é ter um botão de tradução.

Podemos olhar para modelos de tradução pré-treinados de código aberto e talvez começar a partir daí?

http://opennmt.net/Models/

Alguém nos comentários sobre OB mencionou: https://www.deepl.com/pro.html#pricing

Podemos detectar o conteúdo de um idioma ao postar localmente com https://github.com/Mimino666/langdetect

Então ... Estamos aprimorando isso no prio e retomaremos logo depois que os fluxos de relatórios forem concluídos.

A aparência até agora é:

  1. Detecte o idioma localmente no servidor com a biblioteca langdetect e armazene-o como um atributo de postagem.
  2. Quando alguém recupera a postagem, verifique se o idioma da postagem corresponde ao idioma do dispositivo. * 1
  3. Em caso afirmativo, não faça nada; caso contrário, mostre um botão Traduzir.
  4. Quando traduzir for pressionado, chame um / postUuid / translate / api com o idioma desejado.
  5. O servidor chama uma API de tradução externa e retorna o resultado * 2

* 1 Embora o idioma do dispositivo possa funcionar para as primeiras iterações, ele deve se tornar algo como o idioma preferencial que pode ser inicializado no idioma do dispositivo.

* 2 Existem 2 opções até agora, deepl.com e API de tradução AWS.

Deepl parece uma ótima opção estar baseado na Alemanha e alegar ter princípios de privacidade sólidos, mas ... é outro terceiro. Usar a tradução da amazon manteria tudo dentro do ecossistema da AWS, mas eles dizem que "podem" usar o conteúdo para melhorar seus modelos de tradução.

Pessoalmente, prefiro ir com o Deepl.

Pensamentos recebidos como de costume.

Com relação ao ponto 3, também deve haver a opção de nunca mostrar um link de tradução para um determinado idioma. Meu dispositivo está configurado para holandês, mas não quero que o botão traduzir apareça para postagens em inglês. O Google adicionou uma opção semelhante depois que sua função de tradução no Chrome gerou muita reação de pessoas multilíngues.

A detecção de idioma não é perfeita e irá errar ou não oferece suporte a nenhum idioma. Como esses casos devem ser tratados? O pôster deve ser capaz de substituí-lo, se necessário?

A desvantagem do deepl (e talvez do AWS) é que eles suportam apenas uma seleção limitada de idiomas (até agora). Claro, a maioria da base de usuários será coberta apenas com inglês, alemão, francês e espanhol, mas os poucos por cento restantes terão uma experiência menor.

No entanto, o Bing e o Google não são opções, dadas as questões de privacidade.

A qualidade dos resultados do DeepL é ótima, mas concordo que a gama limitada de idiomas disponíveis pode se tornar um problema.
Outra coisa são os custos. Não sei sobre AWS, mas DeepL cobra 4,99 € / mês para desenvolvedores mais 0,01 ct por 500 caracteres.

Obrigado pela informação @oliverzet !

No momento, o Amazon Translate oferece suporte à tradução entre os seguintes 21 idiomas: árabe, chinês (simplificado), chinês (tradicional), tcheco, dinamarquês, holandês, inglês, finlandês, francês, alemão, hebraico, indonésio, italiano, japonês, coreano, Polonês, português, russo, espanhol, sueco e turco. Entre esses idiomas, o serviço suporta 417 combinações de tradução

E para preços

image

Não tenho certeza de quão caro pode ser, mas definitivamente oferece suporte a mais idiomas.

@ schmitzel76 Definitivamente, adicionaremos uma opção para "Nunca traduzir postagens em IDIOMA".

Não sei como devemos lidar com traduções erradas 🤔.

Quanto ao deepl vs AWS, podemos projetá-lo para ser substituível, portanto, a questão é qual tentar primeiro.

Além disso, isso provavelmente só estará disponível para postagens públicas.

Não tenho certeza se isso se aplica diretamente a esse problema. Mas deve ser possível alterar o atributo de idioma. Especialmente com postagens muito misturadas com várias palavras estrangeiras, pode acontecer que o idioma errado seja armazenado. Até o MS Word produz erros regulares com a minha experiência.

@lifenautjoe Bem, o AWS parece ser menos caro e oferece suporte a muito mais idiomas. A tradução em si provavelmente será melhor com DeepL. Por outro lado, geralmente é o suficiente para entender a essência. Portanto, parece que a Amazon é a melhor escolha. Não sei como isso pode afetar a privacidade.

Esta página foi útil?
0 / 5 - 0 avaliações

Questões relacionadas

lifenautjoe picture lifenautjoe  ·  7Comentários

joenepraat picture joenepraat  ·  3Comentários

lifenautjoe picture lifenautjoe  ·  4Comentários

amirali-asvadi picture amirali-asvadi  ·  3Comentários

nvie picture nvie  ·  3Comentários