Okuna-api: Mehrsprachige Beiträge

Erstellt am 2. Apr. 2019  ·  10Kommentare  ·  Quelle: OkunaOrg/okuna-api

Von Ronald auf Slack

Vielleicht ist es eine gute Idee, bevorzugte Sprachen festlegen zu können, bevor wir an die Öffentlichkeit gehen. Wenn die Trending-Timeline voll ist mit chinesisch geschriebenen Beiträgen, wird das ein Problem.

Eine mögliche Lösung ist.. beim Onboarding die Person die bevorzugten Sprachen auswählen zu lassen, indem die aktuelle Gerätesprache vorgewählt wird.

Wenn eine Person postet, können wir versuchen, die Sprache zu erkennen und diese jederzeit irgendwo anzuzeigen.

Die Person kann dann darauf tippen, um es zu überschreiben, wenn es falsch ist. Wir können zuerst die Liste der bevorzugten Sprachen anzeigen.

Nachdem diese beiden Dinge festgelegt wurden, können wir die Zeitleisten nach Sprache/n filtern.

EDIT: Siehe unten für den neuesten Vorschlag.

medium feature

Hilfreichster Kommentar

Ich bin mir nicht sicher, ob das direkt auf dieses Problem zutrifft. Aber es sollte möglich sein, das Sprachattribut zu ändern. Gerade bei sehr gemischten Beiträgen mit mehreren Fremdwörtern kann es vorkommen, dass die falsche Sprache gespeichert wird. Auch MS Word produziert aus meiner Erfahrung regelmäßig Fehler.

Alle 10 Kommentare

Eine weitere Option ist eine Schaltfläche zum Übersetzen.

Wir können uns Open-Source-Modelle für vortrainierte Übersetzungen ansehen und vielleicht von dort aus beginnen?

http://opennmt.net/Models/

Jemand hat in den Kommentaren zu OB erwähnt: https://www.deepl.com/pro.html#pricing

Wir können den Inhalt einer Sprache beim lokalen Posten mit https://github.com/Mimino666/langdetect erkennen

Also... Wir heben das im Vorhinein auf und holen es sofort nach Abschluss der Berichtsabläufe ab.

So sieht es bisher aus:

  1. Erkennen Sie die Sprache lokal auf dem Server mit der langdetect-Bibliothek und speichern Sie sie als Post-Attribut.
  2. Wenn jemand den Beitrag abruft, überprüfen Sie, ob die Sprache des Beitrags mit der Gerätesprache übereinstimmt. *1
  3. Wenn dies der Fall ist, tun Sie nichts, wenn dies nicht der Fall ist, zeigen Sie eine Schaltfläche zum Übersetzen an.
  4. Wenn übersetzen gedrückt wird, rufen Sie eine /postUuid/translate/ api mit der gewünschten Sprache auf.
  5. Der Server ruft eine externe Übersetzungs-API auf und gibt das Ergebnis zurück *2

*1 Obwohl die Gerätesprache für die ersten Iterationen funktionieren könnte, sollte dies zu einer bevorzugten Sprache werden, die auf die Gerätesprache gebootet werden kann.

*2 Bisher gibt es 2 Optionen, deepl.com und AWS Translation API.

Deepl sieht nach einer großartigen Option aus, die in Deutschland ansässig ist und behauptet, strenge Datenschutzgrundsätze zu haben, aber.. es ist eine weitere dritte Partei. Die Verwendung der Übersetzung von Amazon würde alles innerhalb des AWS-Ökosystems halten, aber sie sagen, dass sie die Inhalte "können", um ihre Übersetzungsmodelle zu verbessern.

Ich persönlich würde eher zu Deepl gehen.

Gedanken wie immer willkommen.

In Bezug auf Punkt 3 sollte es auch eine Option geben, niemals einen Übersetzungslink für eine bestimmte Sprache anzuzeigen. Mein Gerät ist auf Niederländisch eingestellt, aber ich möchte nicht, dass die Schaltfläche zum Übersetzen für englische Beiträge angezeigt wird. Google hat eine ähnliche Option hinzugefügt, nachdem seine Übersetzungsfunktion in Chrome viel Gegenreaktionen von mehrsprachigen Personen erzeugt hat.

Die Spracherkennung ist nicht fehlerfrei und führt zu Fehlern oder unterstützt eine Sprache überhaupt nicht. Wie soll mit diesen Fällen umgegangen werden? Soll das Poster es bei Bedarf überschreiben können?

Der Nachteil von deepl (und vielleicht AWS) ist, dass sie (bisher) nur eine begrenzte Auswahl an Sprachen unterstützen. Natürlich wird ein Großteil der Nutzerbasis nur mit Englisch, Deutsch, Französisch und Spanisch abgedeckt, aber die verbleibenden wenigen Prozent werden weniger Erfahrung haben.

Bing und Google sind jedoch aufgrund von Datenschutzbedenken keine wirklichen Optionen.

Die Qualität der DeepL-Ergebnisse ist großartig, aber ich stimme zu, dass die begrenzte Auswahl an verfügbaren Sprachen zu einem Problem werden könnte.
Eine andere Sache sind die Kosten. Ich kenne AWS nicht, aber DeepL berechnet 4,99 € / Monat für Entwickler plus 0,01 ct pro 500 Zeichen.

Danke für die Info @oliverzet !

Derzeit unterstützt Amazon Translate die Übersetzung zwischen den folgenden 21 Sprachen: Arabisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Tschechisch, Dänisch, Niederländisch, Englisch, Finnisch, Französisch, Deutsch, Hebräisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Polnisch, Portugiesisch, Russisch, Spanisch, Schwedisch und Türkisch. Zwischen diesen Sprachen unterstützt der Dienst 417 Übersetzungskombinationen

Und zum Preis

image

Ich bin mir nicht sicher, wie teuer es sein könnte, unterstützt aber definitiv mehr Sprachen.

@schmitzel76 Auf

Nicht sicher, wie wir mit falschen Übersetzungen umgehen sollen 🤔 .

Was deepl vs AWS angeht, können wir es so gestalten, dass es austauschbar ist, sodass die Frage nur ist, welches zuerst versucht werden soll.

Außerdem wird dies höchstwahrscheinlich nur für öffentliche Beiträge verfügbar sein.

Ich bin mir nicht sicher, ob das direkt auf dieses Problem zutrifft. Aber es sollte möglich sein, das Sprachattribut zu ändern. Gerade bei sehr gemischten Beiträgen mit mehreren Fremdwörtern kann es vorkommen, dass die falsche Sprache gespeichert wird. Auch MS Word produziert aus meiner Erfahrung regelmäßig Fehler.

@lifenautjoe Nun, AWS scheint billiger zu sein und unterstützt viel mehr Sprachen. Die Übersetzung selbst wird mit DeepL wahrscheinlich besser. Auf der anderen Seite reicht es normalerweise aus, um das Wesentliche zu erfassen. Amazon scheint also die bessere Wahl zu sein. Ich weiß jedoch nicht, wie sich das auf die Privatsphäre auswirkt.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen

Verwandte Themen

joenepraat picture joenepraat  ·  3Kommentare

amirali-asvadi picture amirali-asvadi  ·  3Kommentare

lifenautjoe picture lifenautjoe  ·  7Kommentare

lifenautjoe picture lifenautjoe  ·  4Kommentare

ipython picture ipython  ·  3Kommentare