Tesseract: Prise en charge de Tesseract 3.05

Créé le 13 avr. 2017  ·  25Commentaires  ·  Source: charlesw/tesseract

Tesseract 3.05 est disponible depuis quelques mois maintenant. Sortirez-vous une version compatible pour cela ? Merci.

enhancement

Tous les 25 commentaires

Moi aussi, j'apprécierais grandement que cela se produise !!

Héhé, je n'avais même pas réalisé que c'était sorti !

En 3.05, il y avait une nouvelle méthode dans l'interface c-api : TessBaseAPIDetectOrientationScript .

J'ai écrit un petit programme pour détecter l'orientation de la page. Dans sa forme actuelle, il essaie uniquement de savoir si la page est à l'envers, mais vous pouvez facilement modifier le code pour détecter d'autres orientations. Ce qu'il fait, c'est l'OCR sur une partie du texte, puis faire pivoter la page de 180 degrés, puis de la même manière. Le meilleur résultat décide alors de l'orientation de la page.

https://github.com/Sicos1977/PageOrientationEngine

Tesseract 3.05.01 est sorti. Des modifications mineures ont été apportées à l'interface c-api.

https://github.com/tesseract-ocr/tesseract/releases

Merci de me le faire savoir. Selon https://github.com/tesseract-ocr/tesseract/wiki/Compiling#windows, il semble que tesseract ont amélioré leur processus de construction, bien que je doive encore réinstaller VS2015, etc. pour éviter de modifier l'environnement d'exécution cible. Je vais voir si je peux mettre à jour le projet ce week-end.

Je me suis rattrapé par d'autres choses, il faudra attendre le week-end prochain.

Fusionné dans #355, merci @nguyenq

J'ai également publié une nouvelle version de nuget 3.2.0-alpha3 et j'envisagerai de faire une version complète au cours du week-end en supposant qu'aucun problème n'est trouvé.

Salut. En regardant sur le site nuget, je vois que la 3.0.2 est toujours la dernière version stable. Une version Tesseract 3.0.5 sera-t-elle disponible ou s'agira-t-il d'un passage direct à la 3.2.0 ?

Hé les gars, j'utilise actuellement la méthode DetectBestOrientation pour m'assurer que chaque page est tournée dans la bonne orientation avant l'OCR, et cela a très bien fonctionné. Dans 3.2.0-alpha3, cela a été commenté en raison du changement de TessBaseAPIDetectOrientationScript.

Existe-t-il un plan pour implémenter un "nouveau" DetectBestOrientation qui utilise TessBaseAPIDetectOrientationScript ?

DetectBestOrientation méthode TessBaseAPIDetectOS , qu'elle utilise était considérée comme dangereuse et donc supprimée par les développeurs de Tesseract. La nouvelle méthode TessBaseAPIDetectOrientationScript été créée à sa place. Il est inclus dans la version .NET mais pas encore exposé dans la classe Page . Un PR vient d'être soumis pour cela.

Merci @nguyenq J'ai fusionné le PR, j'essaierai de le tester demain.

Si quelqu'un pouvait jeter un œil aux méthodes DetectBestOrientationAndScript and co et me faire savoir si elles répondent à vos besoins, ce serait formidable. Si c'est le cas je créerai un nouveau Nuget quand je trouverai un peu de temps.

Merci.

Merci les gars. Je viens d'y jeter un coup d'œil et fait parfaitement l'affaire 🙂 Hâte de le tester quand je serai de retour au bureau !

Si vous pouvez monter un Nuget dans un instant, j'aurai l'occasion de faire quelques tests .. désolé, je n'essaie pas d'être arrogant, je veux juste aider.

Bon, je vais voir ce que je peux faire.

Le samedi 19 août 2017 à 12h59, MattMofDoom [email protected] a écrit :

Si vous pouvez monter un Nuget dans un instant, j'aurai
possibilité de faire des tests .. désolé, je n'essaie pas d'être arrogant, je veux juste
aider.

-
Vous recevez ceci parce que vous avez été affecté.

Répondez directement à cet e-mail, consultez-le sur GitHub
https://github.com/charlesw/tesseract/issues/340#issuecomment-323495733 ,
ou couper le fil
https://github.com/notifications/unsubscribe-auth/AAPzyCouqoxpyK_LCFwnhJ6VL4iU85G4ks5sZk-bgaJpZM4M8v00
.

Désolé pour le retard, le paquet nuget, 3.2.0-alpha4 devrait être disponible maintenant.

Pas de problème du tout - merci beaucoup. Je te dirai comment je vais.

J'ai pu faire des tests avec la 3.2.0-alpha4, et ça a l'air bien... pas de problème pour sauter dessus.

J'essaie d'appeler la nouvelle méthode PixArray.Add(Pix pix, int copyflag) , mais elle continue de lancer des exceptions NonComVisibleBaseClass avec le code suivant ci-dessous. Quelqu'un peut-il jeter un oeil?

var pix = Pix.LoadFromFile(filename);
PixArray pixA = PixArray.Create(0);
pixA.Add(pix, 0); // L_NOCOPY

NonComVisibleBaseClass s'est produit
Message : L'assistant de débogage géré 'NonComVisibleBaseClass' a détecté un problème dans 'C:\PROGRAM FILES (X86)\MICROSOFT VISUAL STUDIO 14.0\COMMON7\IDE\COMMONEXTENSIONS\MICROSOFT\TESTWINDOW\vstest.executionengine.x86.exe'.
Informations supplémentaires : Un appel QueryInterface a été effectué pour demander l'interface de classe de la classe gérée visible COM 'Tesseract.Pix'. Cependant, étant donné que cette classe dérive de la classe non visible COM 'Tesseract.DisposableBase', l'appel QueryInterface échouera. Ceci est fait pour empêcher la classe de base visible non COM d'être contrainte par les règles de gestion de version COM.

@nguyenq J'ai la même erreur - y a-t-il une raison d'utiliser PixArray vs ArrayList composé de Pix ? J'ai fait fonctionner ce dernier et actuellement c'est bien pour moi.

Je vais voir si je peux jeter un œil ce week-end, si le temps le permet.

De mémoire, PixArray n'est vraiment utilisé que pour prendre en charge le chargement de plusieurs pages
tiff si vous pouvez utiliser une autre structure de données comme une listealors je ferais
vous suggère de le faire. Cependant, vous devez vous assurer qu'ils sont éliminés lorsque vous êtes
Fini.

Le jeu. 7 septembre 2017, 08:08 Ryan Leonard [email protected] a écrit :

@nguyenq https://github.com/nguyenq J'ai la même erreur - c'est
y a-t-il une raison d'utiliser PixArray vs ArrayList composé de Pix ? j'ai
ce dernier fonctionne et actuellement c'est bien pour moi.

-
Vous recevez ceci parce que vous avez été affecté.

Répondez directement à cet e-mail, consultez-le sur GitHub
https://github.com/charlesw/tesseract/issues/340#issuecomment-327620665 ,
ou couper le fil
https://github.com/notifications/unsubscribe-auth/AAPzyMqDkMZIW4jI40T4UVPAQE1ujBVKks5sfxH2gaJpZM4M8v00
.

PixArray est le type natif de Leptonica. J'espérais que je pourrais utiliser pour tenir des images non TIFF, avec une utilisation similaire au code décrit dans ProcessMultipageTiff cas de test dans ResultRendererTests classe (pour les besoins et les avantages de la réutilisation du code); sinon, je peux utiliser un code similaire à ProcessFile place. Pas de problème vraiment.

J'ai jeté un coup d'œil et identifié quelques problèmes avec PixArray.Add que j'ai corrigés mais malheureusement localisé d'autres problèmes liés à la gestion de la mémoire. En bref, PixArray devrait être suffisamment sûr à utiliser pour les Tiff multipages, mais l'utilisation d'un simple tableau de pix ne fonctionnera pas pour le moment, utilisez donc vector\arraylist pour le moment. Je vais voir si je peux résoudre les autres problèmes et pousser un correctif quand je pourrai trouver le temps.

La fermeture en tant que Tesseract 3.05 devrait maintenant être prise en charge. Si vous trouvez des bogues avec le wrapper, veuillez déposer de nouveaux problèmes ou mieux encore déposer une pull request avec le correctif :)

Cette page vous a été utile?
0 / 5 - 0 notes