Tesseract: Compatibilidad con Tesseract 3.05

Creado en 13 abr. 2017  ·  25Comentarios  ·  Fuente: charlesw/tesseract

Tesseract 3.05 ha estado disponible durante un par de meses. ¿Lanzará una versión compatible? Gracias.

enhancement

Todos 25 comentarios

¡Yo también, agradecería mucho que esto sucediera!

¡Jeje, ni siquiera me di cuenta de que estaba fuera!

En 3.05, había un nuevo método en la interfaz c-api: TessBaseAPIDetectOrientationScript .

Escribí un pequeño programa para detectar la orientación de la página. En su forma actual, solo intenta averiguar si la página está al revés, pero podría cambiar fácilmente el código para detectar otras orientaciones. Lo que hace es OCR una parte del texto, luego gira la página 180 grados y luego a la misma. El mejor resultado decide entonces la orientación de la página.

https://github.com/Sicos1977/PageOrientationEngine

Se ha lanzado Tesseract 3.05.01. Hubo cambios menores en la interfaz c-api.

https://github.com/tesseract-ocr/tesseract/releases

Gracias por hacérmelo saber. Según https://github.com/tesseract-ocr/tesseract/wiki/Compiling#windows , parece que tesseract ha mejorado su proceso de compilación, aunque todavía tendré que reinstalar VS2015, etc. para evitar cambiar el tiempo de ejecución de destino. Veré si puedo actualizar el proyecto este fin de semana.

Me puse al día con otras cosas, tendré que esperar hasta el próximo fin de semana.

Fusionado en # 355, gracias @nguyenq

También publiqué una nueva versión de nuget 3.2.0-alpha3 y buscaré hacer una versión completa durante el fin de semana suponiendo que no se encuentren problemas.

Hola. Mirando el sitio nuget, veo que 3.0.2 sigue siendo la última versión estable. ¿Estará disponible una versión de Tesseract 3.0.5 o será un movimiento directo a la 3.2.0?

Hola, chicos, actualmente utilizo el método DetectBestOrientation para asegurarme de que cada página gire a la orientación correcta antes del OCR, y ha funcionado muy bien. En 3.2.0-alpha3, esto se ha comentado debido al cambio de TessBaseAPIDetectOrientationScript.

¿Existe algún plan para implementar un "nuevo" DetectBestOrientation que utilice TessBaseAPIDetectOrientationScript?

DetectBestOrientation método TessBaseAPIDetectOS , que utiliza se consideró inseguro y, por lo tanto, los desarrolladores de Tesseract lo eliminaron. En su lugar, se creó el nuevo método TessBaseAPIDetectOrientationScript . Se incluye en la versión .NET pero aún no se expone en la clase Page . Se acaba de enviar un RP para esto.

Gracias @nguyenq . He fusionado el PR, intentaré probarlo mañana.

Si alguien pudiera echar un vistazo a los métodos DetectBestOrientationAndScript y co y avíseme si cumplen con sus requisitos, sería genial. Si es así, crearé un nuevo Nuget cuando tenga un poco de tiempo.

Gracias.

Gracias chicos. Acabo de echarle un vistazo y definitivamente encaja a la perfección 🙂 ¡Espero probarlo cuando vuelva a la oficina!

Si puedes armar un Nuget en el próximo rato, tendré la oportunidad de hacer algunas pruebas ... lo siento, no intento ser agresivo, solo quiero ayudar.

Está bien, veré qué puedo hacer.

El sábado 19 de agosto de 2017 a las 12:59 MattMofDoom [email protected] escribió:

Si puedes armar un Nuget en el próximo rato, tendré
oportunidad de hacer algunas pruebas ... lo siento, no intento ser agresivo, solo quiero
para ayudar.

-
Está recibiendo esto porque fue asignado.

Responda a este correo electrónico directamente, véalo en GitHub
https://github.com/charlesw/tesseract/issues/340#issuecomment-323495733 ,
o silenciar el hilo
https://github.com/notifications/unsubscribe-auth/AAPzyCouqoxpyK_LCFwnhJ6VL4iU85G4ks5sZk-bgaJpZM4M8v00
.

Perdón por la demora, el paquete nuget, 3.2.0-alpha4 debería estar listo ahora.

No hay problema en absoluto, muchas gracias. Te haré saber cómo voy.

Pude hacer algunas pruebas con 3.2.0-alpha4, y se ve bien ... no hay problemas para saltar.

Estoy tratando de llamar al nuevo método PixArray.Add(Pix pix, int copyflag) , pero sigue lanzando excepciones NonComVisibleBaseClass con el siguiente código a continuación. ¿Alguien puede echar un vistazo?

var pix = Pix.LoadFromFile(filename);
PixArray pixA = PixArray.Create(0);
pixA.Add(pix, 0); // L_NOCOPY

Se produjo NonComVisibleBaseClass
Mensaje: Managed Debugging Assistant 'NonComVisibleBaseClass' ha detectado un problema en 'C: \ PROGRAM FILES (X86) \ MICROSOFT VISUAL STUDIO 14.0 \ COMMON7 \ IDE \ COMMONEXTENSIONS \ MICROSOFT \ TESTWINDOW \ vstest.executionengine.x86.exe'.
Información adicional: Se realizó una llamada a QueryInterface solicitando la interfaz de clase de la clase administrada visible COM 'Tesseract.Pix'. Sin embargo, dado que esta clase se deriva de la clase no visible de COM 'Tesseract.DisposableBase', la llamada a QueryInterface fallará. Esto se hace para evitar que la clase base no visible COM esté restringida por las reglas de control de versiones COM.

@nguyenq Tengo el mismo error: ¿hay alguna razón para usar PixArray vs ArrayList compuesto por Pix? Tengo este último para trabajar y actualmente eso está bien para mí.

Veré si puedo echar un vistazo durante el fin de semana, si el tiempo lo permite.

Desde la memoria, PixArray solo se usa para admitir la carga de varias páginas
tiff si puede usar otra estructura de datos como una listaentonces yo
sugiero que lo haga. Sin embargo, debe asegurarse de que se eliminen cuando esté
hecho.

El jueves 7 de septiembre de 2017 a las 08:08, Ryan Leonard [email protected] escribió:

@nguyenq https://github.com/nguyenq Tengo el mismo error: es
¿Hay alguna razón para usar PixArray vs ArrayList compuesto por Pix? tengo
este último para trabajar y actualmente eso está bien para mí.

-
Está recibiendo esto porque fue asignado.

Responda a este correo electrónico directamente, véalo en GitHub
https://github.com/charlesw/tesseract/issues/340#issuecomment-327620665 ,
o silenciar el hilo
https://github.com/notifications/unsubscribe-auth/AAPzyMqDkMZIW4jI40T4UVPAQE1ujBVKks5sfxH2gaJpZM4M8v00
.

PixArray es el tipo nativo de Leptonica. Esperaba poder utilizarlo para la celebración de las imágenes no TIFF, con un uso similar al código indicado en ProcessMultipageTiff caso de prueba en ResultRendererTests clase (a los efectos y beneficios de la reutilización de código); de lo contrario, puedo usar un código similar a ProcessFile lugar. Realmente no hay problema.

Eché un vistazo e identifiqué algunos problemas con PixArray. Agregue los que he solucionado, pero desafortunadamente encontré algunos otros problemas relacionados con la administración de memoria. En resumen, PixArray debería ser lo suficientemente seguro para usar con Tiff de varias páginas; sin embargo, el uso de una matriz de pix no funcionará en este momento, así que use vector \ arraylist por ahora. Veré si puedo resolver los otros problemas y presionar una solución cuando tenga tiempo.

El cierre como Tesseract 3.05 ahora debería ser compatible. Si encuentra algún error con el contenedor, presente nuevos problemas o, mejor aún, presente una solicitud de extracción con la solución :)

¿Fue útil esta página
0 / 5 - 0 calificaciones