PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Tesseract OCR


Avalox
2012-08-30, 20:13:24
Bei Heise Online ist ein Artikel zu Tesseract Online gestellt.

Die OCR Software erreicht ausgezeichnete Ergebnisse bei Texterkennung und der Artikel
ist sicher lesenswert.

http://www.heise.de/open/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html

lumines
2012-08-31, 18:10:51
Ist das mittlerweile brauchbar? Vor ein oder zwei Jahren war es mir nicht einmal möglich gescreenshotete PDFs (Helvetica) halbwegs umzuwandeln und ich kenne einige, welche ähnliche Erfahrungen gemacht haben. Wäre natürlich wünschenswert, dass es nicht mehr ganz so schlimm ist, aber Tesseract ist mir nicht besonders gut im Gedächtnis geblieben.

Damals hat man auch schon behauptet es sei so klasse, aber nun ja, das war es ganz offensichtlich nicht.

Avalox
2012-09-01, 00:24:30
Damals hat man auch schon behauptet es sei so klasse, aber nun ja, das war es ganz offensichtlich nicht.


Ich habe es mal in der im Artikel erwähnten Konstellation probiert. Das war ganz ordentlich. Wichtig ist, dass es für Fraktura Schriften ein eigenes Erkennungsmodul gibt.

Google hat ja wohl mächtig in Tesseract investiert und es vor einiger Zeit runderneuert. Es ist seitdem auch die Grundlage für die Indizierung der Textsuche in den Google Books.