Archiv verlassen und diese Seite im Standarddesign anzeigen : Testdaten im PDF/A Format
Ich bin auf der Suche nach frei verfügbaren Daten, so 2-3 Millionen Dokumente, am Besten wild gemischt mit Text, Grafiken evtl nur "Bild" wo eine OCR gegen laufen kann.
Gibts so was frei verfügbar?
Ich bin etwas verwöhnt vom MS SQL Server, für den man gut größere Datenbanken findet.
Monger
2017-11-29, 18:53:18
Mein erster Gedanke: Wissenschaftliche Publikationen? Patentmeldungen? Historische Dokumente?
Die andere Frage ist natürlich, hat z.B. ein Patentamt eine gescheite API damit du mal Datensätze im großen Stil ernten kannst?
NASA hat meines Wissens auch ein großes Archiv an historischen Dokumenten. Sollte alles Public Domain sein, aber bevor du deren Server zum Rauchen bringst, frag evtl. mal nett bei denen nach.
Ich hab jetzt mal zur Gaudi kleines Script geschrieben, dass den gesamten hp.com FTP Server nach PDF absucht und die runterläd. Mal schaun was da so an Ertrag bei rumkommt.
Ben Carter
2017-11-29, 19:38:56
Darf ich fragen, welche OCR du verwendest? Denn bei denen, die ich kenne, macht es schon mal einen Riesenunterschied ob Scan oder rein digitales PDF und für ein paar Millionen Seiten würde das dann auch eine ganze Weile dauern.
OmniPage
/edit
Bisher 1400 Dateien gezogen :ubeer:
Bin mal gespannt, wies morgen aussieht oder ob der schwarze Helikopter heute Nacht noch kommt.
EPIC_FAIL
2017-11-29, 20:27:11
Wie wärs mit WikiLeaks, wenn du davon alles ziehst stehst du natürlich auf einer Liste :freak:
Oh ja Wikileaks ist super, weil da so viel gescannter Schrott in schlechter Quali rumliegt. Danke für den Tipp!
konkretor
2017-11-29, 20:44:55
wie wäre es mit hier https://www.pdf-archive.com/2017/ da fleucht und kreucht es nur so :P
So, grad Maschine angeglotzt...
https://i.imgur.com/MzhdzoQ.png
https://memegenerator.net/img/instances/400x/65857289.jpg
vBulletin®, Copyright ©2000-2024, Jelsoft Enterprises Ltd.