PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Testdaten im PDF/A Format


Joe
2017-11-29, 18:40:43
Ich bin auf der Suche nach frei verfügbaren Daten, so 2-3 Millionen Dokumente, am Besten wild gemischt mit Text, Grafiken evtl nur "Bild" wo eine OCR gegen laufen kann.

Gibts so was frei verfügbar?
Ich bin etwas verwöhnt vom MS SQL Server, für den man gut größere Datenbanken findet.

Monger
2017-11-29, 18:53:18
Mein erster Gedanke: Wissenschaftliche Publikationen? Patentmeldungen? Historische Dokumente?
Die andere Frage ist natürlich, hat z.B. ein Patentamt eine gescheite API damit du mal Datensätze im großen Stil ernten kannst?
NASA hat meines Wissens auch ein großes Archiv an historischen Dokumenten. Sollte alles Public Domain sein, aber bevor du deren Server zum Rauchen bringst, frag evtl. mal nett bei denen nach.

Joe
2017-11-29, 19:18:26
Ich hab jetzt mal zur Gaudi kleines Script geschrieben, dass den gesamten hp.com FTP Server nach PDF absucht und die runterläd. Mal schaun was da so an Ertrag bei rumkommt.

Ben Carter
2017-11-29, 19:38:56
Darf ich fragen, welche OCR du verwendest? Denn bei denen, die ich kenne, macht es schon mal einen Riesenunterschied ob Scan oder rein digitales PDF und für ein paar Millionen Seiten würde das dann auch eine ganze Weile dauern.

Joe
2017-11-29, 20:17:35
OmniPage

/edit

Bisher 1400 Dateien gezogen :ubeer:
Bin mal gespannt, wies morgen aussieht oder ob der schwarze Helikopter heute Nacht noch kommt.

EPIC_FAIL
2017-11-29, 20:27:11
Wie wärs mit WikiLeaks, wenn du davon alles ziehst stehst du natürlich auf einer Liste :freak:

Joe
2017-11-29, 20:37:27
Oh ja Wikileaks ist super, weil da so viel gescannter Schrott in schlechter Quali rumliegt. Danke für den Tipp!

konkretor
2017-11-29, 20:44:55
wie wäre es mit hier https://www.pdf-archive.com/2017/ da fleucht und kreucht es nur so :P

Joe
2017-11-30, 20:37:18
So, grad Maschine angeglotzt...

https://i.imgur.com/MzhdzoQ.png

https://memegenerator.net/img/instances/400x/65857289.jpg