Testdaten im PDF/A Format [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : Testdaten im PDF/A Format

Joe

2017-11-29, 18:40:43

Ich bin auf der Suche nach frei verfügbaren Daten, so 2-3 Millionen Dokumente, am Besten wild gemischt mit Text, Grafiken evtl nur "Bild" wo eine OCR gegen laufen kann.

Gibts so was frei verfügbar?
Ich bin etwas verwöhnt vom MS SQL Server, für den man gut größere Datenbanken findet.

Monger

2017-11-29, 18:53:18

Mein erster Gedanke: Wissenschaftliche Publikationen? Patentmeldungen? Historische Dokumente?
Die andere Frage ist natürlich, hat z.B. ein Patentamt eine gescheite API damit du mal Datensätze im großen Stil ernten kannst?
NASA hat meines Wissens auch ein großes Archiv an historischen Dokumenten. Sollte alles Public Domain sein, aber bevor du deren Server zum Rauchen bringst, frag evtl. mal nett bei denen nach.

Joe

2017-11-29, 19:18:26

Ich hab jetzt mal zur Gaudi kleines Script geschrieben, dass den gesamten hp.com FTP Server nach PDF absucht und die runterläd. Mal schaun was da so an Ertrag bei rumkommt.

Ben Carter

2017-11-29, 19:38:56

Darf ich fragen, welche OCR du verwendest? Denn bei denen, die ich kenne, macht es schon mal einen Riesenunterschied ob Scan oder rein digitales PDF und für ein paar Millionen Seiten würde das dann auch eine ganze Weile dauern.

Joe

2017-11-29, 20:17:35

OmniPage

/edit

Bisher 1400 Dateien gezogen :ubeer:
Bin mal gespannt, wies morgen aussieht oder ob der schwarze Helikopter heute Nacht noch kommt.

EPIC_FAIL

2017-11-29, 20:27:11

Wie wärs mit WikiLeaks, wenn du davon alles ziehst stehst du natürlich auf einer Liste :freak:

Joe

2017-11-29, 20:37:27

Oh ja Wikileaks ist super, weil da so viel gescannter Schrott in schlechter Quali rumliegt. Danke für den Tipp!

konkretor

2017-11-29, 20:44:55

wie wäre es mit hier https://www.pdf-archive.com/2017/ da fleucht und kreucht es nur so :P

Joe

2017-11-30, 20:37:18

So, grad Maschine angeglotzt...

https://i.imgur.com/MzhdzoQ.png

https://memegenerator.net/img/instances/400x/65857289.jpg