Hunderte Archivseiten auf Website automatisiert als .txt speichern [Archiv]

PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Hunderte Archivseiten auf Website automatisiert als .txt speichern

JaniC

2014-01-06, 03:22:41

Hi,

ich muss für eine Diskursanalyse sämtliche Texte aus Obamas erster Legislaturperiode (2009-2012) als .txt Dateien speichern für die weitere Verarbeitung.

Das gibt es alles sauber archiviert hier:

http://www.whitehouse.gov/briefing-room/Speeches-and-Remarks/

Die Links für die Jahre und Monate folgen dem Format:

whitehouse.gov/the-press-office/2012/08/28/remarks-president-tropical-storm-isaac
whitehouse.gov/the-press-office/2013/09/30/statement-president
whitehouse.gov/the-press-office/2013/09/24/remarks-president-obama-and-president-abbas-palestinian-authority-bilate

Also Jahreszahl, Monat, Tag und dann Topic.

Wie man sehen kann, sind das pro Monat bis zu mehreren hundert Links, also eine ganze Menge, wenn man manuell jedes mal drauf klicken müsste und dann alles markieren, einfügen und abspeichern. Das muss auch anders gehen.

Ein Script oder Programm, was automatisch alle Seiten hinter ....the-press-office/2012/*/* saugt und als .txt abspeichert.

Zusätzlich müsste man dann noch alles unnötige rausfiltern, wie Header, Links usw. aber ich glaube dafür gibt es extra Tools, das würde ich dann schon hinbekommen.

Probleme:

- Es sind keine Dateien, sondern Pages.
Downloadmanager (z.B. http://www.downthemall.net/ ), mit denen man z.b. Archive voller PDFs leersaugen könnte, fallen leider raus.

- leider nicht durchnummeriert.

Beim Googlen verschiedene Dinge gefunden, z.b. dies hier:

http://download.cnet.com/Save-Multiple-Web-Sites-As-Text-Files-Software/3000-2381_4-75739208.html

Was aber relativ sinnlos ist, da die Seiten ja nicht durchnummeriert sind und man dann erstmal manuell eine Liste erstellen müsste, kA wie das gehen soll.

Oder diese hier:
http://www.httrack.com/
http://www.outwit.com/products/docs/ (scheint nur für Dateien zu greifen)

Verlange ich da unmögliches? Bin mir ziemlich sicher, dass es dafür Tools gibt.

Danke euch!

universaL

2014-01-06, 10:36:15

Kein Plan ob es dafür tools gibt, habs aber kurz in Ruby programmiert: Brauchte eine nette Kleinigkeit um ins neue "Programmierjahr" zu kommen, da kam dein Problem gerade recht :-)

https://github.com/universal/speech_scraper

Ich weiss nicht ob es unter Windows funktioniert, unter Linux/Os X sollte es problemlos laufen nach Installation von Ruby 2.0.0 :-)

Ich lasse es nun mal durchlaufen, dauert ein wenig, da ich keine Lust hatte Threads einzubauen :-) Wenn es dann irgendwann fertig is, lad ich die Files gerne irgendwo hoch :-)

Update:
Seite: 47 / ~ 250 done.

universaL

2014-01-06, 13:53:25

und fertig:

https://www.dropbox.com/s/hq0pivde36myzxw/speeches.zip

da ist schon ein großteil des unnötigen htmls entfernt, aber ein paar sachen sind doch noch drinnen :-)

JaniC

2014-01-07, 01:49:59

:eek::eek::eek:

Du bist mein Held!
Ich war so kurz davor in den sauren Apfel zu beißen und das per Hand zu machen.

Jetzt habe ich hier 2383 Dateien in No Time (bis auf den Forenpost).
Sie kamen als Dateien ohne Dateiendung an, aber per Shift+Rechtsklick auf den Ordner und dann Eingabeaufforderung "ren *.* *.txt" habe ich jetzt alle als .txt Dateien vorliegen.

Traumhaft, tausend Dank! :love3:

Jetzt noch den html Kram da rausfiltern, mal im Institut fragen oder irgendwas finden, was alles, was in < > steht rausfiltert.

Es könnte sein, dass ich das gleiche nochmal für http://www.whitehouse.gov/briefing-room/statements-and-releases brauche (das sind dann 725 Pages (http://www.whitehouse.gov/briefing-room/statements-and-releases?page=725)), aber dann frage ich nochmal. Da ich hier nur Windows habe, befürchte ich, dass es bei mir nicht läuft.
Aber ich frage erstmal. Ich glaube so ist das schon perfekt! :crazy::massa:

universaL

2014-01-07, 10:30:12

rechnung kommt ;-) freut mich das ich helfen konnte, und alles für die wissenschaft ;-)

alkorithmus

2014-01-07, 23:21:47

Ich danke auch mal. :D

JaniC

2014-01-09, 02:50:14

Könnte sein, dass ich das noch öfter machen muss, bzw auf archivierten Seiten der Bush und Clinton Administration.
Also meinst du, das läuft unter Windows?

universaL

2014-01-09, 13:24:26

Könnte sein, dass ich das noch öfter machen muss, bzw auf archivierten Seiten der Bush und Clinton Administration.
Also meinst du, das läuft unter Windows?

Moin,

hab nochmal geschaut wegen den Abhängigkeiten, sollte eigentlich keine Probleme geben.

Zur Benutzung:

1. Ruby 2.0.0 installieren
2. Code herunterladen
3. Terminal öffnen und zum Code navigieren
4. bundle eintippen (installiert die Abhängigkeiten)
4,5. URLS / Offsets anpassen.
5. ruby speech_scraper.rb(wenn ich mich recht erinnere) eintippen
6. P R O F I T ;-)

Falls sonst noch Fragen / Probleme sind, schreib ruhig hier rein :-)

Gast

2014-01-09, 13:41:49

bis du von NSA oder warum willst du alles speichern?

alkorithmus

2014-01-09, 13:55:56

Ich, für meine Teil, erstelle daraus eine Visualisierung mit Processing. Evtl irgendwas mit dem Makerbot *yay*

universaL

2014-01-09, 14:11:57

vielleicht auch interessant: https://github.com/dwillis/hulse

Hulse is a Ruby gem for accessing House and Senate roll call votes from the official sources on house.gov and senate.gov.

universaL

2014-01-09, 14:12:23

bis du von NSA oder warum willst du alles speichern?

dann hätte er schon längst alles gespeichert :p