JaniC
2014-01-06, 03:22:41
Hi,
ich muss für eine Diskursanalyse sämtliche Texte aus Obamas erster Legislaturperiode (2009-2012) als .txt Dateien speichern für die weitere Verarbeitung.
Das gibt es alles sauber archiviert hier:
http://www.whitehouse.gov/briefing-room/Speeches-and-Remarks/
Die Links für die Jahre und Monate folgen dem Format:
whitehouse.gov/the-press-office/2012/08/28/remarks-president-tropical-storm-isaac
whitehouse.gov/the-press-office/2013/09/30/statement-president
whitehouse.gov/the-press-office/2013/09/24/remarks-president-obama-and-president-abbas-palestinian-authority-bilate
Also Jahreszahl, Monat, Tag und dann Topic.
Wie man sehen kann, sind das pro Monat bis zu mehreren hundert Links, also eine ganze Menge, wenn man manuell jedes mal drauf klicken müsste und dann alles markieren, einfügen und abspeichern. Das muss auch anders gehen.
Ein Script oder Programm, was automatisch alle Seiten hinter ....the-press-office/2012/*/* saugt und als .txt abspeichert.
Zusätzlich müsste man dann noch alles unnötige rausfiltern, wie Header, Links usw. aber ich glaube dafür gibt es extra Tools, das würde ich dann schon hinbekommen.
Probleme:
- Es sind keine Dateien, sondern Pages.
Downloadmanager (z.B. http://www.downthemall.net/ ), mit denen man z.b. Archive voller PDFs leersaugen könnte, fallen leider raus.
- leider nicht durchnummeriert.
Beim Googlen verschiedene Dinge gefunden, z.b. dies hier:
http://download.cnet.com/Save-Multiple-Web-Sites-As-Text-Files-Software/3000-2381_4-75739208.html
Was aber relativ sinnlos ist, da die Seiten ja nicht durchnummeriert sind und man dann erstmal manuell eine Liste erstellen müsste, kA wie das gehen soll.
Oder diese hier:
http://www.httrack.com/
http://www.outwit.com/products/docs/ (scheint nur für Dateien zu greifen)
Verlange ich da unmögliches? Bin mir ziemlich sicher, dass es dafür Tools gibt.
Danke euch!
ich muss für eine Diskursanalyse sämtliche Texte aus Obamas erster Legislaturperiode (2009-2012) als .txt Dateien speichern für die weitere Verarbeitung.
Das gibt es alles sauber archiviert hier:
http://www.whitehouse.gov/briefing-room/Speeches-and-Remarks/
Die Links für die Jahre und Monate folgen dem Format:
whitehouse.gov/the-press-office/2012/08/28/remarks-president-tropical-storm-isaac
whitehouse.gov/the-press-office/2013/09/30/statement-president
whitehouse.gov/the-press-office/2013/09/24/remarks-president-obama-and-president-abbas-palestinian-authority-bilate
Also Jahreszahl, Monat, Tag und dann Topic.
Wie man sehen kann, sind das pro Monat bis zu mehreren hundert Links, also eine ganze Menge, wenn man manuell jedes mal drauf klicken müsste und dann alles markieren, einfügen und abspeichern. Das muss auch anders gehen.
Ein Script oder Programm, was automatisch alle Seiten hinter ....the-press-office/2012/*/* saugt und als .txt abspeichert.
Zusätzlich müsste man dann noch alles unnötige rausfiltern, wie Header, Links usw. aber ich glaube dafür gibt es extra Tools, das würde ich dann schon hinbekommen.
Probleme:
- Es sind keine Dateien, sondern Pages.
Downloadmanager (z.B. http://www.downthemall.net/ ), mit denen man z.b. Archive voller PDFs leersaugen könnte, fallen leider raus.
- leider nicht durchnummeriert.
Beim Googlen verschiedene Dinge gefunden, z.b. dies hier:
http://download.cnet.com/Save-Multiple-Web-Sites-As-Text-Files-Software/3000-2381_4-75739208.html
Was aber relativ sinnlos ist, da die Seiten ja nicht durchnummeriert sind und man dann erstmal manuell eine Liste erstellen müsste, kA wie das gehen soll.
Oder diese hier:
http://www.httrack.com/
http://www.outwit.com/products/docs/ (scheint nur für Dateien zu greifen)
Verlange ich da unmögliches? Bin mir ziemlich sicher, dass es dafür Tools gibt.
Danke euch!