Download einer kompletten Seite [Archiv]

cromsche

2008-01-14, 10:49:36

Hallo,

ich versuche gerade unter Linux http://www.partnerschaft-beziehung.de/ mittels wget herunterzuladen. Leider ist die Seite sehr resistent dagegen. Es handelt sich um ein Web Archive. Diverse Optionen bei wget haben auch nichts gebracht. Habt ihr eine Idee wie ich runterladen kann, ohne alle Links manuell zu speichern. Ich brauch die komplette Seite einfach auf meinem Laptop.

gentoo

2008-01-14, 11:19:14

Kann es vielleicht Firefox mit "Datei -> Seite speichern unter" ?

lg,
gentoo

cromsche

2008-01-14, 12:12:01

Kann es vielleicht Firefox mit "Datei -> Seite speichern unter" ?

lg,
gentoo

Das habe ich auch schon probiert. Es lädt nur die erste Seite und das war es. Wenn man auf einen Link klickt, dann wird zur Interseite verbunden.

klutob

2008-01-14, 12:17:37

HTTrack (http://www.httrack.com/html/index.html) ist dafür das ausgereifteste Tool, wenn man kein Konsolengott ist. Wird eigentlich in fast jeder Distro im Repository vorgehalten. :)

Der bei dieser Seite in der "robots.txt" das Sichern verboten wurde, müssen folgende Einstellungen in "webhhtrack" gemacht werden um die Seite zu sichern.

Einstellungen--/Spider--/:
x Cookies annehmen
Dokumenttyp prüfen
x nie

x JAVA-Dateien analysieren
Regeln in robots.txt folgen
x nie

x Aktualisierungstrick (Re-Transfers begrenzen)
x URL hacks (join similar URLs)
x Tolerante Anfragen (für Server)

cromsche

2008-01-14, 14:51:46

Das probiere ich mal aus. Ich hatte schon gemerkt, dass es an der robots.txt liegt, aber die -e robots=off funktion bei wget hat nicht geholfen.

cromsche

2008-01-14, 15:07:18

@klutob: kannst du das mal bei dir probieren? mit den einstellungen klappt es nicht bei mir.

15:12:17 Error: "Forbidden" (403) at link www.partnerschaft-beziehung.de/ (from primary/primary)

ESAD

2008-01-23, 02:45:24

ich bin mal so nett (eine gute tat am tag gg) die seite überprüft was für eine information der downloader über seinen browser schickt und blockt es wenn wget anfragt weil (ehrlich wie es ist) es sich standardmäßig auch als wget ausgibt kann man aber ändern mit -U (die sonstigen kommandos sind auch gut also drin lassen die erklärungen kannst dir bei den manpages zu wget suchen)

man schreibe also:
wget -r -k -N -e robots=off -U lynx http://www.partnerschaft-beziehung.de

cromsche

2008-01-23, 14:26:24

ich bin mal so nett (eine gute tat am tag gg) die seite überprüft was für eine information der downloader über seinen browser schickt und blockt es wenn wget anfragt weil (ehrlich wie es ist) es sich standardmäßig auch als wget ausgibt kann man aber ändern mit -U (die sonstigen kommandos sind auch gut also drin lassen die erklärungen kannst dir bei den manpages zu wget suchen)

man schreibe also:
wget -r -k -N -e robots=off -U lynx http://www.partnerschaft-beziehung.de

Danke für den Tipp. die vorderen optionen hatte ich auch so. Aber auf -U wäre ich nie gekommen. Habe ja nicht mal gewusst, dass es das gibt.

HarryHirsch

2008-01-23, 15:35:45

ist zwar schon geklärt aber mit dem ScrapBook plugin für Firefox ist es glaub ich am einfachsten