Website: Download komplett - wie?

Dieses Thema im Forum "Software" wurde erstellt von nanoloop, 18. September 2003.

  1. nanoloop

    nanoloop Active Member

    Was ich möchte:
    Website komplett herunterladen.

    Was ich hab:
    Zig DownloadTools (SiteSucker, PageSucker, WebGrabber, WebDumperX) die nur einen Teil der Webseite herunterladen, egal welche Tiefe/deepth ich einstelle. Wenn ich die ausgesparten Teilseiten direkt ansteuere werden sie allerdings geladen.

    Meine Frage:
    Funktioniert überhaupt das komplette Herunterladen einer Seite oder kann der Programmierer Barrieren einbauen?
    Klar ist mir, daß gewisse Teile eine Authentifizierung benötigen.

    nano
     
  2. Kate

    Kate New Member

    Kommt darauf an, manche Inhalte werden dynamisch per Skript erzeugt (PHP, SQL) dann kann so ein Programm die Seite nicht finden.
    SiteSucker gibt es leicht verbessert und kann jetzt auch besser mit PHP umgehen.
    Dennoch, manche Sites lassen sich nicht so einfach downloaden, da die Inhalte eben aus einer Datenbank oder per Skript generiert werden.
     
  3. MacELCH

    MacELCH New Member

    Mozilla >1.4, Save As, Complete Webpage
     
  4. nanoloop

    nanoloop Active Member

    Danke.

    @MacELCH
    Nö du.
    Mozilla macht das auch nicht.
    Zumindest die 1.5b Version kommt auch nur bis zur obersten Ebene.

    Tatsächlich konnte ich die Teile der Seite, die nicht direkt heruntergeladen wurden - in der Statusleiste stand dann schön "Skript framesaendern (0......)" - laden, indem ich den dort letzten Teil manuell zur URL im Downloadprogramm ergänzt habe.
    Lässt sich so jedes Skript aushebeln oder ist das nur nachlässig geschrieben?

    nano
     
  5. Kate

    Kate New Member

    Nur "einfache" Skripte haben einen direkten Link eingebettet.

    Das mit den Skripten und Datenbanken wird aber auch u.a. genau deshalb gemacht, damit man nicht alles einfach "einsacken" kann. ;-)
     
  6. kawi

    kawi Revolution 666

    Page Sucker
    PageSucker is a small utility that allows entire Web page hierarchies to be downloaded automatically. The pages will thereby be modified in such a way that they can then beviewed off-line.
    => http://versiontracker.com/dyn/moreinfo/macosx/13307

    Site Sucker
    SiteSucker is a Macintosh application that automatically downloads web sites from the Internet. It does this by copying the site's HTML documents, images, backgrounds, movies, and other files to your local hard drive. Just enter a URL and click a button and SiteSucker can download an entire web site.
    => http://versiontracker.com/dyn/moreinfo/macosx/18919

    (ob das auch andere hirachien unterstützt weiß0 ich nicht)
     
  7. nanoloop

    nanoloop Active Member

    @kawi
    Nö du.
    Wie geschrieben hab' ich auch diese beiden getestet.
    Eigentlich bleiben alle auf der gleichen Ebene hängen.
    Nur eines war so nett mir gleich ein File "robots.txt" mitzuliefern, in dem steht schön aufgelistet
    "Disallow: /xyz/......".

    @Kate
    ..... ;-)

    (^_^)
    Nö du.
    "Einsacken" ist auch garnicht meine Absicht.

    Was mich als Ahnungslosen schon wundert ist, daß das "komplette" Herunterladen überhaupt möglich ist.
    Beim Herunterladen "hintenrum" (s.o.) war auch ein absolut unzugänglicher Bereich (so ein nettes Authentifizierungsfenster).
    Wieso macht man das nicht für die oberste Ebene oder ging es da um so eine Art Administratorzugriff?
    Und ich glaube mich auch an Seiten erinnern zu können, bei denen das "Bildchen-auf-den-Desktop-zieh-Ding" nicht funktioniert, das Bildchen schön immer zurückpoppt.
    Wieso machen Page-Designer das nicht generell so oder war/ist das Browser abhängig?

    nano
     
  8. Kate

    Kate New Member

    Sobald man ein index -File hat, das öffentlich sein muss, muss auch das Verzeichnis öffentlich sein. Mehr allerdings nicht. Der Rest kann geskriptet werden.

    Wenn man sich den Quellcode ansieht (reines html) dann kann man schon mal noch "verborgenes" sehen.

    Sicher, man kann auch eine Site direkt blocken und alles über Passwortabfragen regeln, nur wer kommt dann und guckt?

    Sobald mal was auf einem fremden Rechner ist, ist es auch dort. Will sagen, wenn du D&D blockierst ist das doch doof, denn du kannst immer noch einen Screenshot machen. Nagut, es ist lästig, und manchmal ist der Schirm zu klein oder so, aber das ist doch was für Doofies.

    Wenn man als Designer schützen will, dann kann man eine verkleinerte Version öffentlich machen, jedoch "wirkt" die nicht immer so wie das Original. Tja, Kompromisse.
     
  9. nanoloop

    nanoloop Active Member

    Was ich möchte:
    Website komplett herunterladen.

    Was ich hab:
    Zig DownloadTools (SiteSucker, PageSucker, WebGrabber, WebDumperX) die nur einen Teil der Webseite herunterladen, egal welche Tiefe/deepth ich einstelle. Wenn ich die ausgesparten Teilseiten direkt ansteuere werden sie allerdings geladen.

    Meine Frage:
    Funktioniert überhaupt das komplette Herunterladen einer Seite oder kann der Programmierer Barrieren einbauen?
    Klar ist mir, daß gewisse Teile eine Authentifizierung benötigen.

    nano
     
  10. Kate

    Kate New Member

    Kommt darauf an, manche Inhalte werden dynamisch per Skript erzeugt (PHP, SQL) dann kann so ein Programm die Seite nicht finden.
    SiteSucker gibt es leicht verbessert und kann jetzt auch besser mit PHP umgehen.
    Dennoch, manche Sites lassen sich nicht so einfach downloaden, da die Inhalte eben aus einer Datenbank oder per Skript generiert werden.
     
  11. MacELCH

    MacELCH New Member

    Mozilla >1.4, Save As, Complete Webpage
     
  12. nanoloop

    nanoloop Active Member

    Danke.

    @MacELCH
    Nö du.
    Mozilla macht das auch nicht.
    Zumindest die 1.5b Version kommt auch nur bis zur obersten Ebene.

    Tatsächlich konnte ich die Teile der Seite, die nicht direkt heruntergeladen wurden - in der Statusleiste stand dann schön "Skript framesaendern (0......)" - laden, indem ich den dort letzten Teil manuell zur URL im Downloadprogramm ergänzt habe.
    Lässt sich so jedes Skript aushebeln oder ist das nur nachlässig geschrieben?

    nano
     
  13. Kate

    Kate New Member

    Nur "einfache" Skripte haben einen direkten Link eingebettet.

    Das mit den Skripten und Datenbanken wird aber auch u.a. genau deshalb gemacht, damit man nicht alles einfach "einsacken" kann. ;-)
     
  14. kawi

    kawi Revolution 666

    Page Sucker
    PageSucker is a small utility that allows entire Web page hierarchies to be downloaded automatically. The pages will thereby be modified in such a way that they can then beviewed off-line.
    => http://versiontracker.com/dyn/moreinfo/macosx/13307

    Site Sucker
    SiteSucker is a Macintosh application that automatically downloads web sites from the Internet. It does this by copying the site's HTML documents, images, backgrounds, movies, and other files to your local hard drive. Just enter a URL and click a button and SiteSucker can download an entire web site.
    => http://versiontracker.com/dyn/moreinfo/macosx/18919

    (ob das auch andere hirachien unterstützt weiß0 ich nicht)
     
  15. nanoloop

    nanoloop Active Member

    @kawi
    Nö du.
    Wie geschrieben hab' ich auch diese beiden getestet.
    Eigentlich bleiben alle auf der gleichen Ebene hängen.
    Nur eines war so nett mir gleich ein File "robots.txt" mitzuliefern, in dem steht schön aufgelistet
    "Disallow: /xyz/......".

    @Kate
    ..... ;-)

    (^_^)
    Nö du.
    "Einsacken" ist auch garnicht meine Absicht.

    Was mich als Ahnungslosen schon wundert ist, daß das "komplette" Herunterladen überhaupt möglich ist.
    Beim Herunterladen "hintenrum" (s.o.) war auch ein absolut unzugänglicher Bereich (so ein nettes Authentifizierungsfenster).
    Wieso macht man das nicht für die oberste Ebene oder ging es da um so eine Art Administratorzugriff?
    Und ich glaube mich auch an Seiten erinnern zu können, bei denen das "Bildchen-auf-den-Desktop-zieh-Ding" nicht funktioniert, das Bildchen schön immer zurückpoppt.
    Wieso machen Page-Designer das nicht generell so oder war/ist das Browser abhängig?

    nano
     
  16. Kate

    Kate New Member

    Sobald man ein index -File hat, das öffentlich sein muss, muss auch das Verzeichnis öffentlich sein. Mehr allerdings nicht. Der Rest kann geskriptet werden.

    Wenn man sich den Quellcode ansieht (reines html) dann kann man schon mal noch "verborgenes" sehen.

    Sicher, man kann auch eine Site direkt blocken und alles über Passwortabfragen regeln, nur wer kommt dann und guckt?

    Sobald mal was auf einem fremden Rechner ist, ist es auch dort. Will sagen, wenn du D&D blockierst ist das doch doof, denn du kannst immer noch einen Screenshot machen. Nagut, es ist lästig, und manchmal ist der Schirm zu klein oder so, aber das ist doch was für Doofies.

    Wenn man als Designer schützen will, dann kann man eine verkleinerte Version öffentlich machen, jedoch "wirkt" die nicht immer so wie das Original. Tja, Kompromisse.
     
  17. atimme

    atimme New Member

    Internet Explorer 5:
    Speichern unter: Format: Webarchiv
    speichert komplette Webseiten und sogar mehrere Ebenen der Links.
     
  18. Zerwi

    Zerwi Wiederhergestellt

    Mit PageSucker geht es wunderbar, jedoch brauchst Du den Registriercode dafür, um die komplette Funktionalität zu nutzen. Eventuell liegt es daran, daß Du nur den "Try"-Modus nutzt.
     

Diese Seite empfehlen