Möchten Sie einige Webseiten archivieren, um sie später auf einem beliebigen Gerät lesen zu können?  Die Antwort ist, diese Websites mit Wget in PDF umzuwandeln.

So konvertieren Sie mehrere Webseiten mit Wget in PDF-Dateien

Werbung Es gibt viele Online-Tools, Browser-Erweiterungen und Desktop-Plugins, um eine Webseite in eine PDF-Datei umzuwandeln. Wenn Sie diese Tools regelmäßig verwenden, kann es vorkommen, dass Sie mehrere Links auf einmal konvertieren müssen. Es ist Zeitverschwendung und mühsam, sie einzeln auszuführen. Sie

Werbung

Es gibt viele Online-Tools, Browser-Erweiterungen und Desktop-Plugins, um eine Webseite in eine PDF-Datei umzuwandeln. Wenn Sie diese Tools regelmäßig verwenden, kann es vorkommen, dass Sie mehrere Links auf einmal konvertieren müssen. Es ist Zeitverschwendung und mühsam, sie einzeln auszuführen.

Sie können diese Aufgabe mit einem einfachen Befehlszeilendienstprogramm namens Wget automatisieren. Mit Hilfe einiger Skripte oder Apps und dieses Tools zeigen wir Ihnen, wie Sie mehrere Webseiten in einer PDF-Datei speichern können.

Warum Wget?

Wget ist ein kostenloses Softwarepaket zum Herunterladen von Dateien aus dem Internet. Es ist aber auch ein perfektes Tool, um eine ganze Webseite auf Ihren Computer zu spiegeln. Hier sind die Gründe:

  • Es ist nicht interaktiv, dh, es kann im Hintergrund ausgeführt werden und Sie können Daten übertragen, ohne dass Sie anwesend sein müssen.
  • Wget versteht die Verzeichnisstruktur der Website. Es kann Links in der HTML-Seite folgen, um eine lokale Version der Remote-Website zu erstellen. Dabei wird auch die Datei robots.txt berücksichtigt.
  • Es kann sogar in langsamen oder instabilen Netzwerkverbindungen funktionieren. Wenn der Server das Zurücksetzen unterstützt, wird der Vorgang wiederholt, bis die gesamte Datei auf Ihren Computer übertragen wurde.
  • Wget unterstützt Proxy-Server. Es trägt dazu bei, die Netzwerklast zu verringern, den Abrufvorgang zu beschleunigen und den Zugriff hinter den Firewalls zu ermöglichen.

Wget installieren

Auf macOS

Der schnellste Weg, um Wget zu installieren, führt über Homebrew. Es ist ein Paketmanager für macOS, mit dem nützliche Unix-Dienstprogramme und -Apps installiert werden können. In diesem Artikel erfahren Sie, wie Sie macOS-Apps über Homebrew installieren. Dann tippe ein

 brew install wget 

Sie erhalten einen Echtzeitfortschritt bei der Installation aller Tools (sofern vorhanden), die für die Ausführung von Wget auf Ihrem Mac erforderlich sind. Wenn Sie Homebrew bereits installiert haben, müssen Sie das Brew-Upgrade ausführen, um die neueste Version dieses Dienstprogramms zu erhalten.

Unter Windows 10

Für Windows 10 stehen viele Versionen von Wget zur Verfügung. Laden Sie die neueste 64-Bit-Version von Eternally Board herunter. Legen Sie die ausführbare Datei in einen Ordner und kopieren Sie sie auf das Laufwerk C :.

Installieren Sie den Speicherort von wget in Windows

Jetzt fügen wir der Umgebungsvariablen Ihres Systems den Pfad Wget hinzu, um dieses Tool in einem beliebigen Verzeichnis auszuführen. Navigieren Sie zu Systemsteuerung> System und klicken Sie auf Erweiterte Systemeinstellungen . Klicken Sie im folgenden Fenster auf Umgebungsvariablen .

Klicken Sie in den erweiterten Systemeinstellungen auf Umgebungsvariable

Wählen Sie Pfad unter Systemvariablen und klicken Sie auf Bearbeiten . Klicken Sie dann auf die Schaltfläche Neu in der oberen rechten Ecke des Fensters. Geben Sie C: \ wget ein und klicken Sie auf OK .

Fügen Sie wget zur Systemumgebungsvariablen hinzu

Öffnen Sie die Eingabeaufforderung und geben Sie wget-h ein, um zu testen, ob alles funktioniert. Geben Sie in PowerShell wget.exe -h ein, um das Hilfemenü von Wget zu laden.

Führen Sie wget an der Eingabeaufforderung aus

Speichern Sie Ihre Links in einer Textdatei

Da es sich um mehrere Links handelt, ist das Einfügen von Links nacheinander eine schwierige Aufgabe. Zum Glück gibt es Browser-Erweiterungen, mit denen Sie diese Aufgabe erledigen können.

Link Klipper: Extrahiert alle Links auf einer Webseite als CSV- oder TXT-Datei. Sie können sogar einen rechteckigen Bereich auf der Webseite ziehen, um Links selektiv zu kopieren. Die Datei wird im Download- Ordner gespeichert.

link klipper chrom verlängerung

Snap Links Plus: Auf diese Weise können Sie Elemente auf einer Seite mit Lasso versehen und damit arbeiten. Halten Sie die rechte Maustaste gedrückt und ziehen Sie ein Auswahlrechteck um Links. Drücken Sie die Strg- Taste und kopieren Sie Ihre Links in die Zwischenablage.

Einrichten eines Verzeichnisses

Wget funktioniert wie ein Webcrawler, indem Webseiteninhalte aus den HTML-Dateien extrahiert werden, einschließlich Logos, Schriftarten, Miniaturansichten von Bildern, CSS- und JavaScript-Dateien. Es wird auch versucht, eine Verzeichnisstruktur zu erstellen, die dem Remoteserver ähnelt. Erstellen Sie ein separates Verzeichnis für Wget-Downloads, um Webseiten zu speichern und Unordnung zu vermeiden.

Geben Sie auf Ihrem Mac-Terminal oder in einer Eingabeaufforderung unter Windows Folgendes ein

 mkdir Wgetdown 

Dadurch wird ein neuer Ordner im Basisverzeichnis erstellt. Sie können es beliebig benennen. Als nächstes betreten Sie

 cd Wgetdown 

Ändere die Richtung. Dadurch wird das aktuelle Arbeitsverzeichnis in Wgetdown geändert.

Details der Wget-Befehle

Nach dem Erstellen des Verzeichnisses verwenden wir den eigentlichen Wget-Befehl

 wget -E -H -k -K -p -i [Path to Your Text File] 

Wget verwendet GNU getopt, um Befehlszeilenargumente zu verarbeiten. Jede Option hat eine lange Form zusammen mit den kurzen. Lange Optionen sind bequem zu merken, erfordern jedoch einige Zeit zum Tippen. Sie können auch verschiedene Optionsstile mischen. Kommen wir zu den Details dieser Optionen:

  • -E (–adjust-extension) : Wenn eine Datei vom Typ "app / xhtml + xml" oder "text / html" heruntergeladen wird und die URL nicht mit dem HTML endet, hängt diese Option HTML an den Dateinamen an.
  • -H (–span-hosts) : Wenn Sie versuchen, Links rekursiv abzurufen, möchten Sie keine unnötigen Datenmengen abrufen. Sie möchten, dass Wget nur bestimmten Links folgt. Diese Option aktiviert die Host-Spanning-Funktion, mit der Wget rekursiv jeden Host aufrufen kann, auf den über einen Link verwiesen wird. Zum Beispiel Bilder, die von einem anderen Host geliefert wurden.
  • -p (–seitenanforderungen) : Mit dieser Option werden alle Dateien heruntergeladen, die zum Anzeigen einer HTML-Seite erforderlich sind. Es enthält Inline-Bilder, Audio und referenzierte Stylesheets.
  • -k (–convert-links) : Konvertiert die Links im Dokument, damit sie für die Offline-Anzeige geeignet sind. Es enthält eingebettete Bilder, Links zu Stylesheets, Hyperlinks zu Nicht-HTML-Inhalten und vieles mehr.
  • -K (–backup-converted) : Beim Konvertieren einer Datei sichert diese Option die Originalversion mit dem Suffix .orig .
  • -i (–input-file) : Liest URLs von einem Pfad zu Ihrer lokalen oder externen Datei.

Befehle in Gebrauch nehmen

Um diese Befehle in der Praxis zu demonstrieren, ziehen Sie das Website-Handbuch Writing Workflows in Betracht. Dieses Handbuch besteht aus einem Inhaltsverzeichnis mit einem Link zu einzelnen Kapiteln. Das Endziel ist, dass Sie eine separate PDF-Datei dieser Abschnitte erstellen.

Schritt 1 : Öffnen Sie das Terminal und erstellen Sie einen neuen Ordner, wie oben beschrieben.

Ordner über Terminal erstellen

Schritt 2 : Verwenden Sie die Link Klipper-Erweiterung, um Ihre Links als Textdatei zu speichern. Speichern Sie Ihre Datei im Ordner " Downloads ".

Fügen Sie Links über die Link-Klipper-Erweiterung hinzu

Schritt 3 : Geben Sie im Ordner Wgetdown Folgendes ein

 wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt 

wget Befehle in Gebrauch setzen

Schritt 4 : Drücken Sie die Eingabetaste. Warten Sie, bis der Vorgang abgeschlossen ist.

Befehl wget wird ausgeführt

Schritt 5 : Navigieren Sie zum Ordner Wgetdown. Sie sehen den verarbeiteten Ordner der Primärdomäne "word.net" mit allen Webseiten-Assets und "chapter1.html".

heruntergeladene Dateien mit allen Assets

HTML in PDF konvertieren

Das Konvertieren einer Webseite in eine PDF-Datei ist ganz einfach. Aber es ist eine schwierige Aufgabe, sie so aussehen zu lassen wie die Original-Webseite. Ein wünschenswertes Ergebnis zu erzielen, hängt ab von:

  • Systemschriftarten verfügbar.
  • Die Integrität des HTML-Markups.
  • Benötigte Funktionen, die Tabellen oder Floating-Images unterstützen.
  • Optional Inhaltsverzeichnis.

Windows 10

PrinceXML ist eine App zum schnellen Konvertieren von HTML-Dateien in PDF. Sie können HTML-Inhalte mit konfigurierbarer Unterstützung für Layout und Webstandards setzen, formatieren und drucken. Es kommt mit vielen nützlichen Schriftarten und ermöglicht es Ihnen auch, die PDF-Ausgabe anzupassen. Die App ist für die nichtkommerzielle Nutzung kostenlos.

princexml App zum Konvertieren von HTML in PDF

Mac OS

Auf Ihrem Mac können Sie einen Automator-Dienst erstellen, um einen Stapel von HTML-Dateien in PDF-Dateien zu konvertieren. Öffnen Sie Automator und erstellen Sie ein Schnellaktionsdokument . Stellen Sie die Dienstoption ein, um Dateien oder Ordner vom Finder zu empfangen. Ziehen Sie anschließend Run Shell Script und setzen Sie die Eingabeoption Pass auf als Argumente . Fügen Sie dann dieses Skript in den Text ein

 for theFileToProcess in " " do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done 

Speichern Sie die Datei als HTML2PDF.

Shell-Skript zum Konvertieren von Dateien in Mac

Wählen Sie nun alle HTML-Dateien im Finder aus. Klicken Sie mit der rechten Maustaste und wählen Sie Dienste> HTML2PDF . Warten Sie einen Moment, bis alle Ihre Dateien konvertiert sind.

Konvertieren Sie eine Reihe von HTML-Dateien mit diesem Skript

Möglichkeiten zum Konvertieren einer einzelnen Webseite in PDF

Auf den ersten Blick erscheinen die Schritte zum Konvertieren mehrerer Webseiten in PDF kompliziert. Wenn Sie die Schritte und den Prozess erst einmal verstanden haben, können Sie auf lange Sicht Zeit sparen. Sie müssen kein Geld für Webabonnements oder teure PDF-Konverter ausgeben.

Wenn Sie nach Möglichkeiten suchen, eine einzelne Webseite in PDF umzuwandeln, lesen Sie diesen Artikel zum Konvertieren von Webseiten in PDF. 3 Einfache Methoden zum Konvertieren von Webseiten in PDFs 3 Einfache Methoden zum Konvertieren von Webseiten in PDFs Sie können eine Webseite in eine PDF konvertieren und lese es offline. Hier finden Sie die einfachsten Tools, mit denen Sie auf jedem Gerät arbeiten können. Weiterlesen .

Erfahren Sie mehr über: PDF, Wget.