So konvertieren Sie mehrere Webseiten mit Wget in PDF-Dateien
Werbung
Es gibt viele Online-Tools, Browser-Erweiterungen und Desktop-Plugins, um eine Webseite in eine PDF-Datei umzuwandeln. Wenn Sie diese Tools regelmäßig verwenden, kann es vorkommen, dass Sie mehrere Links auf einmal konvertieren müssen. Es ist Zeitverschwendung und mühsam, sie einzeln auszuführen.
Sie können diese Aufgabe mit einem einfachen Befehlszeilendienstprogramm namens Wget automatisieren. Mit Hilfe einiger Skripte oder Apps und dieses Tools zeigen wir Ihnen, wie Sie mehrere Webseiten in einer PDF-Datei speichern können.
Warum Wget?
Wget ist ein kostenloses Softwarepaket zum Herunterladen von Dateien aus dem Internet. Es ist aber auch ein perfektes Tool, um eine ganze Webseite auf Ihren Computer zu spiegeln. Hier sind die Gründe:
- Es ist nicht interaktiv, dh, es kann im Hintergrund ausgeführt werden und Sie können Daten übertragen, ohne dass Sie anwesend sein müssen.
- Wget versteht die Verzeichnisstruktur der Website. Es kann Links in der HTML-Seite folgen, um eine lokale Version der Remote-Website zu erstellen. Dabei wird auch die Datei robots.txt berücksichtigt.
- Es kann sogar in langsamen oder instabilen Netzwerkverbindungen funktionieren. Wenn der Server das Zurücksetzen unterstützt, wird der Vorgang wiederholt, bis die gesamte Datei auf Ihren Computer übertragen wurde.
- Wget unterstützt Proxy-Server. Es trägt dazu bei, die Netzwerklast zu verringern, den Abrufvorgang zu beschleunigen und den Zugriff hinter den Firewalls zu ermöglichen.
Wget installieren
Auf macOS
Der schnellste Weg, um Wget zu installieren, führt über Homebrew. Es ist ein Paketmanager für macOS, mit dem nützliche Unix-Dienstprogramme und -Apps installiert werden können. In diesem Artikel erfahren Sie, wie Sie macOS-Apps über Homebrew installieren. Dann tippe ein
brew install wget
Sie erhalten einen Echtzeitfortschritt bei der Installation aller Tools (sofern vorhanden), die für die Ausführung von Wget auf Ihrem Mac erforderlich sind. Wenn Sie Homebrew bereits installiert haben, müssen Sie das Brew-Upgrade ausführen, um die neueste Version dieses Dienstprogramms zu erhalten.
Unter Windows 10
Für Windows 10 stehen viele Versionen von Wget zur Verfügung. Laden Sie die neueste 64-Bit-Version von Eternally Board herunter. Legen Sie die ausführbare Datei in einen Ordner und kopieren Sie sie auf das Laufwerk C :.
Jetzt fügen wir der Umgebungsvariablen Ihres Systems den Pfad Wget hinzu, um dieses Tool in einem beliebigen Verzeichnis auszuführen. Navigieren Sie zu Systemsteuerung> System und klicken Sie auf Erweiterte Systemeinstellungen . Klicken Sie im folgenden Fenster auf Umgebungsvariablen .
Wählen Sie Pfad unter Systemvariablen und klicken Sie auf Bearbeiten . Klicken Sie dann auf die Schaltfläche Neu in der oberen rechten Ecke des Fensters. Geben Sie C: \ wget ein und klicken Sie auf OK .
Öffnen Sie die Eingabeaufforderung und geben Sie wget-h ein, um zu testen, ob alles funktioniert. Geben Sie in PowerShell wget.exe -h ein, um das Hilfemenü von Wget zu laden.
Speichern Sie Ihre Links in einer Textdatei
Da es sich um mehrere Links handelt, ist das Einfügen von Links nacheinander eine schwierige Aufgabe. Zum Glück gibt es Browser-Erweiterungen, mit denen Sie diese Aufgabe erledigen können.
Link Klipper: Extrahiert alle Links auf einer Webseite als CSV- oder TXT-Datei. Sie können sogar einen rechteckigen Bereich auf der Webseite ziehen, um Links selektiv zu kopieren. Die Datei wird im Download- Ordner gespeichert.
Snap Links Plus: Auf diese Weise können Sie Elemente auf einer Seite mit Lasso versehen und damit arbeiten. Halten Sie die rechte Maustaste gedrückt und ziehen Sie ein Auswahlrechteck um Links. Drücken Sie die Strg- Taste und kopieren Sie Ihre Links in die Zwischenablage.
Einrichten eines Verzeichnisses
Wget funktioniert wie ein Webcrawler, indem Webseiteninhalte aus den HTML-Dateien extrahiert werden, einschließlich Logos, Schriftarten, Miniaturansichten von Bildern, CSS- und JavaScript-Dateien. Es wird auch versucht, eine Verzeichnisstruktur zu erstellen, die dem Remoteserver ähnelt. Erstellen Sie ein separates Verzeichnis für Wget-Downloads, um Webseiten zu speichern und Unordnung zu vermeiden.
Geben Sie auf Ihrem Mac-Terminal oder in einer Eingabeaufforderung unter Windows Folgendes ein
mkdir Wgetdown
Dadurch wird ein neuer Ordner im Basisverzeichnis erstellt. Sie können es beliebig benennen. Als nächstes betreten Sie
cd Wgetdown
Ändere die Richtung. Dadurch wird das aktuelle Arbeitsverzeichnis in Wgetdown geändert.
Details der Wget-Befehle
Nach dem Erstellen des Verzeichnisses verwenden wir den eigentlichen Wget-Befehl
wget -E -H -k -K -p -i [Path to Your Text File]
Wget verwendet GNU getopt, um Befehlszeilenargumente zu verarbeiten. Jede Option hat eine lange Form zusammen mit den kurzen. Lange Optionen sind bequem zu merken, erfordern jedoch einige Zeit zum Tippen. Sie können auch verschiedene Optionsstile mischen. Kommen wir zu den Details dieser Optionen:
- -E (–adjust-extension) : Wenn eine Datei vom Typ "app / xhtml + xml" oder "text / html" heruntergeladen wird und die URL nicht mit dem HTML endet, hängt diese Option HTML an den Dateinamen an.
- -H (–span-hosts) : Wenn Sie versuchen, Links rekursiv abzurufen, möchten Sie keine unnötigen Datenmengen abrufen. Sie möchten, dass Wget nur bestimmten Links folgt. Diese Option aktiviert die Host-Spanning-Funktion, mit der Wget rekursiv jeden Host aufrufen kann, auf den über einen Link verwiesen wird. Zum Beispiel Bilder, die von einem anderen Host geliefert wurden.
- -p (–seitenanforderungen) : Mit dieser Option werden alle Dateien heruntergeladen, die zum Anzeigen einer HTML-Seite erforderlich sind. Es enthält Inline-Bilder, Audio und referenzierte Stylesheets.
- -k (–convert-links) : Konvertiert die Links im Dokument, damit sie für die Offline-Anzeige geeignet sind. Es enthält eingebettete Bilder, Links zu Stylesheets, Hyperlinks zu Nicht-HTML-Inhalten und vieles mehr.
- -K (–backup-converted) : Beim Konvertieren einer Datei sichert diese Option die Originalversion mit dem Suffix .orig .
- -i (–input-file) : Liest URLs von einem Pfad zu Ihrer lokalen oder externen Datei.
Befehle in Gebrauch nehmen
Um diese Befehle in der Praxis zu demonstrieren, ziehen Sie das Website-Handbuch Writing Workflows in Betracht. Dieses Handbuch besteht aus einem Inhaltsverzeichnis mit einem Link zu einzelnen Kapiteln. Das Endziel ist, dass Sie eine separate PDF-Datei dieser Abschnitte erstellen.
Schritt 1 : Öffnen Sie das Terminal und erstellen Sie einen neuen Ordner, wie oben beschrieben.
Schritt 2 : Verwenden Sie die Link Klipper-Erweiterung, um Ihre Links als Textdatei zu speichern. Speichern Sie Ihre Datei im Ordner " Downloads ".
Schritt 3 : Geben Sie im Ordner Wgetdown Folgendes ein
wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt
Schritt 4 : Drücken Sie die Eingabetaste. Warten Sie, bis der Vorgang abgeschlossen ist.
Schritt 5 : Navigieren Sie zum Ordner Wgetdown. Sie sehen den verarbeiteten Ordner der Primärdomäne "word.net" mit allen Webseiten-Assets und "chapter1.html".
HTML in PDF konvertieren
Das Konvertieren einer Webseite in eine PDF-Datei ist ganz einfach. Aber es ist eine schwierige Aufgabe, sie so aussehen zu lassen wie die Original-Webseite. Ein wünschenswertes Ergebnis zu erzielen, hängt ab von:
- Systemschriftarten verfügbar.
- Die Integrität des HTML-Markups.
- Benötigte Funktionen, die Tabellen oder Floating-Images unterstützen.
- Optional Inhaltsverzeichnis.
Windows 10
PrinceXML ist eine App zum schnellen Konvertieren von HTML-Dateien in PDF. Sie können HTML-Inhalte mit konfigurierbarer Unterstützung für Layout und Webstandards setzen, formatieren und drucken. Es kommt mit vielen nützlichen Schriftarten und ermöglicht es Ihnen auch, die PDF-Ausgabe anzupassen. Die App ist für die nichtkommerzielle Nutzung kostenlos.
Mac OS
Auf Ihrem Mac können Sie einen Automator-Dienst erstellen, um einen Stapel von HTML-Dateien in PDF-Dateien zu konvertieren. Öffnen Sie Automator und erstellen Sie ein Schnellaktionsdokument . Stellen Sie die Dienstoption ein, um Dateien oder Ordner vom Finder zu empfangen. Ziehen Sie anschließend Run Shell Script und setzen Sie die Eingabeoption Pass auf als Argumente . Fügen Sie dann dieses Skript in den Text ein
for theFileToProcess in " " do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done
Speichern Sie die Datei als HTML2PDF.
Wählen Sie nun alle HTML-Dateien im Finder aus. Klicken Sie mit der rechten Maustaste und wählen Sie Dienste> HTML2PDF . Warten Sie einen Moment, bis alle Ihre Dateien konvertiert sind.
Möglichkeiten zum Konvertieren einer einzelnen Webseite in PDF
Auf den ersten Blick erscheinen die Schritte zum Konvertieren mehrerer Webseiten in PDF kompliziert. Wenn Sie die Schritte und den Prozess erst einmal verstanden haben, können Sie auf lange Sicht Zeit sparen. Sie müssen kein Geld für Webabonnements oder teure PDF-Konverter ausgeben.
Wenn Sie nach Möglichkeiten suchen, eine einzelne Webseite in PDF umzuwandeln, lesen Sie diesen Artikel zum Konvertieren von Webseiten in PDF. 3 Einfache Methoden zum Konvertieren von Webseiten in PDFs 3 Einfache Methoden zum Konvertieren von Webseiten in PDFs Sie können eine Webseite in eine PDF konvertieren und lese es offline. Hier finden Sie die einfachsten Tools, mit denen Sie auf jedem Gerät arbeiten können. Weiterlesen .
Erfahren Sie mehr über: PDF, Wget.