Importieren von Excel-Daten in Python-Skripten mit Pandas
Werbung
Microsoft Excel ist die weltweit am häufigsten verwendete Tabellenkalkulationssoftware, und das aus gutem Grund: Die benutzerfreundliche Oberfläche und die leistungsstarken integrierten Tools erleichtern das Arbeiten mit Daten.
Wenn Sie jedoch eine erweiterte Datenverarbeitung durchführen möchten, müssen Sie über die Fähigkeiten von Excel hinausgehen und eine Skript- / Programmiersprache wie Python verwenden. Anstatt Ihre Daten manuell in Datenbanken zu kopieren, finden Sie hier eine kurze Anleitung zum Laden Ihrer Excel-Daten in Python mit Pandas.
Hinweis: Wenn Sie Python noch nie zuvor verwendet haben, ist dieses Tutorial möglicherweise etwas schwierig. Wir empfehlen, mit diesen Websites zu beginnen, um Python zu lernen. Die 5 besten Websites, um Python-Programmierung zu lernen. Die 5 besten Websites, um Python-Programmierung zu lernen. Möchten Sie Python-Programmierung lernen? Hier sind die besten Möglichkeiten, Python online zu lernen, von denen viele völlig kostenlos sind. Weitere Informationen und diese grundlegenden Python-Beispiele für den Einstieg 10 grundlegende Python-Beispiele für den schnellen Einstieg 10 grundlegende Python-Beispiele für den schnellen Einstieg Dieser Artikel mit grundlegenden Python-Beispielen richtet sich an Personen, die bereits Programmiererfahrung haben und dies einfach möchten Übergang zu Python so schnell wie möglich. Weiterlesen .
Was ist Pandas?
Python Data Analysis Library ("Pandas") ist eine Open-Source-Bibliothek für die Programmiersprache Python, die für die Datenanalyse und Datenmanipulation verwendet wird.
Pandas lädt Daten in Python-Objekte, die als Dataframes bezeichnet werden und in denen Daten wie in einer herkömmlichen Datenbank in Zeilen und Spalten gespeichert werden. Sobald ein Datenrahmen erstellt wurde, kann er mit Python bearbeitet werden, was eine Vielzahl von Möglichkeiten eröffnet.
Pandas installieren
Hinweis: Sie benötigen Python 2.7 oder höher, um Pandas zu installieren.
Um mit Pandas auf Ihrem Computer zu arbeiten, müssen Sie die Pandas-Bibliothek importieren. Wenn Sie auf der Suche nach einer schwergewichtigen Lösung sind, können Sie die Anaconda Python Distribution herunterladen, in die Pandas integriert ist. Wenn Sie Anaconda nicht verwenden können, ist Pandas einfach in Ihrem Terminal zu installieren.
Pandas ist ein PyPI-Paket, das heißt, Sie können PIP for Python über die Befehlszeile installieren. Moderne Mac-Systeme sind mit PIP ausgestattet. Für andere Windows-, Linux- und ältere Systeme ist es einfach zu lernen, wie Sie PIP für Python installieren. So installieren Sie Python PIP unter Windows, Mac und Linux. So installieren Sie Python PIP unter Windows, Mac und Linux. Viele Python-Entwickler verlassen sich auf ein Tool genannt PIP für Python, um alles einfacher und schneller zu machen. So installieren Sie Python PIP. Weiterlesen .
Sobald Sie Ihr Terminal geöffnet haben, können Sie die neueste Version von Pandas mit dem folgenden Befehl installieren:
>> pip install pandas
Für Pandas ist auch die NumPy-Bibliothek erforderlich. Installieren wir diese ebenfalls in der Befehlszeile:
>> pip install numpy
Sie haben jetzt Pandas installiert und können Ihren ersten DataFrame erstellen!
Excel-Daten vorbereiten
In diesem Beispiel verwenden wir einen Beispieldatensatz: eine Excel-Arbeitsmappe mit dem Titel Cars.xlsx .
Dieser Datensatz zeigt die Marke, das Modell, die Farbe und das Jahr der in die Tabelle eingegebenen Fahrzeuge an. Die Tabelle wird als Excel-Bereich angezeigt. Pandas ist intelligent genug, um die Daten angemessen zu lesen.
Diese Arbeitsmappe wird im Desktop-Verzeichnis gespeichert. Hier ist der verwendete Dateipfad:
/Users/grant/Desktop/Cars.xlsx
Sie müssen den Dateipfad der Arbeitsmappe kennen, um Pandas verwenden zu können. Beginnen wir mit dem Öffnen von Visual Studio Code, um das Skript zu schreiben. Wenn Sie keinen Texteditor haben, empfehlen wir entweder Visual Studio Code oder Atom Editor. Visual Studio Code vs. Atom: Welcher Texteditor ist für Sie geeignet? Visual Studio Code vs. Atom: Welcher Texteditor passt zu Ihnen? Suchen Sie einen kostenlosen und Open-Source-Code-Editor? Visual Studio Code und Atom sind die beiden stärksten Kandidaten. Weiterlesen .
Schreiben des Python-Skripts
Jetzt, da Sie den Texteditor Ihrer Wahl haben, beginnt der wahre Spaß. Wir werden Python und unsere Cars-Arbeitsmappe zusammenführen, um einen Pandas-DataFrame zu erstellen.
Importieren der Python-Bibliotheken
Öffnen Sie Ihren Texteditor und erstellen Sie eine neue Python-Datei. Nennen wir es Script.py .
Um mit Pandas in Ihrem Skript arbeiten zu können, müssen Sie es in Ihren Code importieren. Dies geschieht mit einer Codezeile:
import pandas as pd
Hier laden wir die Pandas-Bibliothek und hängen sie an eine Variable „pd“ an. Sie können einen beliebigen Namen verwenden, wir verwenden "pd" als Abkürzung für Pandas.
Für die Arbeit mit Excel unter Verwendung von Pandas benötigen Sie ein zusätzliches Objekt mit dem Namen ExcelFile . ExcelFile ist in das Pandas-Ökosystem integriert, sodass Sie direkt aus Pandas importieren können:
from pandas import ExcelFile
Mit dem Dateipfad arbeiten
Um Pandas Zugriff auf Ihre Arbeitsmappe zu gewähren, müssen Sie Ihr Skript an den Speicherort der Datei leiten. Der einfachste Weg, dies zu tun, besteht darin, Ihr Skript mit dem vollständigen Pfad zur Arbeitsmappe zu versehen.
Erinnern Sie sich an unseren Pfad in diesem Beispiel: /Users/grant/Desktop/Cars.xlsx
Sie benötigen diesen Dateipfad, auf den in Ihrem Skript verwiesen wird, um die Daten zu extrahieren. Anstatt auf den Pfad innerhalb der Read_Excel-Funktion zu verweisen, halten Sie den Code sauber, indem Sie den Pfad in einer Variablen speichern:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'
Jetzt können Sie die Daten mit einer Pandas-Funktion extrahieren!
Excel-Daten mit Pandas.Read_Excel () extrahieren
Wenn Pandas importiert und Ihre Pfadvariable festgelegt ist, können Sie jetzt Funktionen im Pandas-Objekt verwenden, um unsere Aufgabe zu erfüllen.
Die Funktion, die Sie verwenden müssen, heißt entsprechend Read_Excel . Die Read_Excel-Funktion verwendet den Dateipfad einer Excel-Arbeitsmappe und gibt ein DataFrame-Objekt mit dem Inhalt der Arbeitsmappe zurück. Pandas codiert diese Funktion als:
pandas.read_excel(path)
Das Argument "path" ist der Pfad zu unserer Arbeitsmappe "Cars.xlsx", und wir haben die Pfadzeichenfolge bereits auf die Variable "Cars_Path" festgelegt.
Sie können jetzt das DataFrame-Objekt erstellen! Lassen Sie uns alles zusammenfassen und das DataFrame-Objekt auf eine Variable mit dem Namen "DF" setzen:
DF = pd.read_excel(Cars_Path)
Zuletzt möchten Sie den DataFrame anzeigen und das Ergebnis ausdrucken. Fügen Sie am Ende Ihres Skripts eine print-Anweisung hinzu, wobei Sie die DataFrame-Variable als Argument verwenden:
print(DF)
Es ist Zeit, das Skript in Ihrem Terminal auszuführen!
Ausführen des Python-Skripts
Öffnen Sie Ihr Terminal oder Ihre Befehlszeile und navigieren Sie zu dem Verzeichnis, in dem sich Ihr Skript befindet. In diesem Fall befindet sich "Script.py" auf dem Desktop. Verwenden Sie zum Ausführen des Skripts den Befehl python gefolgt von der Skriptdatei:
Python zieht die Daten aus "Cars.xlsx" in Ihren neuen DataFrame und druckt den DataFrame auf dem Terminal aus!
Ein genauerer Blick auf das DataFrame-Objekt
Auf den ersten Blick ähnelt der DataFrame einer normalen Excel-Tabelle. Pandas DataFrames sind daher einfach zu interpretieren.
Ihre Kopfzeilen sind oben im Datensatz gekennzeichnet, und Python hat die Zeilen mit allen Informationen gefüllt, die Sie aus der Arbeitsmappe "Cars.xlsx" gelesen haben.
Beachten Sie die Spalte ganz links, einen Index, der bei 0 beginnt und die Spalten nummeriert. Pandas wendet diesen Index standardmäßig auf Ihren DataFrame an, was in einigen Fällen hilfreich sein kann. Wenn Sie diesen Index nicht generieren möchten, können Sie Ihrem Code ein zusätzliches Argument hinzufügen:
DF = pd.read_excel(Cars_Path, index=False)
Wenn Sie das Argument "index" auf "False" setzen, wird die Indexspalte entfernt, sodass Sie nur Ihre Excel-Daten erhalten.
Mit Python mehr erreichen
Nachdem Sie nun die Möglichkeit haben, Daten aus Excel-Arbeitsblättern zu lesen, können Sie die Python-Programmierung nach Belieben anwenden. Die Arbeit mit Pandas ist eine einfache Möglichkeit für erfahrene Python-Programmierer, mit Daten zu arbeiten, die in Excel-Arbeitsmappen gespeichert sind.
Die einfache Analyse und Bearbeitung von Daten mit Python ist einer der vielen Gründe, warum Python die Programmiersprache der Zukunft ist. 6 Gründe, warum Python die Programmiersprache der Zukunft ist. 6 Gründe, warum Python die Programmiersprache der Zukunft ist Möchten Sie Ihre Programmierkenntnisse erlernen oder erweitern? Deshalb ist Python die beste Programmiersprache, die Sie in diesem Jahr lernen können. Weiterlesen .
Bildnachweis: Rawpixel / Depositphotos
Erfahren Sie mehr über: Datenanalyse, Microsoft Excel, Python, Scripting.