Hur du importerar Excel-data till Python-skript med hjälp av Pandas
Annons
Microsoft Excel är världens mest använda kalkylprogramvara och av goda skäl: det användarvänliga gränssnittet och kraftfulla inbyggda verktyg gör det enkelt att arbeta med data.
Men om du vill göra mer avancerad databehandling måste du gå utöver Excel's funktioner och börja använda ett skript / programmeringsspråk som Python. Istället för att manuellt kopiera dina data till databaser, här är en snabb handledning om hur du laddar dina Excel-data till Python med Pandas.
Obs! Om du aldrig har använt Python förut kan denna tutorial vara lite svår. Vi rekommenderar att du börjar med dessa webbplatser för att lära dig Python De 5 bästa webbplatserna för att lära sig Python-programmering De 5 bästa webbplatserna för att lära sig Python-programmering Vill du lära dig Python-programmering? Här är de bästa sätten att lära sig Python online, av vilka många är helt gratis. Läs mer och dessa grundläggande Python-exempel för att komma igång. 10 grundläggande Python-exempel som hjälper dig att lära dig snabbt övergången till Python så snabbt som möjligt. Läs mer .
Vad är Pandas?
Python Data Analysis Library (“Pandas”) är ett öppet källkodsbibliotek för Python-programmeringsspråket som används för dataanalys och datamanipulation.
Pandas laddar data i Python-objekt kända som Dataframes, som lagrar data i rader och kolumner precis som en traditionell databas. När en Dataframe har skapats kan den manipuleras med Python, vilket öppnar upp en värld av möjligheter.
Installera Pandas
Obs: Du måste ha Python 2.7 eller senare för att installera Pandas.
För att börja arbeta med Pandas på din maskin måste du importera Pandas-biblioteket. Om du letar efter en tungviktslösning kan du ladda ner Anaconda Python Distribution, som har Pandas inbyggd. Om du inte använder Anaconda är Pandas enkelt att installera i din terminal.
Pandas är ett PyPI-paket, vilket innebär att du kan installera med PIP för Python via kommandoraden. Moderna Mac-system levereras med PIP. För andra Windows, Linux och äldre system är det enkelt att lära sig hur man installerar PIP för Python Hur man installerar Python PIP på Windows, Mac och Linux Hur man installerar Python PIP på Windows, Mac och Linux Många Python-utvecklare litar på ett verktyg kallas PIP för Python för att göra allt enklare och snabbare. Så här installerar du Python PIP. Läs mer .
När du har öppnat din terminal kan den senaste versionen av Pandas installeras med kommandot:
>> pip install pandas
Pandas kräver också NumPy-biblioteket, låt oss också installera detta på kommandoraden:
>> pip install numpy
Nu har du Pandas installerat och redo att skapa din första DataFrame!
Prepping av Excel-data
För det här exemplet, låt oss använda en provdatauppsättning: en Excel-arbetsbok med titeln Cars.xlsx .
Denna datauppsättning visar märke, modell, färg och år för bilar som anges i tabellen. Tabellen visas som ett Excel-intervall. Pandas är tillräckligt smart för att kunna läsa informationen på lämpligt sätt.
Den här arbetsboken sparas i Desktop-katalogen, här används filvägen:
/Users/grant/Desktop/Cars.xlsx
Du måste känna till filvägen i arbetsboken för att använda Pandas. Låt oss börja med att öppna Visual Studio Code för att skriva manuset. Om du inte har en textredigerare rekommenderar vi antingen Visual Studio-kod eller Atom Editor Visual Studio-kod kontra Atom: Vilken textredigerare är rätt för dig? Visual Studio Code vs. Atom: Vilken textredigerare är rätt för dig? Letar du efter en gratis redigerare med öppen källkod? Visual Studio Code och Atom är de två starkaste kandidaterna. Läs mer .
Skriva Python-skriptet
Nu när du har valfri textredigerare börjar det verkliga kulet. Vi kommer att sammanföra Python och vår Cars arbetsbok för att skapa en Pandas DataFrame.
Importera Python-biblioteken
Öppna din textredigerare och skapa en ny Python-fil. Låt oss kalla det Script.py .
För att kunna arbeta med Pandas i ditt skript måste du importera det till din kod. Detta görs med en kodrad:
import pandas as pd
Här laddar vi Pandas-biblioteket och kopplar det till en variabel "pd". Du kan använda valfritt namn du vill, vi använder "pd" som kort för Pandas.
För att arbeta med Excel med Pandas, behöver du ett ytterligare objekt som heter ExcelFile . ExcelFile är inbyggt i Pandas ekosystem, så du importerar direkt från Pandas:
from pandas import ExcelFile
Arbeta med filvägen
För att ge Pandas tillgång till din arbetsbok måste du rikta ditt skript till filens plats. Det enklaste sättet att göra detta är genom att förse ditt skript med hela sökvägen till arbetsboken.
Kom ihåg vår väg i detta exempel: /Users/grant/Desktop/Cars.xlsx
Du behöver den här filvägen som refereras till i ditt skript för att extrahera data. I stället för att hänvisa till sökvägen inuti Read_Excel-funktionen ska du hålla koden ren genom att lagra sökvägen i en variabel:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'
Du är nu redo att extrahera data med en Pandas-funktion!
Extrahera Excel-data med Pandas.Read_Excel ()
Med Pandas importerade och din sökvägsvariabel kan du nu använda funktioner i Pandas-objektet för att utföra vår uppgift.
Funktionen du behöver använda heter lämpligen Read_Excel . Funktionen Read_Excel tar filvägen för en Excel-arbetsbok och returnerar ett DataFrame-objekt med innehållet i arbetsboken. Pandas koder denna funktion som:
pandas.read_excel(path)
Argumentet "path" kommer att vara vägen till vår Cars.xlsx-arbetsbok, och vi har redan ställt in bansträngen till variabeln Cars_Path.
Du är redo att skapa DataFrame-objektet! Låt oss sammansätta det hela och ställa in DataFrame-objektet till en variabel med namnet “DF”:
DF = pd.read_excel(Cars_Path)
Slutligen vill du visa DataFrame så låt oss skriva ut resultatet. Lägg till ett tryck uttalande i slutet av ditt skript med variabeln DataFrame som argument:
print(DF)
Dags att köra skriptet i din terminal!
Kör Python-skriptet
Öppna din terminal eller kommandorad och navigera till katalogen som innehåller ditt skript. I det här fallet har jag "Script.py" på skrivbordet. För att köra skriptet använder du python-kommandot följt av skriptfilen:
Python kommer att dra data från "Cars.xlsx" till din nya DataFrame och skriva ut DataFrame till terminalen!
En närmare titt på DataFrame-objektet
Vid första anblicken ser DataFrame mycket lik en vanlig Excel-tabell. Pandas DataFrames är lätta att tolka som ett resultat.
Dina rubriker är märkta högst upp i datauppsättningen och Python har fyllt i raderna med all din information läst från arbetsboken “Cars.xlsx”.
Lägg märke till den längsta kolumnen, ett index som börjar på 0 och numrerar kolumnerna. Pandas kommer att tillämpa detta index på din DataFrame som standard, vilket kan vara användbart i vissa fall. Om du inte vill att detta index ska genereras kan du lägga till ett ytterligare argument i din kod:
DF = pd.read_excel(Cars_Path, index=False)
Om du ställer in argumentet "index" till falskt kommer du att ta bort indexkolumnen, vilket bara har dina Excel-data.
Gör mer med Python
Nu när du har möjlighet att läsa data från Excel-kalkylblad kan du tillämpa Python-programmering på vilket sätt du än väljer. Att arbeta med Pandas är ett enkelt sätt för erfarna Python-programmerare att arbeta med data lagrade i Excel-arbetsböcker.
Enkelheten med vilken Python kan användas för att analysera och manipulera data är en av de många orsakerna till att Python är framtidens programmeringsspråk 6 skäl varför Python är framtidens programmeringsspråk 6 skäl varför Python är framtidens programmeringsspråk Vill du lära dig eller utöka dina programmeringsfärdigheter? Här är varför Python är det bästa programmeringsspråket att lära sig i år. Läs mer .
Bildkredit: Rawpixel / Depositphotos
Utforska mer om: Dataanalys, Microsoft Excel, Python, Scripting.