Dla kamienia rzuconego w górę nie jest niczym złym, że spadł na dół, ani dobrym, że go podrzucono.
Marek Aureliusz, Rozmyślania, IX.17
Pandas
to skrót od Panel Data System. Jest to moduł wspomagający
analizę danych zbudowany na bazie biblioteki NumPy
. Na chwilę obecną stanowi
najbardziej rozbudowane i podstawowe narzędzie do kompleksowej analizy danych w
języku Python. Umożliwia wczytywanie, oczyszczanie, modyfikowanie, zapisywanie
danych, oraz wspomaga ich analizę. To potężne narzędzie do pozyskiwania,
obróbki i analizy danych, ułatwiające pracę związaną z szeroko pojętą analizą
danych. Sercem Pandas
są wydajne, ekspresyjne i elastyczne struktury danych
umożliwiające intuicyjne podejście do przechowywania i manipulowania danymi:
Series
1D struktura danych. W uproszczeniu stanowiące listę znaną z
Pythona,DataFrame
2D struktura danych będąca czymś na kształt tabeli z danymi,Panel
3D struktura z danymi.Główną wartością dodaną jest udostępnienie łatwego mechanizmu zarządzania danymi. Manipulowanie niechlujnie zgromadzonymi danymi staje się o wiele przyjemniejsze i wydajniejsze. Przykładami operacjami na zbiorach danych są pomagającymi w ich obróbce jest:
Trudno przejść obojętnie obok Pandas
jeśli masz co
czynienia z danymi wymagającymi uwagi i analizy. Zachęcam Cię do wypróbowania na
własnej skórze możliwości jakie oferuje.
Pandas
stanowi istotny fragment bibliotek stanowiących ekosystem do analizy,
prezentacji i przetwarzania danych:
Seaborn
: biblioteka do prezentacji graficznej danych statystycznych,Bokeh
: biblioteka do wizualizacji dużych zbiorów danych,Plotly
: API do tworzenia interaktywnych wykresów i dzielenia się nimi w
sieci,Statsmodel
: biblioteka do statystyki i ekonometrii,Scikit-learn
: biblioteka z z narzędziami do uczenia się maszynowego.Wszystkie wymienione biblioteki są zintegrowane z biblioteką Pandas
i
mocno ją wykorzystują. Podsumowując Pandas
jest popularną biblioteką
wykorzystywaną do data science
co zawdzięcza swoim strukturą modelującym
dane. Została stworzona do łatwej i intuicyjnej pracy z danymi relacyjnymi. W
swych trzewiach zawiera wiele metod pomocnych w analizie, przetwarzaniu i
modyfikowaniu danych, oraz stanowi zintegrowany element wielu bibliotek
wykorzystywanych w analizie danych.