Nie mów ludziom co powinni robić, mów im co sam robisz.
Nassim Taleb
Pandas to skrót od Panel Data System. Jest to moduł wspomagający
analizę danych zbudowany na bazie biblioteki NumPy. Na chwilę obecną stanowi
najbardziej rozbudowane i podstawowe narzędzie do kompleksowej analizy danych w
języku Python. Umożliwia wczytywanie, oczyszczanie, modyfikowanie, zapisywanie
danych, oraz wspomaga ich analizę. To potężne narzędzie do pozyskiwania,
obróbki i analizy danych, ułatwiające pracę związaną z szeroko pojętą analizą
danych. Sercem Pandas są wydajne, ekspresyjne i elastyczne struktury danych
umożliwiające intuicyjne podejście do przechowywania i manipulowania danymi:
Series 1D struktura danych. W uproszczeniu stanowiące listę znaną z
Pythona,DataFrame 2D struktura danych będąca czymś na kształt tabeli z danymi,Panel 3D struktura z danymi.Główną wartością dodaną jest udostępnienie łatwego mechanizmu zarządzania danymi. Manipulowanie niechlujnie zgromadzonymi danymi staje się o wiele przyjemniejsze i wydajniejsze. Przykładami operacjami na zbiorach danych są pomagającymi w ich obróbce jest:
Trudno przejść obojętnie obok Pandas jeśli masz co
czynienia z danymi wymagającymi uwagi i analizy. Zachęcam Cię do wypróbowania na
własnej skórze możliwości jakie oferuje.
Pandas stanowi istotny fragment bibliotek stanowiących ekosystem do analizy,
prezentacji i przetwarzania danych:
Seaborn: biblioteka do prezentacji graficznej danych statystycznych,Bokeh: biblioteka do wizualizacji dużych zbiorów danych,Plotly: API do tworzenia interaktywnych wykresów i dzielenia się nimi w
sieci,Statsmodel: biblioteka do statystyki i ekonometrii,Scikit-learn: biblioteka z z narzędziami do uczenia się maszynowego.Wszystkie wymienione biblioteki są zintegrowane z biblioteką Pandas i
mocno ją wykorzystują. Podsumowując Pandas jest popularną biblioteką
wykorzystywaną do data science co zawdzięcza swoim strukturą modelującym
dane. Została stworzona do łatwej i intuicyjnej pracy z danymi relacyjnymi. W
swych trzewiach zawiera wiele metod pomocnych w analizie, przetwarzaniu i
modyfikowaniu danych, oraz stanowi zintegrowany element wielu bibliotek
wykorzystywanych w analizie danych.