Dla kamienia rzuconego w górę nie jest niczym złym, że spadł na dół, ani dobrym, że go podrzucono.

Marek Aureliusz, Rozmyślania, IX.17

Pandas to skrót od Panel Data System. Jest to moduł wspomagający analizę danych zbudowany na bazie biblioteki NumPy. Na chwilę obecną stanowi najbardziej rozbudowane i podstawowe narzędzie do kompleksowej analizy danych w języku Python. Umożliwia wczytywanie, oczyszczanie, modyfikowanie, zapisywanie danych, oraz wspomaga ich analizę. To potężne narzędzie do pozyskiwania, obróbki i analizy danych, ułatwiające pracę związaną z szeroko pojętą analizą danych. Sercem Pandas są wydajne, ekspresyjne i elastyczne struktury danych umożliwiające intuicyjne podejście do przechowywania i manipulowania danymi:

  • Series 1D struktura danych. W uproszczeniu stanowiące listę znaną z Pythona,
  • DataFrame 2D struktura danych będąca czymś na kształt tabeli z danymi,
  • Panel 3D struktura z danymi.

Główną wartością dodaną jest udostępnienie łatwego mechanizmu zarządzania danymi. Manipulowanie niechlujnie zgromadzonymi danymi staje się o wiele przyjemniejsze i wydajniejsze. Przykładami operacjami na zbiorach danych są pomagającymi w ich obróbce jest:

  • obsługa brakujących danych
  • konwertowanie indeksowanych danych
  • skalowanie danych
  • łączenie danych

Trudno przejść obojętnie obok Pandas jeśli masz co czynienia z danymi wymagającymi uwagi i analizy. Zachęcam Cię do wypróbowania na własnej skórze możliwości jakie oferuje.

Pandas stanowi istotny fragment bibliotek stanowiących ekosystem do analizy, prezentacji i przetwarzania danych:

  • Seaborn: biblioteka do prezentacji graficznej danych statystycznych,
  • Bokeh: biblioteka do wizualizacji dużych zbiorów danych,
  • Plotly: API do tworzenia interaktywnych wykresów i dzielenia się nimi w sieci,
  • Statsmodel: biblioteka do statystyki i ekonometrii,
  • Scikit-learn: biblioteka z z narzędziami do uczenia się maszynowego.

Wszystkie wymienione biblioteki są zintegrowane z biblioteką Pandas i mocno ją wykorzystują. Podsumowując Pandas jest popularną biblioteką wykorzystywaną do data science co zawdzięcza swoim strukturą modelującym dane. Została stworzona do łatwej i intuicyjnej pracy z danymi relacyjnymi. W swych trzewiach zawiera wiele metod pomocnych w analizie, przetwarzaniu i modyfikowaniu danych, oraz stanowi zintegrowany element wielu bibliotek wykorzystywanych w analizie danych.

Artykuł dodano 2022-10-24