Pandas, ogólnie o pakiecie

Pandas to skrót od Panel Data System. Jest to moduł wspomagający analizę danych zbudowany na bazie biblioteki NumPy. Na chwilę obecną stanowi najbardziej rozbudowane i podstawowe narzędzie do kompleksowej analizy danych w języku Python. Umożliwia wczytywanie, oczyszczanie, modyfikowanie, zapisywanie danych, oraz wspomaga ich analizę. To potężne narzędzie do pozyskiwania, obróbki i analizy danych, ułatwiające pracę związaną z szeroko pojętą analizą danych. Sercem Pandas są wydajne, ekspresyjne i elastyczne struktury danych umożliwiające intuicyjne podejście do przechowywania i manipulowania danymi:

  • Series 1D struktura danych. W uproszczeniu stanowiące listę znaną z Pythona,
  • DataFrame 2D struktura danych będąca czymś na kształt tabeli z danymi,
  • Panel 3D struktura z danymi.

Główną wartością dodaną jest udostępnienie łatwego mechanizmu zarządzania danymi. Manipulowanie niechlujnie zgromadzonymi danymi staje się o wiele przyjemniejsze i wydajniejsze. Przykładami operacjami na zbiorach danych są pomagającymi w ich obróbce jest:

  • obsługa brakujących danych
  • konwertowanie indeksowanych danych
  • skalowanie danych
  • łączenie danych

Trudno przejść obojętnie obok Pandas jeśli masz co czynienia z danymi wymagającymi uwagi i analizy. Zachęcam Cię do wypróbowania na własnej skórze możliwości jakie oferuje.

Pandas stanowi istotny fragment bibliotek stanowiących ekosystem do analizy, prezentacji i przetwarzania danych:

  • Seaborn: biblioteka do prezentacji graficznej danych statystycznych,
  • Bokeh: biblioteka do wizualizacji dużych zbiorów danych,
  • Plotly: API do tworzenia interaktywnych wykresów i dzielenia się nimi w sieci,
  • Statsmodel: biblioteka do statystyki i ekonometrii,
  • Scikit-learn: biblioteka z z narzędziami do uczenia się maszynowego.

Wszystkie wymienione biblioteki są zintegrowane z biblioteką Pandas i mocno ją wykorzystują. Podsumowując Pandas jest popularną biblioteką wykorzystywaną do data science co zawdzięcza swoim strukturą modelującym dane. Została stworzona do łatwej i intuicyjnej pracy z danymi relacyjnymi. W swych trzewiach zawiera wiele metod pomocnych w analizie, przetwarzaniu i modyfikowaniu danych, oraz stanowi zintegrowany element wielu bibliotek wykorzystywanych w analizie danych.

Rób to, co możesz, tym, co posiadasz, i tam, gdzie jesteś. Theodore Roosevelt