Pengenalan Pandas di Python

Apa itu Pandas?


Pengenalan Pandas di Python

Pandas adalah sebuah library Python yang digunakan untuk menganalisa, membersihkan, menjelajahi, dan memanipulasi dataset.


Mengapa Menggunakan Pandas?


Pandas menghadirkan kecepatan dan keefisienan untuk memanipulasi dan menganalisa suatu data.

Bisa digunakan untuk menangani data dari berbagai macam file.

Mudah digunakan dalam menangani dataset yang memiliki data yang hilang.


Memulai Pandas


Kita bisa menginstall Anaconda terlebih dahulu, lalu menggunakan Jupyter Notebook untuk memulai menggunakan Pandas, atau menginstallnya untuk digunakan di kode editor menggunakan pip.

Buka CMD, lalu ketik:

pip install pandas

Lalu buka kode editor yang kita punya atau buka Jupyter Notebook.

Untuk mengimpor library Pandas, bisa dengan:

import pandas as pd

Di sini, pd adalah panggilan dari pandas. Jadi kita hanya perlu mengetik pd untuk memanggil pandas di dalam kode. 

Untuk mengimpor data yang berbentuk .csv, bisa dengan:

df = pd.read_csv("diabetes.csv")

Untuk melihat n data pertama, bisa dengan:

df.head()

Maka akan tampil seperti ini:

Pengenalan Pandas di Python

Dari tabel tersebut, Pandas menghadirkan dua struktur data yang bisa digunakan untuk memanipulasi data, yaitu Series dan DataFrame

Series


Series merupakan array berlabel yang berbentuk satu dimensi, di dalamnya berisi data yang memiliki berbagai macam tipe (string, integer, float, dll). Jika tidak ditentukan, label pada series merupakan nomor index (nomor urutan baris) dari suatu data. Series mirip seperti sebuah kolom di dalam suatu tabel.

Pengenalan Pandas di Python

Untuk membuat series, dari sebuah list:

# membuat list
a = [5, 6, 9, 7, 3]

# membuat series dari sebuah list
ser = pd.Series(a)

# menampilkan series
print(ser)

Output:

0    5
1 6
2 9
3 7
4 3
dtype: int64

Kolom paling kiri merupakan index atau label dari suatu data, dan kolom kanan merupakan data yang berada di dalam Series.

Cara mengubah nama label:

# mengubah index/label series
ser = pd.Series(a, index = ["a", "b", "c","d","e"])

# menampilkan series
print(ser)

Output: 

a    5
b 6
c 9
d 7
e 3
dtype: int64

DataFrame


DataFrame merupakan tabel yang berbentuk 2 dimensi atau multi-demensi, memiliki 3 komponen, yaitu data, kolom, dan baris. Jika Series merupakan suatu kolom di dalam sebuah tabel, maka DataFrame adalah tabel secara keseluruhan.

Pengenalan Pandas di Python

Untuk membuat sebuah DataFrame dari dua Series, bisa dengan:

data = {
"Weight" : [65, 76, 81],
"Age" : [25, 23, 30]
}

# membuat DataFrame dari data
df = pd.DataFrame(data)

# menampilkan DataFrame
print(df)

Output:

   Weight  Age
0 65 25
1 76 23
2 81 30

Terimakasih yang sudah membaca.
Click here to Download