Pengenalan Pandas di Python
Apa itu Pandas?
Pandas adalah sebuah library Python yang digunakan untuk menganalisa, membersihkan, menjelajahi, dan memanipulasi dataset.
Mengapa Menggunakan Pandas?
Pandas menghadirkan kecepatan dan keefisienan untuk memanipulasi dan menganalisa suatu data.
Bisa digunakan untuk menangani data dari berbagai macam file.
Mudah digunakan dalam menangani dataset yang memiliki data yang hilang.
Memulai Pandas
Kita bisa menginstall Anaconda terlebih dahulu, lalu menggunakan Jupyter Notebook untuk memulai menggunakan Pandas, atau menginstallnya untuk digunakan di kode editor menggunakan pip.
Buka CMD, lalu ketik:
pip install pandas
Lalu buka kode editor yang kita punya atau buka Jupyter Notebook.
Untuk mengimpor library Pandas, bisa dengan:
import pandas as pd
Di sini, pd adalah panggilan dari pandas. Jadi kita hanya perlu mengetik pd untuk memanggil pandas di dalam kode.
Untuk mengimpor data yang berbentuk .csv, bisa dengan:
df = pd.read_csv("diabetes.csv")
Untuk melihat n data pertama, bisa dengan:
df.head()
Maka akan tampil seperti ini:
Dari tabel tersebut, Pandas menghadirkan dua struktur data yang bisa digunakan untuk memanipulasi data, yaitu Series dan DataFrame
Series
Series merupakan array berlabel yang berbentuk satu dimensi, di dalamnya berisi data yang memiliki berbagai macam tipe (string, integer, float, dll). Jika tidak ditentukan, label pada series merupakan nomor index (nomor urutan baris) dari suatu data. Series mirip seperti sebuah kolom di dalam suatu tabel.
Untuk membuat series, dari sebuah list:
# membuat list
a = [5, 6, 9, 7, 3]
# membuat series dari sebuah list
ser = pd.Series(a)
# menampilkan series
print(ser)
Output:
0 5
1 6
2 9
3 7
4 3
dtype: int64
Kolom paling kiri merupakan index atau label dari suatu data, dan kolom kanan merupakan data yang berada di dalam Series.
Cara mengubah nama label:
# mengubah index/label series
ser = pd.Series(a, index = ["a", "b", "c","d","e"])
# menampilkan series
print(ser)
Output:
a 5
b 6
c 9
d 7
e 3
dtype: int64
DataFrame
DataFrame merupakan tabel yang berbentuk 2 dimensi atau multi-demensi, memiliki 3 komponen, yaitu data, kolom, dan baris. Jika Series merupakan suatu kolom di dalam sebuah tabel, maka DataFrame adalah tabel secara keseluruhan.
Untuk membuat sebuah DataFrame dari dua Series, bisa dengan:
data = {
"Weight" : [65, 76, 81],
"Age" : [25, 23, 30]
}
# membuat DataFrame dari data
df = pd.DataFrame(data)
# menampilkan DataFrame
print(df)
Output:
Weight Age
0 65 25
1 76 23
2 81 30
Terimakasih yang sudah membaca.