Transcript
PbbWxBnLIEw • Detektif Pohon Keputusan: Mengungkap Misteri Data dengan Klasifikasi
/home/itcorpmy/itcorp.my.id/harry/yt_channel/out/wawasan-cerdas/.shards/text-0001.zst#text/0003_PbbWxBnLIEw.txt
Kind: captions
Language: id
Oke, halo semuanya. Hari ini kita bakal
jadi detektif nih. Kita mau pecahin
misteri besar tentang gimana caranya
sebuah mesin bisa belajar untuk
mengambil keputusan. Yuk, kita selami
cara kerjanya selangkah demi selangkah.
Coba dibayangin Anda lagi ngajuin
pinjaman dan cuma dalam hitungan detik
sebuah aplikasi langsung ngasih jawaban
ya atau tidak. Gimana ceritanya ya, apa
sih yang sebenarnya terjadi di balik
layar? Nah, inilah pertanyaan besar yang
akan kita jawab bareng-bareng.
Jawabannya itu ternyata e enggak serumit
yang kita bayangin loh. Mesin itu pada
dasarnya cuma membuat semacam peta
keputusan. Peta ini isinya cuma
serangkaian pertanyaan ya atau tidak
yang super simpel yang nuntun dia sampai
ke sebuah kesimpulan.
Oke, tapi coba deh kita pikirin dari
semua kemungkinan pertanyaan yang ada
misalnya apakah Anda punya rumah atau
berapa pendapatan tahunan Anda? Gimana
caranya si mesin ini tahu mana yang
paling penting yang harus ditanyain
duluan. Nah, ini dia nih inti dari
investigasi kita hari ini. Oke, untuk
memulai detektif mana pun butuh yang
namanya berkas kasus, kan? Nah, berkas
kasus kita kali ini isinya adalah
sekumpulan data yang sederhana.
Lihat deh, di sini kita punya data
beberapa peminjam. kita bisa lihat, oke
dia punya rumah atau enggak, status
nikahnya gimana, terus pendapatan
tahannya berapa. Nah, tujuan utamanya
itu kita mau coba tebak kolom yang
paling kanan. Dia bakal gagal bayar atau
enggak cuma dari tiga info lainnya.
Sebelum kita mulai nanya-nanya, detektif
yang jago itu harus paham dulu sama
bukti-bukti yang dia punya. Kalau di
kasus kita ya, artinya kita harus ngerti
dulu jenis-jenis data yang kita hadapi.
Petunjuk pertama kita, kita sebut aja
label. Ini tuh data kualitatif yang
nilainya cuma sekedar nama, enggak ada
urutannya sama sekali. Menikah kan
enggak lebih tinggi atau lebih rendah
dari lajang, ya kan? Cuma beda kategori
aja. Terus tipe petunjuk kedua itu
peringkat. Nah, kalau di sini urutan itu
penting banget. Kita semua tahulah ya.
ukuran baju L itu lebih gede dari M.
Tapi kita kan enggak bisa bilang bedanya
itu seberapa besar. Jadi urutannya itu
yang jadi kuncinya. Dan yang terakhir,
tipe petunjuk yang paling gampang kita
ngerti, angka. Ya, ini data numerik
biasa yang bisa kita tambah kurang
rata-ratain. Contohnya ya, pendapatan
tahunan ini jelas banget angkanya dan
bisa diukur. Oke, sekarang kita udah
paham nih sama bukti-buktinya. Yuk, kita
lihat gimana si detektif ini ngerumusin
pertanyaannya. Soalnya ternyata enggak
semua pertanyaan itu sama bagusnya loh.
Ada cara yang oke, ada juga yang kurang
oke buat memilah data. Nah, slide ini
nunjukin perbandingan yang keren banget.
Di sebelah kiri ada yang namanya
pemisahan multicabang. Mesin bisa aja
nanya apa status perkawinan Anda dan
langsung bikin tiga cabang. Lajang,
menikah, dan bercerai. Tapi di kanan ada
pendekatan yang jauh lebih disukai.
Pemisahan biner. Pertanyaan simpel ya
atau tidak seperti apakah Anda menikah?
Ternyata yang simpel ini malah jauh
lebih ampuh. Loh, kenapa gitu? Soalnya
pemisahan multicabang itu gampang banget
ngebuat data jadi pecah ke
kelompok-kelompok yang kecil-kecil
banget. Ini bisa nipu algoritmanya.
Dikira nemu pola, padahal itu cuma noise
acak. Nah, pemisahan biner yang simpel
ini ngejaga investigasinya tetap fokus.
Oke. Nah, ini dia nih bagian paling
serunya. Si detektif kita ini punya
senjata rahasia. Semacam cara buat
ngasih skor ke setiap pertanyaan biar
bisa nemu mana yang paling jitu. Coba
bayangin deh, pertanyaannya kan bisa
banyak banget. Buat pendapatan tahunan
aja ada puluhan mungkin ratusan titik
potong yang bisa dipilih. Apa
pendapatannya kurang dari Rp80.000,
kurang dari Rp90.000? Gimana coba
mesinnya milih? Jawabannya pakai sesuatu
yang namanya skor ketidakmurnian gini.
Gampangnya anggap aja ini skor
kemurnian. Kalau skornya nol artinya
semua orang di kelompok itu hasilnya
sama. Misalnya semua tidak gagal bayar
sempurna. Tapi kalau skornya 0,5, wah
itu artinya kelompoknya campur aduk
5050. Enggak ngebantu sama sekali. Jadi
strateginya si detektif gini nih.
Pertama dia hitung dulu skor kemurnian
data. Terus dia coba ajukan satu
pertanyaan buat ngebagi data jadi dua
kelompok baru. Nah, dia hitung lagi skor
kemurnian rata-rata dari dua kelompok
baru ini. Tujuannya simpel, cari
pertanyaan yang bikin kemurniannya naik
paling tinggi. Itulah petunjuk
terbaiknya. Yuk, kita lihat contoh
nyatanya. Kayak yang kelihatan di slide,
kalau kita tanya apa pendapatannya
kurang dari atau sama dengan Rp110.000,
data kita kebagi dua kan. Simpul yang
kiri jadi agak campur aduk dengan skor
gini 0,490.
Tapi lihat deh simpul yang kanan. Semua
orang di grup ini lunas minjamannya.
Skor gininya jadi nol sempurna. Nah,
mesinnya nanti ngitung rata-rata
tertimbang dari dua skor ini. Proses ini
diulang terus buat setiap kemungkinan
pertanyaan. Nah, sekarang kita sampai di
puncaknya nih. Setelah semua kemungkinan
pertanyaan dinilai, sekarang waktunya
kita lihat mana yang jadi juaranya.
Jadi mesin itu ngelakuin ini secara
sistematis. Dia cari pertanyaan terbaik
buat pemilik rumah, terus pertanyaan
terbaik buat status perkawinan dan
pertanyaan terbaik buat pendapatan
tahunan. Masing-masing dapat skor
peningkatan gini terbaiknya.
Dan ini dia hasilnya. Kita bisa lihat
skor peningkatan Gini paling tinggi yang
bisa didapat dari tiap atribut.
Angka-angka ini nunjukin seberapa jago
tiap petunjuk buat misahin data kita
jadi kelompok yang lebih murni.
Grafik batang ini bikin hasilnya jadi
jelas banget. Kita bisa langsung
bandingin kekuatan masing-masing
atribut. Kelihatan kan ada satu batang
yang jelas-jelas paling tinggi. Nah, ini
momen AH-nya si detektif dan pemenangnya
adalah status perkawinan. Tepatnya
pertanyaan apakah pemohon sudah menikah
ini yang ngasih peningkatan kemurnian
paling gede. Ini terobosan pertama di
kasus kita dan ini yang jadi akar dari
pohon keputusan kita. Nah, dari sini
prosesnya diulang lagi. Buat tiap cabang
baru, algoritma bakal cari lagi
pertanyaan terbaik berikutnya. Tapi
pendekatan ini punya satu kelemahan
penting yang perlu kita tahu. Metode ini
tuh disebut rakus atau greedy. Maksudnya
di setiap langkah dia cuma milih
pertanyaan yang paling bagus saat itu
juga tanpa mikirin efeknya nanti gimana.
Ini emang efektif banget, tapi bisa
bikin yang namanya overfitting. Jadi,
pohonnya jadi terlalu rumit dan malah
nangkap noise acak, bukan sinyal
beneran. Makanya di dunia nyata
model-model canggih pakai teknik kayak
pemangkasan yang intinya motong
cabang-cabang yang enggak perlu biar
pohonnya tetap simpel tapi akurat. Oke,
jadi kita udah lihat gimana cara kerja
satu detektif pohon keputusan. Cerdas,
sistematis, dan kuat banget. Ini
ninggalin kita sama satu pertanyaan yang
menarik banget. Kalau satu set
pertanyaan ya tidak yang simpel aja
sekuat ini, apa jadinya kalau kita punya
ribuan detektif ini kerja bareng-bareng?
Nah, itu petunjuk buat misteri kita yang
selanjutnya.