Kind: captions Language: id Oke, halo semuanya. Hari ini kita bakal jadi detektif nih. Kita mau pecahin misteri besar tentang gimana caranya sebuah mesin bisa belajar untuk mengambil keputusan. Yuk, kita selami cara kerjanya selangkah demi selangkah. Coba dibayangin Anda lagi ngajuin pinjaman dan cuma dalam hitungan detik sebuah aplikasi langsung ngasih jawaban ya atau tidak. Gimana ceritanya ya, apa sih yang sebenarnya terjadi di balik layar? Nah, inilah pertanyaan besar yang akan kita jawab bareng-bareng. Jawabannya itu ternyata e enggak serumit yang kita bayangin loh. Mesin itu pada dasarnya cuma membuat semacam peta keputusan. Peta ini isinya cuma serangkaian pertanyaan ya atau tidak yang super simpel yang nuntun dia sampai ke sebuah kesimpulan. Oke, tapi coba deh kita pikirin dari semua kemungkinan pertanyaan yang ada misalnya apakah Anda punya rumah atau berapa pendapatan tahunan Anda? Gimana caranya si mesin ini tahu mana yang paling penting yang harus ditanyain duluan. Nah, ini dia nih inti dari investigasi kita hari ini. Oke, untuk memulai detektif mana pun butuh yang namanya berkas kasus, kan? Nah, berkas kasus kita kali ini isinya adalah sekumpulan data yang sederhana. Lihat deh, di sini kita punya data beberapa peminjam. kita bisa lihat, oke dia punya rumah atau enggak, status nikahnya gimana, terus pendapatan tahannya berapa. Nah, tujuan utamanya itu kita mau coba tebak kolom yang paling kanan. Dia bakal gagal bayar atau enggak cuma dari tiga info lainnya. Sebelum kita mulai nanya-nanya, detektif yang jago itu harus paham dulu sama bukti-bukti yang dia punya. Kalau di kasus kita ya, artinya kita harus ngerti dulu jenis-jenis data yang kita hadapi. Petunjuk pertama kita, kita sebut aja label. Ini tuh data kualitatif yang nilainya cuma sekedar nama, enggak ada urutannya sama sekali. Menikah kan enggak lebih tinggi atau lebih rendah dari lajang, ya kan? Cuma beda kategori aja. Terus tipe petunjuk kedua itu peringkat. Nah, kalau di sini urutan itu penting banget. Kita semua tahulah ya. ukuran baju L itu lebih gede dari M. Tapi kita kan enggak bisa bilang bedanya itu seberapa besar. Jadi urutannya itu yang jadi kuncinya. Dan yang terakhir, tipe petunjuk yang paling gampang kita ngerti, angka. Ya, ini data numerik biasa yang bisa kita tambah kurang rata-ratain. Contohnya ya, pendapatan tahunan ini jelas banget angkanya dan bisa diukur. Oke, sekarang kita udah paham nih sama bukti-buktinya. Yuk, kita lihat gimana si detektif ini ngerumusin pertanyaannya. Soalnya ternyata enggak semua pertanyaan itu sama bagusnya loh. Ada cara yang oke, ada juga yang kurang oke buat memilah data. Nah, slide ini nunjukin perbandingan yang keren banget. Di sebelah kiri ada yang namanya pemisahan multicabang. Mesin bisa aja nanya apa status perkawinan Anda dan langsung bikin tiga cabang. Lajang, menikah, dan bercerai. Tapi di kanan ada pendekatan yang jauh lebih disukai. Pemisahan biner. Pertanyaan simpel ya atau tidak seperti apakah Anda menikah? Ternyata yang simpel ini malah jauh lebih ampuh. Loh, kenapa gitu? Soalnya pemisahan multicabang itu gampang banget ngebuat data jadi pecah ke kelompok-kelompok yang kecil-kecil banget. Ini bisa nipu algoritmanya. Dikira nemu pola, padahal itu cuma noise acak. Nah, pemisahan biner yang simpel ini ngejaga investigasinya tetap fokus. Oke. Nah, ini dia nih bagian paling serunya. Si detektif kita ini punya senjata rahasia. Semacam cara buat ngasih skor ke setiap pertanyaan biar bisa nemu mana yang paling jitu. Coba bayangin deh, pertanyaannya kan bisa banyak banget. Buat pendapatan tahunan aja ada puluhan mungkin ratusan titik potong yang bisa dipilih. Apa pendapatannya kurang dari Rp80.000, kurang dari Rp90.000? Gimana coba mesinnya milih? Jawabannya pakai sesuatu yang namanya skor ketidakmurnian gini. Gampangnya anggap aja ini skor kemurnian. Kalau skornya nol artinya semua orang di kelompok itu hasilnya sama. Misalnya semua tidak gagal bayar sempurna. Tapi kalau skornya 0,5, wah itu artinya kelompoknya campur aduk 5050. Enggak ngebantu sama sekali. Jadi strateginya si detektif gini nih. Pertama dia hitung dulu skor kemurnian data. Terus dia coba ajukan satu pertanyaan buat ngebagi data jadi dua kelompok baru. Nah, dia hitung lagi skor kemurnian rata-rata dari dua kelompok baru ini. Tujuannya simpel, cari pertanyaan yang bikin kemurniannya naik paling tinggi. Itulah petunjuk terbaiknya. Yuk, kita lihat contoh nyatanya. Kayak yang kelihatan di slide, kalau kita tanya apa pendapatannya kurang dari atau sama dengan Rp110.000, data kita kebagi dua kan. Simpul yang kiri jadi agak campur aduk dengan skor gini 0,490. Tapi lihat deh simpul yang kanan. Semua orang di grup ini lunas minjamannya. Skor gininya jadi nol sempurna. Nah, mesinnya nanti ngitung rata-rata tertimbang dari dua skor ini. Proses ini diulang terus buat setiap kemungkinan pertanyaan. Nah, sekarang kita sampai di puncaknya nih. Setelah semua kemungkinan pertanyaan dinilai, sekarang waktunya kita lihat mana yang jadi juaranya. Jadi mesin itu ngelakuin ini secara sistematis. Dia cari pertanyaan terbaik buat pemilik rumah, terus pertanyaan terbaik buat status perkawinan dan pertanyaan terbaik buat pendapatan tahunan. Masing-masing dapat skor peningkatan gini terbaiknya. Dan ini dia hasilnya. Kita bisa lihat skor peningkatan Gini paling tinggi yang bisa didapat dari tiap atribut. Angka-angka ini nunjukin seberapa jago tiap petunjuk buat misahin data kita jadi kelompok yang lebih murni. Grafik batang ini bikin hasilnya jadi jelas banget. Kita bisa langsung bandingin kekuatan masing-masing atribut. Kelihatan kan ada satu batang yang jelas-jelas paling tinggi. Nah, ini momen AH-nya si detektif dan pemenangnya adalah status perkawinan. Tepatnya pertanyaan apakah pemohon sudah menikah ini yang ngasih peningkatan kemurnian paling gede. Ini terobosan pertama di kasus kita dan ini yang jadi akar dari pohon keputusan kita. Nah, dari sini prosesnya diulang lagi. Buat tiap cabang baru, algoritma bakal cari lagi pertanyaan terbaik berikutnya. Tapi pendekatan ini punya satu kelemahan penting yang perlu kita tahu. Metode ini tuh disebut rakus atau greedy. Maksudnya di setiap langkah dia cuma milih pertanyaan yang paling bagus saat itu juga tanpa mikirin efeknya nanti gimana. Ini emang efektif banget, tapi bisa bikin yang namanya overfitting. Jadi, pohonnya jadi terlalu rumit dan malah nangkap noise acak, bukan sinyal beneran. Makanya di dunia nyata model-model canggih pakai teknik kayak pemangkasan yang intinya motong cabang-cabang yang enggak perlu biar pohonnya tetap simpel tapi akurat. Oke, jadi kita udah lihat gimana cara kerja satu detektif pohon keputusan. Cerdas, sistematis, dan kuat banget. Ini ninggalin kita sama satu pertanyaan yang menarik banget. Kalau satu set pertanyaan ya tidak yang simpel aja sekuat ini, apa jadinya kalau kita punya ribuan detektif ini kerja bareng-bareng? Nah, itu petunjuk buat misteri kita yang selanjutnya.