Induksi Pohon Keputusan: Membangun Model Prediktif dari Data
UKrnwyolRio • 2025-10-17
Transcript preview
Open
Kind: captions Language: id Halo semuanya. Pernah kepikiran enggak sih gimana caranya sebuah mesin itu belajar buat mengambil keputusan? Nah, hari ini kita akan bedah tuntas rahasianya. Kita akan lihat cara kerja pohon keputusan. Khususnya gimana dia milih satu pertanyaan terbaik untuk memulai semuanya. Oke, coba bayangin kita ini lagi jadi detektif. Di depan kita ada setumpuk data dan tugas kita simpel. Temukan satu pertanyaan kunci yang paling jitu buat ngebuka semua petunjuk. dan akhirnya membuat prediksi yang akurat. Ini dia nih berkas kasus kita, data para pemohon pinjaman. Pertanyaan besarnya adalah dari semua info ini, apakah mereka punya rumah, status nikahnya apa atau berapa gajinya? Mana sih petunjuk pertama yang paling mantap untuk nebak? Siapa yang bakal gagal bayar? Sip, kayak detektif beneran. Langkah pertama ya harus kenal sama petunjuknya. Dalam dunia data, petunjuk-petunjuk ini kita sebut atribut. Dan ternyata atribut itu ada beberapa jenis yang beda-beda. Atribut nominal itu ya cuma label aja. Kita enggak bisa bilang menikah itu lebih tinggi dari lajang. Keduanya cuma kategori yang berbeda, enggak ada urutannya. Kalau atribut ordinal ini ada ranking-nya. Kita semua tahu kan ukuran baju L itu lebih besar dari S. Tapi seberapa besar bedanya itu ya enggak bisa dihitung pakai matematika. Ada urutan tapi jaraknya enggak jelas. Nah, ini aturan main yang penting banget. Waktu kita misahin data yang berurutan kayak gini, kita enggak boleh loncat-loncat, harus berurutan. Misalnya kelompok S, M, dan kelompok L XL. Kenapa? Ya, biar informasi urutannya itu enggak hilang sia-sia. Terakhir ada atribut continue. Ini sih angka biasa yang bisa kita ukur kayak pendapatan tahunan atau suhu. Oke, sekarang kita udah kenal sama semua jenis petunjuknya. Waktunya kita siapin alat forensiknya. Terus gimana kita tahu petunjuk mana yang paling oke? Kita butuh alat ukur yang canggih. Nah, dalam kasus ini alat kita namanya adalah indeks gini. Gampangnya ya anggap aja ini sebagai skor kebingungan. Kalau satu grup isinya sama semua, misalnya semuanya enggak gagal bayar. Nah, itu grupnya murni banget. Enggak ada bingung-bingungnya sama sekali. Skor gininya nol. Sempurna. Wah, ada rumus nih. Jangan panik dulu. Intinya tuh simpel banget. Rumus ini cuma cara kita buat ngasih angka ke skor kebingungan tadi. Semakin murni sebuat kelompok, skor jininya bakal makin kecil, mendekati nol. Jadi, misi kita apa? Misi kita adalah memaksimalkan yang namanya gini gain. Gini gain itu intinya seberapa besar kebingungan yang berhasil kita kurangi setelah memisahkan data. Semakin besar penurunannya, berarti semakin jitu pertanyaan kita. Sip. Berkas-kasus siap. Petunjuk udah kita kenali, alat forensik juga udah di tangan. Waktunya investigasi setiap atribut satu persatu. Pertama-tama kita ukur dulu kondisi awal datanya sebelum kita apa-apain. Dengan tiga orang gagal bayar dan 7uh orang tidak, skor gini awal kita adalah 0,42. Ini jadi patokan kita. Semua calon pertanyaan harus bisa ngasih hasil yang lebih bagus dari ini. Tersangka pertama kita adalah status kepemilikan rumah. Coba kita lihat seberapa jernih data kita kalau dipisah berdasarkan ini. Begitu kita pisah weh lihat deh grup yang tidak punya rumah jadi jauh lebih jelas. Isinya hampir semuanya tidak gagal bayar. Ini tanda-tanda bagus nih. Setelah dihitung-hitung gini ginnya 0,115 lumayan. Tapi apa ada yang lebih bagus? Coba kita cek tersangka berikutnya. Lanjut ke tersangka kedua, pendapatan tahunan. Nah, karena ini bentuknya angka, kita enggak bisa cuma bagi jadi dua kelompok sembarangan. Kita harus cari titik potong terbaik. Apakah di atas Rp100.000 atau mungkin Rp10.000. Jadi, si mesin ini pintar banget. Dia bakal ngurutin semua angka pendapatan. Terus dia coba kali satu persatu semua kemungkinan titik potong buat nemuin mana yang ngasih jin gain paling tinggi. Canggih kan? Dan hasilnya setelah semua kerja keras itu, gini gen terbaik dari pendapatan cuma 0,077. Hmm, ternyata masih kalah sama pemilik rumah. Tersangka terakhir kita, status perkawinan. Karena ini ada tiga kategori, kita harus coba-coba kombinasinya. Misalnya yang menikah kita pisahin sendiri atau yang lajang kita pisahin dan seterusnya. Dan jackpot. Pemisahan terbaiknya adalah memisahkan yang menikah dari yang lain. Coba lihat grup yang menikah itu 100% murni. Enggak ada satuun yang gagal bayar. Ini dia petunjuk super kuat. Nah, karena ada satu kelompok yang murni sempurna itu status perkawinan dapat gidin gen yang luar biasa 0,120. Sejauh ini ini skor tertinggi. Oke, semua tersangka sudah kita periksa, buktinya sudah terkumpul. Sekarang waktunya kita bacakan putusan akhir. Dan inilah hasilnya. Jelas banget kan? Dengan Jinny gain paling tinggi, status perkawinan adalah juaranya. Inilah pertanyaan pertama yang paling efektif untuk memisahkan data kita. Jadi, pohon keputusan kita akan dimulai dari sini. Misteri terpecahkan. Kita memang baru nemuin langkah pertamanya aja ya, akar dari pohonnya. Tapi coba bayangin proses yang sama persis ini diulang lagi dan lagi di tiap cabang baru menciptakan sebuah model prediksi yang kuat banget. Intinya apa? Di balik keputusan canggih AI seringkiali dasarnya itu proses yang sangat logis. Selalu pilih langkah terbaik untuk mengurangi kebingungan satu persatu.
Resume
Categories