Transcript
7TjViq5_rx4 • Mengajari Mesin Membaca
/home/itcorpmy/itcorp.my.id/harry/yt_channel/out/wawasan-cerdas/.shards/text-0001.zst#text/0001_7TjViq5_rx4.txt
Kind: captions Language: id Pernah kepikiran enggak sih gimana caranya AI itu bisa benar-benar ngerti isi sebuah teks? Bukan cuma sekedar nyari kata kunci doang. Nah, di sini kita bakal bongkar ceritanya gimana mesin itu diajarin membaca dan bahkan berpikir selangkah demi selangkah. Nah, ini dia nih pertanyaan kuncinya. Sebenarnya paham buat sebuah mesin itu artinya apa sih? Ini bukan cuma soal teknis loh, ini adalah teka-teki mendasar yang bikin pusing para peneliti AI selama bertahun-tahun. Oke, kita mundur sedikit ke belakang ya. Jadi, sebelum tahun 2016, para peneliti itu kayak dihadapkan pada sebuah pilihan yang sulit. Mereka punya dua cara buat ngetes AI, tapi dua-duanya enggak ada yang benar-benar pas. Coba bayangin deh, di satu sisi ada data berkualitas super tinggi kayak cerita kompleks buatan manusia gitu. keren tapi jumlahnya dikit banget. Jelas enggak cukup buat ngelatih AI modern yang lapar data. Nah, di sisi lain ada jutaan data, banyak banget tapi kualitasnya rendah. Pertanyaannya dangkal banget kayak soal isi titik-titik yang sama sekali enggak nguji pemahaman. Jadi, udah jelas kan yang dibutuhin itu semacam ujian standar buat AI. sesuatu yang ukurannya masif, kualitasnya bagus, dan yang penting gampang dinilai secara otomatis. Biar apa? Biar semua peneliti bisa maju bareng ke arah yang sama. Nah, di sinilah ceritanya jadi menarik. Tahun 2016, para peneliti di Stanford datang bawa solusi. Mereka menciptakan squad. Anggap aja ini kayak ujian nasional pertama di dunia buat kemampuan membaca mesin. Dan skalanya ini enggak main-main. Ada lebih dari 100.000 Ibu pasang pertanyaan dan jawaban. Dan yang paling penting semuanya dibuat sama manusia beneran berdasarkan artikel-artikel Wikipedia. Ini yang bikin kualitas dan relevansinya jauh di atas apapun yang ada saat itu. Terus apa sih formula rahasianya squad? Simpel tapi genius. Tugas EA-nya itu cuman satu, temukan jawaban yang kata-katanya persis ada di dalam teks yang dikasih. Aturan simpel ini ditambah adanya papan peringkat publik. langsung bikin heboh. Tiba-tiba aja semua lab AI di dunia jadi kayak ikut kompetisi global berlomba-lomba jadi nomor satu. Dan ini memicu ledakan inovasi yang luar biasa. Enggak butuh waktu lama, model-model AI ini jago banget di squuad. Bahkan performanya udah nyamain manusia. Keren kan? Tapi di balik kesuksesan ini ternyata ada satu kelemahan yang fatal banget. Ini dia masalahnya. Modal-modal AI ini dioptimalkan untuk selalu ngasih jawaban apapun yang terjadi. Jadi, kalau kita kasih pertanyaan yang jawabannya emang enggak ada di teks, dia bukannya bilang enggak tahu, tapi malah nebak dan tebakannya seringkiali ngacau dan enggak masuk akal. Intinya AI ini belum punya kemampuan buat bilang, "Maaf, saya tidak tahu." Solusinya, hadirlah squad 2.0. Para peneliti ini pintar. Mereka nambahin lebih dari 50.000 pertanyaan baru yang emang sengaja dibuat enggak bisa dijawab. Bahkan mereka sengaja taruh jawaban palsu yang kelihatannya meyakinkan di dalam teks benar-benar buat ngejebak AI. Tujuannya satu, ngetes apakah si AI ini bisa nahan diri dan enggak asal jawab. Dan hasilnya, wah benar-benar kelihatan bedanya. Model yang tadinya jadi juara kelas di Squad 1.1 nilainya langsung anjlok drastis di squuad 2.0. Ini jadi bukti telak bahwa tahu kapan kita tidak tahu itu ternyata skill yang jauh lebih susah buat dikuasai. Oke, jadi sekarang AI-nya udah lebih pintar, udah bisa bilang enggak tahu. Tapi tantangannya belum selesai. Masih ada satu masalah besar. Kebanyakan pertanyaan squad itu jawabannya ada di satu kalimat aja. Level pemahaman selanjutnya butuh skill yang lebih tinggi, yaitu kemampuan buat nyambung-nyambungin informasi dari beberapa tempat berbeda. Nah, kemampuan ini punya nama keren multiop reasoning atau penalaran multilangkah. Biar gampang, bayangin aja ini bukan lagi soal pilihan ganda, tapi udah naik level jadi soal essay open book. Kita harus cari info dari halaman-halaman yang beda. Terus kita gabungin sendiri buat bikin satu jawaban yang lengkap. Contoh klasiknya dari dataset baru namanya hotspot QA. Lihat deh pertanyaannya. Kapan vokalis radio Head lahir? AI enggak bisa langsung nemu jawabannya di satu dokumen. Dia harus mikir langkah pertama. Oke, siapa sih vokalisnya Radio Head? Dia cari dan nemu Tom York. Nah, nama Tom York ini jadi petunjuk baru. Langkah kedua, AI nyari info soal Tom York dan akhirnya nemu tanggal lahirnya. Nah, proses dua langkah inilah yang disebut rantai penalaran. Jadi, bisa kita lihat ya, lompatan kompleksitasnya itu gede banget. Hotpot QA ini enggak cuma nyuruh AI buat nemuin jawaban yang udah ada. Dia nuntut AI buat ngebangun sebuah jawaban baru dengan cara ngerangkai potongan-potongan bukti dari sumber yang berbeda-beda. Tapi bagian paling keren dari hotpot QA itu sebenarnya bukan cuma soal pertanyaan yang lebih susah. Inovasi terbesarnya adalah dia maksa AI buat pamer cara kerjanya. Maksudnya gimana? Jadi untuk setiap jawaban yang dikasih, AI juga harus nunjukin fakta pendukungnya. Dia harus bisa bilang, "Ini loh kalimat-kalimat persis dari sumber A dan B yang saya pakai buat nyusun jawaban ini." Sistem nilainya juga canggih. AI baru bisa dapat nilai sempurna kalau jawabannya benar dan bukti pendukung yang dia tunjukin juga benar. Ini penting banget buat mastiin AI itu pintar beneran, bukan cuma kebetulan nebaknya benar. Terus kenapa sih kita perlu tahu semua sejarah ujian akademis ini? Jawabannya simpel, karena semua tantangan inilah yang jadi cikalbakal dan ngebentuk langsung alat-alat AI yang kita pakai tiap hari sekarang. Perjalanan dari Squad ke Hotpot QA ini bisa kita lihat kayak gym atau tempat latihan yang sempurna buat AI. Squat itu kayak latihan dasar yang ngebuktiin kehebatan model kayak bird. Terus hotpot QA itu latihan lanjutannya yang maksa mereka buat naik kelas. Dari yang tadinya cuma pencari info, jadi pemikir yang bisa bernalar. Jadi intinya apa? Seluruh evolusi ini nunjukin pergesaran yang fundamental banget. Dari yang awalnya cuma bisa nemuin jawaban, jadi bisa ngebangun jawaban lengkap dengan buktinya. Dan kemampuan inilah yang jadi jantung dari semua AI canggih yang kita pakai sekarang. Nah, semua ini akhirnya membawa kita ke satu pertanyaan terakhir yang bikin penasaran. Ujian-ujian ini udah berhasil ngebangun AI yang kita punya sekarang. Pertanyaannya adalah ujian besar apa lagi ya yang harus kita ciptakan buat mendorong AI ke level selanjutnya yang lebih tinggi lagi?