Transcript

7TjViq5_rx4 • Mengajari Mesin Membaca
/home/itcorpmy/itcorp.my.id/harry/yt_channel/out/wawasan-cerdas/.shards/text-0001.zst#text/0001_7TjViq5_rx4.txt
Back Raw
Kind: captions
Language: id
Pernah kepikiran enggak sih gimana
caranya AI itu bisa benar-benar ngerti
isi sebuah teks? Bukan cuma sekedar
nyari kata kunci doang. Nah, di sini
kita bakal bongkar ceritanya gimana
mesin itu diajarin membaca dan bahkan
berpikir selangkah demi selangkah. Nah,
ini dia nih pertanyaan kuncinya.
Sebenarnya paham buat sebuah mesin itu
artinya apa sih? Ini bukan cuma soal
teknis loh, ini adalah teka-teki
mendasar yang bikin pusing para peneliti
AI selama bertahun-tahun.
Oke, kita mundur sedikit ke belakang ya.
Jadi, sebelum tahun 2016, para peneliti
itu kayak dihadapkan pada sebuah pilihan
yang sulit. Mereka punya dua cara buat
ngetes AI, tapi dua-duanya enggak ada
yang benar-benar pas. Coba bayangin deh,
di satu sisi ada data berkualitas super
tinggi kayak cerita kompleks buatan
manusia gitu. keren tapi jumlahnya dikit
banget. Jelas enggak cukup buat ngelatih
AI modern yang lapar data. Nah, di sisi
lain ada jutaan data, banyak banget tapi
kualitasnya rendah. Pertanyaannya
dangkal banget kayak soal isi
titik-titik yang sama sekali enggak
nguji pemahaman. Jadi, udah jelas kan
yang dibutuhin itu semacam ujian standar
buat AI. sesuatu yang ukurannya masif,
kualitasnya bagus, dan yang penting
gampang dinilai secara otomatis. Biar
apa? Biar semua peneliti bisa maju
bareng ke arah yang sama. Nah, di
sinilah ceritanya jadi menarik. Tahun
2016, para peneliti di Stanford datang
bawa solusi. Mereka menciptakan squad.
Anggap aja ini kayak ujian nasional
pertama di dunia buat kemampuan membaca
mesin. Dan skalanya ini enggak
main-main. Ada lebih dari 100.000 Ibu
pasang pertanyaan dan jawaban. Dan yang
paling penting semuanya dibuat sama
manusia beneran berdasarkan
artikel-artikel Wikipedia. Ini yang
bikin kualitas dan relevansinya jauh di
atas apapun yang ada saat itu. Terus apa
sih formula rahasianya squad? Simpel
tapi genius. Tugas EA-nya itu cuman
satu, temukan jawaban yang kata-katanya
persis ada di dalam teks yang dikasih.
Aturan simpel ini ditambah adanya papan
peringkat publik. langsung bikin heboh.
Tiba-tiba aja semua lab AI di dunia jadi
kayak ikut kompetisi global
berlomba-lomba jadi nomor satu. Dan ini
memicu ledakan inovasi yang luar biasa.
Enggak butuh waktu lama, model-model AI
ini jago banget di squuad. Bahkan
performanya udah nyamain manusia. Keren
kan? Tapi di balik kesuksesan ini
ternyata ada satu kelemahan yang fatal
banget. Ini dia masalahnya. Modal-modal
AI ini dioptimalkan untuk selalu ngasih
jawaban apapun yang terjadi. Jadi, kalau
kita kasih pertanyaan yang jawabannya
emang enggak ada di teks, dia bukannya
bilang enggak tahu, tapi malah nebak dan
tebakannya seringkiali ngacau dan enggak
masuk akal. Intinya AI ini belum punya
kemampuan buat bilang, "Maaf, saya tidak
tahu." Solusinya, hadirlah squad 2.0.
Para peneliti ini pintar. Mereka
nambahin lebih dari 50.000 pertanyaan
baru yang emang sengaja dibuat enggak
bisa dijawab. Bahkan mereka sengaja
taruh jawaban palsu yang kelihatannya
meyakinkan di dalam teks benar-benar
buat ngejebak AI. Tujuannya satu, ngetes
apakah si AI ini bisa nahan diri dan
enggak asal jawab. Dan hasilnya, wah
benar-benar kelihatan bedanya. Model
yang tadinya jadi juara kelas di Squad
1.1 nilainya langsung anjlok drastis di
squuad 2.0. Ini jadi bukti telak bahwa
tahu kapan kita tidak tahu itu ternyata
skill yang jauh lebih susah buat
dikuasai. Oke, jadi sekarang AI-nya udah
lebih pintar, udah bisa bilang enggak
tahu. Tapi tantangannya belum selesai.
Masih ada satu masalah besar. Kebanyakan
pertanyaan squad itu jawabannya ada di
satu kalimat aja. Level pemahaman
selanjutnya butuh skill yang lebih
tinggi, yaitu kemampuan buat
nyambung-nyambungin informasi dari
beberapa tempat berbeda. Nah, kemampuan
ini punya nama keren multiop reasoning
atau penalaran multilangkah. Biar
gampang, bayangin aja ini bukan lagi
soal pilihan ganda, tapi udah naik level
jadi soal essay open book. Kita harus
cari info dari halaman-halaman yang
beda. Terus kita gabungin sendiri buat
bikin satu jawaban yang lengkap. Contoh
klasiknya dari dataset baru namanya
hotspot QA. Lihat deh pertanyaannya.
Kapan vokalis radio Head lahir? AI
enggak bisa langsung nemu jawabannya di
satu dokumen. Dia harus mikir langkah
pertama. Oke, siapa sih vokalisnya Radio
Head? Dia cari dan nemu Tom York. Nah,
nama Tom York ini jadi petunjuk baru.
Langkah kedua, AI nyari info soal Tom
York dan akhirnya nemu tanggal lahirnya.
Nah, proses dua langkah inilah yang
disebut rantai penalaran. Jadi, bisa
kita lihat ya, lompatan kompleksitasnya
itu gede banget. Hotpot QA ini enggak
cuma nyuruh AI buat nemuin jawaban yang
udah ada. Dia nuntut AI buat ngebangun
sebuah jawaban baru dengan cara
ngerangkai potongan-potongan bukti dari
sumber yang berbeda-beda. Tapi bagian
paling keren dari hotpot QA itu
sebenarnya bukan cuma soal pertanyaan
yang lebih susah. Inovasi terbesarnya
adalah dia maksa AI buat pamer cara
kerjanya. Maksudnya gimana? Jadi untuk
setiap jawaban yang dikasih, AI juga
harus nunjukin fakta pendukungnya. Dia
harus bisa bilang, "Ini loh
kalimat-kalimat persis dari sumber A dan
B yang saya pakai buat nyusun jawaban
ini." Sistem nilainya juga canggih. AI
baru bisa dapat nilai sempurna kalau
jawabannya benar dan bukti pendukung
yang dia tunjukin juga benar. Ini
penting banget buat mastiin AI itu
pintar beneran, bukan cuma kebetulan
nebaknya benar. Terus kenapa sih kita
perlu tahu semua sejarah ujian akademis
ini? Jawabannya simpel, karena semua
tantangan inilah yang jadi cikalbakal
dan ngebentuk langsung alat-alat AI yang
kita pakai tiap hari sekarang.
Perjalanan dari Squad ke Hotpot QA ini
bisa kita lihat kayak gym atau tempat
latihan yang sempurna buat AI. Squat itu
kayak latihan dasar yang ngebuktiin
kehebatan model kayak bird. Terus hotpot
QA itu latihan lanjutannya yang maksa
mereka buat naik kelas. Dari yang
tadinya cuma pencari info, jadi pemikir
yang bisa bernalar. Jadi intinya apa?
Seluruh evolusi ini nunjukin pergesaran
yang fundamental banget. Dari yang
awalnya cuma bisa nemuin jawaban, jadi
bisa ngebangun jawaban lengkap dengan
buktinya. Dan kemampuan inilah yang jadi
jantung dari semua AI canggih yang kita
pakai sekarang.
Nah, semua ini akhirnya membawa kita ke
satu pertanyaan terakhir yang bikin
penasaran. Ujian-ujian ini udah berhasil
ngebangun AI yang kita punya sekarang.
Pertanyaannya adalah ujian besar apa
lagi ya yang harus kita ciptakan buat
mendorong AI ke level selanjutnya yang
lebih tinggi lagi?