Memahami Deep Reinforcement Learning: Konsep Dasar, Algoritma, dan Penerapannya

Inti Sari (Executive Summary)

Video ini memberikan pengantar mendalam mengenai Deep Reinforcement Learning (Deep RL), sebuah cabang Machine Learning yang berfokus pada pengambilan keputusan berurutan untuk memaksimalkan reward kumulatif. Pembicara menjelaskan dua pendekatan utama dalam Deep RL, yaitu Policy Gradients dan Q-Learning, beserta perbandingan kelebihan, kekurangan, dan algoritma turunannya seperti TRPO dan DQN. Selain membahas teori matematika dan formalisme Markov Decision Process (MDP), sesi ini juga menyoroti penerapan praktis dalam robotika dan permainan, serta tantangan seperti penentuan ukuran langkah (step size) dan masalah eksplorasi.

Poin-Poin Kunci (Key Takeaways)

Definisi Deep RL: Cabang ML di mana agent berinteraksi dengan lingkungan yang tidak diketahui untuk memaksimalkan reward dari waktu ke waktu, menggunakan jaringan saraf (neural networks) sebagai pendekati fungsi.
Perbandingan Metode: Berbeda dengan Supervised Learning (input-output pasangan) dan Contextual Bandits (tanpa state), RL menangani lingkungan yang stateful di mana input bergantung pada tindakan sebelumnya.
Dua Keluarga Algoritma Utama:
1. Policy Gradients: Mengoptimalkan kebijakan (policy) secara langsung; lebih umum, andal, dan mudah dipahami.
2. Q-Learning: Mempelajari fungsi nilai (seberapa baik suatu tindakan di suatu keadaan); lebih efisien sampel namun lebih sulit di-debug dan kurang umum.
Optimasi Policy Gradients: Melibatkan peningkatan probabilitas trajectory yang menghasilkan reward tinggi, dengan perbaikan seperti pengurangan varians melalui baseline, discount factor, dan advantage estimate.
Tantangan Implementasi: Masalah ukuran langkah yang terlalu besar dapat menghancurkan kebijakan yang telah dipelajari, sementara time step yang terlalu kecil dapat mempersulit penugasan kredit (credit assignment) dan eksplorasi.

Rincian Materi (Detailed Breakdown)

1. Pengantar dan Definisi Deep RL

Video dimulai dengan memperkenalkan Deep Reinforcement Learning sebagai metode inti untuk tugas berorientasi tujuan.
* Aplikasi: Digunakan dalam berbagai bidang seperti robotika (keseimbangan, navigasi), manajemen inventaris, perhatian (attention) pada gambar, dan prediksi terstruktur seperti terjemahan mesin.
* Perbedaan dengan Metode Lain:
* Supervised Learning: Lingkungan memberikan pasangan input-output yang benar.
* Contextual Bandits: Tidak ada state; tindakan saat ini tidak memengaruhi input masa depan (cocok untuk rekomendasi iklan).
* Reinforcement Learning: Lingkungan memiliki state; tindakan memengaruhi keadaan masa depan, membuat input menjadi non-stasioner dan efeknya tertunda.

2. Kapan Tidak Menggunakan Deep RL & Kisah Sukses

Deep RL tidak selalu menjadi solusi utama dan seringkali dianggap "berlebihan" (overkill) untuk masalah sederhana.
* Alternatif: Untuk parameter sedikit dengan simulator, optimasi tanpa turunan (derivative-free optimization) lebih disarankan. Untuk masalah tanpa statefulness, Contextual Bandits atau metode Operations Research lebih tepat.
* Kisah Sukses: Deep RL telah berhasil mencapai performa manusia super dalam permainan Atari (Deep Q-Learning), permainan Go (kombinasi SL dan Policy Gradients), dan robotika (lokomosi dan manipulasi real-time).

3. Formalisme: MDP dan Kebijakan (Policy)

Markov Decision Process (MDP): Objek dasar dalam RL yang terdiri dari ruang keadaan (state space), ruang tindakan (action space), dan distribusi probabilitas transisi.
Pengaturan Episodik: Pengalaman agent dibagi menjadi episode terbatas. Tujuannya adalah memaksimalkan ekspektasi total reward per episode.
Kebijakan (Policy): Fungsi yang digunakan agent untuk memilih tindakan, bisa bersifat deterministik atau stokastik (distribusi probabilitas bersyarat).

4. Policy Gradients: Intuisi dan Estimator Gradien

Kebijakan Terparameterisasi: Menggunakan vektor parameter $\theta$ (misalnya bobot jaringan saraf) untuk mendefinisikan kebijakan. Arsitekturnya mirip dengan Supervised Learning (klasifikasi untuk aksi diskrit, regresi untuk aksi kontinu).
Intuisi: Tujuannya adalah membuat trajectory (lintasan) yang menghasilkan reward tinggi menjadi lebih mungkin terjadi.
Score Function Estimator: Metode matematis untuk menghitung gradien dari ekspektasi terhadap parameter, menghasilkan estimator yang tidak bias (unbiased estimator).

5. Perbaikan pada Policy Gradients dan Algoritma Vanilla

Estimator Dasar: Menggunakan gradien log probabilitas dikali total reward.
Perbaikan Varians:
1. Struktur Temporal: Menggunakan jumlah reward masa depan (future rewards) daripada total reward keseluruhan untuk setiap langkah waktu.
2. Baseline: Mengurangi fungsi baseline (misalnya ekspektasi pengembalian) dari reward untuk mengurangi varians tanpa mengubah rata-rata.
3. Diskon: Menggunakan faktor diskon $\gamma$ untuk mengabaikan efek yang tertunda terlalu lama.
Algoritma Vanilla Policy Gradient: Melibatkan eksekusi kebijakan, penghitungan pengembalian (return), pembaruan baseline, dan pembaruan kebijakan menggunakan SGD.

6. Tantangan Ukuran Langkah dan Solusi (TRPO)

Masalah: Dalam RL, langkah optimasi yang terlalu besar dapat menghancurkan kebijakan, menyebabkan agent mengunjungi ruang keadaan yang buruk dan sulit pulih.
Solusi (TRPO): Trust Region Policy Optimization membatasi seberapa jauh kebijakan baru berubah dari kebijakan lama dengan menggunakan KL Divergence sebagai kendala.
Actor-Critic: Menggunakan fungsi nilai secara agresif untuk mengurangi varians, meskipun ini memperkenalkan bias.

7. Demo: Pembelajaran Locomotion

Demonstrasi menunjukkan humanoid robot dalam simulator fisika (MuJoCo) yang belajar berlari dari awal.
* Input: Sudut sendi, kecepatan, posisi link.
* Output: Torsi sendi.
* Reward: Bergerak maju secepat mungkin. Episode berakhir jika kepala robot jatuh di bawah ketinggian tertentu. Robot berhasil belajar berjalan dan berlari dengan stabil tanpa rekayasa fitur yang kompleks.

8. Q-Learning dan Persamaan Bellman

Pendekatan kedua adalah mempelajari fungsi Q (Q-function) alih-alih kebijakan secara langsung.
* Definisi: Fungsi Q mengukur seberapa baik tindakan tertentu di keadaan tertentu.
* Persamaan Bellman: Persamaan konsistensi untuk fungsi nilai, menghubungkan nilai keadaan saat ini dengan nilai keadaan masa depan.
* Dynamic Programming: Algoritma seperti Value Iteration dan Policy Iteration dapat menyelesaikan MDP secara tepat jika model lingkungan diketahui.

9. Q-Learning dengan Pendekatan Fungsi (Deep Q-Networks)

Karena probabilitas transisi tidak diketahui dalam RL, kita menggunakan estimator sampel dan pendekatan fungsi (Neural Networks).
* Neural Fitted Q Iteration: Menggunakan jaringan saraf untuk memperkirakan fungsi Q dengan meminimalkan kesalahan kuadrat berdasarkan backup Bellman.
* DQN (Deep Q-Network): Versi online yang menggunakan dua trik penting:
1. Replay Pool: Menyimpan riwayat data untuk pengambilan sampel yang representatif.
2. Target Network: Salinan jaringan Q yang tertunda untuk menstabilkan pembelajaran.
* SARSA: Varian online dari Policy Iteration yang terkadang bekerja lebih baik daripada DQN tergantung pengaturannya.

10. Perbandingan Akhir dan Diskusi (Q&A)

Perbandingan Algoritma:
- Policy Gradients: Lebih andal, umum, dan mudah dipahami.

Kesimpulan & Pesan Penutup

Deep Reinforcement Learning menyediakan kerangka kerja yang canggih untuk memecahkan masalah pengambilan keputusan berurutan melalui interaksi agent dan lingkungan. Dengan memahami perbedaan mendasar antara Policy Gradients dan Q-Learning, serta tantangan seperti varians dan penentuan ukuran langkah, kita dapat menerapkan metode ini secara efektif. Teknik-teknik lanjutan seperti TRPO dan DQN telah membuktikan bahwa Deep RL mampu mencapai performa luar biasa dalam berbagai aplikasi nyata, mulai dari robotika hingga permainan strategis.