EITC/AI/ARL Advanced Reinforcement Learning adalah program Sertifikasi TI Eropa tentang pendekatan DeepMind untuk pembelajaran penguatan dalam kecerdasan buatan.
Kurikulum EITC/AI/ARL Advanced Reinforcement Learning berfokus pada aspek teoretis dan keterampilan praktis dalam teknik pembelajaran penguatan dari perspektif DeepMind yang diatur dalam struktur berikut, mencakup konten didaktik video yang komprehensif sebagai referensi untuk Sertifikasi EITC ini.
Pembelajaran penguatan (RL) adalah area pembelajaran mesin yang berkaitan dengan bagaimana agen cerdas harus mengambil tindakan di lingkungan untuk memaksimalkan gagasan penghargaan kumulatif. Pembelajaran penguatan adalah salah satu dari tiga paradigma pembelajaran mesin dasar, di samping pembelajaran yang diawasi dan pembelajaran tanpa pengawasan.
Pembelajaran penguatan berbeda dari pembelajaran terawasi dalam hal tidak perlunya pasangan input/output berlabel disajikan, dan dalam tidak membutuhkan tindakan sub-optimal untuk dikoreksi secara eksplisit. Sebaliknya fokusnya adalah menemukan keseimbangan antara eksplorasi (wilayah yang belum dipetakan) dan eksploitasi (pengetahuan saat ini).
Lingkungan biasanya dinyatakan dalam bentuk proses keputusan Markov (MDP), karena banyak algoritma pembelajaran penguatan untuk konteks ini menggunakan teknik pemrograman dinamis. Perbedaan utama antara metode pemrograman dinamis klasik dan algoritma pembelajaran penguatan adalah bahwa yang terakhir tidak mengasumsikan pengetahuan tentang model matematika yang tepat dari MDP dan mereka menargetkan MDP besar di mana metode yang tepat menjadi tidak layak.
Karena sifatnya yang umum, pembelajaran penguatan dipelajari dalam banyak disiplin ilmu, seperti teori permainan, teori kontrol, riset operasi, teori informasi, optimasi berbasis simulasi, sistem multi-agen, kecerdasan swarm, dan statistik. Dalam penelitian operasi dan literatur kontrol, pembelajaran penguatan disebut pemrograman dinamis perkiraan, atau pemrograman neuro-dinamis. Masalah yang menarik dalam pembelajaran penguatan juga telah dipelajari dalam teori kontrol optimal, yang sebagian besar berkaitan dengan keberadaan dan karakterisasi solusi optimal, dan algoritma untuk perhitungan yang tepat, dan kurang dengan pembelajaran atau aproksimasi, terutama dengan tidak adanya model matematika lingkungan. Dalam teori ekonomi dan permainan, pembelajaran penguatan dapat digunakan untuk menjelaskan bagaimana keseimbangan dapat muncul di bawah rasionalitas terbatas.
Penguatan dasar dimodelkan sebagai proses keputusan Markov (MDP). Dalam matematika, proses keputusan Markov (MDP) adalah proses kontrol stokastik waktu diskrit. Ini menyediakan kerangka matematis untuk pemodelan pengambilan keputusan dalam situasi di mana hasil sebagian acak dan sebagian di bawah kendali pembuat keputusan. MDP berguna untuk mempelajari masalah optimasi yang diselesaikan melalui pemrograman dinamis. MDPs dikenal setidaknya pada awal 1950-an. Sebuah badan inti penelitian tentang proses keputusan Markov dihasilkan dari buku tahun 1960 Ronald Howard, Pemrograman Dinamis dan Proses Markov. Mereka digunakan dalam banyak disiplin ilmu, termasuk robotika, kontrol otomatis, ekonomi dan manufaktur. Nama MDP berasal dari matematikawan Rusia Andrey Markov karena merupakan perpanjangan dari rantai Markov.
Pada setiap langkah waktu, proses berada pada beberapa keadaan S, dan pengambil keputusan dapat memilih tindakan a yang tersedia pada keadaan S. Proses merespon pada langkah waktu berikutnya dengan berpindah secara acak ke keadaan baru S', dan memberikan pembuat keputusan hadiah yang sesuai Ra(S,S').
Probabilitas bahwa proses bergerak ke keadaan baru S' dipengaruhi oleh tindakan yang dipilih a. Secara khusus, ini diberikan oleh fungsi transisi keadaan Pa(S,S'). Dengan demikian, status S' berikutnya bergantung pada status S saat ini dan tindakan pengambil keputusan a. Tetapi mengingat S dan a, itu adalah independen bersyarat dari semua keadaan dan tindakan sebelumnya. Dengan kata lain, transisi status dari MDP memenuhi properti Markov.
Proses keputusan Markov adalah perpanjangan dari rantai Markov; perbedaannya adalah penambahan tindakan (memungkinkan pilihan) dan penghargaan (memberi motivasi). Sebaliknya, jika hanya ada satu tindakan untuk setiap keadaan (misalnya "tunggu") dan semua imbalannya sama (misalnya "nol"), proses keputusan Markov direduksi menjadi rantai Markov.
Sebuah agen pembelajaran penguatan berinteraksi dengan lingkungannya dalam langkah-langkah waktu diskrit. Pada setiap waktu t, agen menerima status saat ini S(t) dan imbalan r(t). Kemudian memilih tindakan a(t) dari set tindakan yang tersedia, yang kemudian dikirim ke lingkungan. Lingkungan berpindah ke status baru S(t+1) dan imbalan r(t+1) yang terkait dengan transisi ditentukan. Tujuan dari agen pembelajaran penguatan adalah untuk mempelajari kebijakan yang memaksimalkan imbalan kumulatif yang diharapkan.
Merumuskan masalah sebagai MDP mengasumsikan agen secara langsung mengamati keadaan lingkungan saat ini. Dalam hal ini masalah dikatakan memiliki observabilitas penuh. Jika agen hanya memiliki akses ke subset keadaan, atau jika keadaan yang diamati dirusak oleh noise, agen dikatakan memiliki observabilitas parsial, dan secara formal masalahnya harus dirumuskan sebagai proses keputusan Markov yang dapat diobservasi sebagian. Dalam kedua kasus, serangkaian tindakan yang tersedia untuk agen dapat dibatasi. Misalnya, keadaan saldo akun dapat dibatasi menjadi positif; jika nilai status saat ini adalah 3 dan transisi status mencoba mengurangi nilainya sebesar 4, transisi tidak akan diizinkan.
Ketika kinerja agen dibandingkan dengan agen yang bertindak secara optimal, perbedaan kinerja memunculkan gagasan penyesalan. Untuk bertindak mendekati optimal, agen harus mempertimbangkan konsekuensi jangka panjang dari tindakannya (yaitu, memaksimalkan pendapatan masa depan), meskipun imbalan langsung yang terkait dengan ini mungkin negatif.
Dengan demikian, pembelajaran penguatan sangat cocok untuk masalah yang mencakup pertukaran imbalan jangka panjang versus jangka pendek. Ini telah berhasil diterapkan untuk berbagai masalah, termasuk kontrol robot, penjadwalan elevator, telekomunikasi, backgammon, checker, dan Go (AlphaGo).
Dua elemen membuat pembelajaran penguatan menjadi kuat: penggunaan sampel untuk mengoptimalkan kinerja dan penggunaan pendekatan fungsi untuk menangani lingkungan yang besar. Berkat dua komponen utama ini, pembelajaran penguatan dapat digunakan di lingkungan besar dalam situasi berikut:
- Model lingkungan diketahui, tetapi solusi analitik tidak tersedia.
- Hanya model simulasi lingkungan yang diberikan (subjek optimasi berbasis simulasi).
- Satu-satunya cara untuk mengumpulkan informasi tentang lingkungan adalah dengan berinteraksi dengannya.
Dua yang pertama dari masalah ini dapat dianggap sebagai masalah perencanaan (karena beberapa bentuk model tersedia), sedangkan yang terakhir dapat dianggap sebagai masalah pembelajaran yang sebenarnya. Namun, pembelajaran penguatan mengubah kedua masalah perencanaan menjadi masalah pembelajaran mesin.
Pertukaran eksplorasi vs. eksploitasi telah dipelajari secara menyeluruh melalui masalah bandit multi-bersenjata dan untuk MDP ruang negara yang terbatas di Burnetas dan Katehakis (1997).
Pembelajaran penguatan membutuhkan mekanisme eksplorasi yang cerdas; tindakan memilih secara acak, tanpa mengacu pada distribusi probabilitas yang diperkirakan, menunjukkan kinerja yang buruk. Kasus proses keputusan Markov (kecil) yang terbatas relatif dipahami dengan baik. Namun, karena kurangnya algoritme yang menskalakan dengan baik dengan jumlah status (atau menskalakan masalah dengan ruang keadaan tak terbatas), metode eksplorasi sederhana adalah yang paling praktis.
Bahkan jika masalah eksplorasi diabaikan dan bahkan jika keadaannya dapat diamati, masalahnya tetap menggunakan pengalaman masa lalu untuk mengetahui tindakan mana yang menghasilkan imbalan kumulatif yang lebih tinggi.
Untuk mengenal diri Anda secara detail dengan kurikulum sertifikasi, Anda dapat memperluas dan menganalisis tabel di bawah ini.
Kurikulum Sertifikasi Pembelajaran Penguatan Lanjutan EITC/AI/ARL mereferensikan materi didaktik akses terbuka dalam bentuk video. Proses pembelajaran dibagi menjadi struktur langkah demi langkah (program -> pelajaran -> topik) yang mencakup bagian kurikulum yang relevan. Konsultasi tak terbatas dengan pakar domain juga disediakan.
Untuk perincian tentang prosedur Sertifikasi, periksa Bagaimana itu bekerja.
Sumber Referensi Kurikulum
Kontrol level manusia melalui publikasi Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Kursus akses terbuka tentang pembelajaran penguatan mendalam di UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL diterapkan pada masalah bandit berlengan-K dari Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Download materi persiapan belajar mandiri offline lengkap untuk program Advanced Reinforcement Learning EITC/AI/ARL dalam file PDF
Materi persiapan EITC/AI/ARL – versi standar
Materi persiapan EITC/AI/ARL – versi diperpanjang dengan pertanyaan ulasan