Path: Top > S1-Final_Project > Fakultas_Teknik_dan_Ilmu_Komputer > Teknik_Informatika > 2016

Implementasi Q-Learning Yang Dikombinasikan Dengan Backpropagation Pada Agent Yang Memainkan Permainan Flappy Bird

2016
Undergraduate Theses from JBPTUNIKOMPP / 2017-08-23 09:45:50
Oleh : Ardiansyah NIM. 10112230, Perpustakaan UNIKOM (ard333.ardiansyah@gmail.com)
Dibuat : 2017-08-23, dengan 14 file

Keyword : Flappy Bird, Q-Learning, Value-Function Approximation, Artificial
Url : http://alumni.unikom.ac.id

Penelitian ini menunjukkan bagaimana mengimplementasikan Q-learning yang dikombinasikan dengan backpropagation pada kasus agent yang belajar memainkan permainan Flappy Bird. Mengombinasikan Q-learning dengan backpropagation dimaksudkan untuk memprediksi nilai dari value-function tiap action atau biasa disebut value-function approximation. Penggunaan value-function approximation diharapkan bisa mempercepat waktu pembelajaran dan mengurangi bobot yang disimpan, karena dari hasil penelitian sebelumnya dibutuhkan waktu yang lama dan banyaknya bobot yang disimpan di memory ketika hanya menggunakan reinforcement learning saja. Arsitektur artificial neural network yang digunakan adalah satu artificial neural network pada masing masing kemungkinan action. Berdasarkan hasil pengujian diperoleh kesimpulan bahwa implementasi dari Q-learning yang dikombinasikan backpropagation dapat membuat waktu pembelajaran agent untuk memainkan Flappy Bird dapat lebih cepat hingga 92% dan dapat mengurangi bobot yang disimpan di memory hingga 94% jika dibandingkan dengan penggunaan Q-learning saja. Walaupun waktu pembelajaran lebih cepat dan bobot yang disimpan berkurang, tetapi Q-learning yang dikombinasikan dengan backpropagation memiliki kemampuan yang sama dengan Q-learning saja untuk memainkan permainan Flappy Bird.

Deskripsi Alternatif :

This study shows how to implement a combination of Q-learning and backpropagation in the case of agent that learns to play Flappy Bird game. The intention of combining Q-learning and backpropagation is to predict the value-function of each action or so-called value-function approximation. The use of value-function approximation is expected to accelerate the learning time and to reduce the weights stored in memory, since the results of previous studies showed that it took a longer time and more amount of weights stored in memory when the method used was only regular reinforcement learning. The artificial neural network architecture used in this study is one artificial neural network for each action. Based on the test results, it can be concluded that combining Q-learning and backpropagation can accelerate agent’s learning time to play Flappy Bird up to 92% and can reduce the weights stored in memory up to 94% compared with the use of only regular Q-learning. Although the learning time is faster and the weights stored is reduced, however Q-learning combined with backpropagation have the same ability with regular Q-learning to play Flappy Bird game.

Beri Komentar ?#(0) | Bookmark

PropertiNilai Properti
ID PublisherJBPTUNIKOMPP
OrganisasiPerpustakaan UNIKOM
Nama Kontakdyah@unikom.ac.id
AlamatJl. Dipati Ukur No.116 Lt.7
KotaBandung
DaerahWest Java
NegaraIndonesia
Telepon022-2533825 ext.112
Fax022-2533754
E-mail Administratorperpus@unikom.ac.id
E-mail CKOperpus@unikom.ac.id