Path: Top > S1-Final_Project > Fakultas_Teknik_dan_Ilmu_Komputer > Teknik_Informatika > 2016

Implementasi Q-Learning Yang Dikombinasikan Dengan Backpropagation Pada Agent Yang Memainkan Permainan Flappy Bird

2016
Undergraduate Theses from JBPTUNIKOMPP / 2017-08-23 09:45:50
By : Ardiansyah NIM. 10112230, Perpustakaan UNIKOM (ard333.ardiansyah@gmail.com)
Created : 2017-08-23, with 14 files

Keyword : Flappy Bird, Q-Learning, Value-Function Approximation, Artificial
Url : http://alumni.unikom.ac.id

Penelitian ini menunjukkan bagaimana mengimplementasikan Q-learning yang dikombinasikan dengan backpropagation pada kasus agent yang belajar memainkan permainan Flappy Bird. Mengombinasikan Q-learning dengan backpropagation dimaksudkan untuk memprediksi nilai dari value-function tiap action atau biasa disebut value-function approximation. Penggunaan value-function approximation diharapkan bisa mempercepat waktu pembelajaran dan mengurangi bobot yang disimpan, karena dari hasil penelitian sebelumnya dibutuhkan waktu yang lama dan banyaknya bobot yang disimpan di memory ketika hanya menggunakan reinforcement learning saja. Arsitektur artificial neural network yang digunakan adalah satu artificial neural network pada masing masing kemungkinan action. Berdasarkan hasil pengujian diperoleh kesimpulan bahwa implementasi dari Q-learning yang dikombinasikan backpropagation dapat membuat waktu pembelajaran agent untuk memainkan Flappy Bird dapat lebih cepat hingga 92% dan dapat mengurangi bobot yang disimpan di memory hingga 94% jika dibandingkan dengan penggunaan Q-learning saja. Walaupun waktu pembelajaran lebih cepat dan bobot yang disimpan berkurang, tetapi Q-learning yang dikombinasikan dengan backpropagation memiliki kemampuan yang sama dengan Q-learning saja untuk memainkan permainan Flappy Bird.

Description Alternative :

This study shows how to implement a combination of Q-learning and backpropagation in the case of agent that learns to play Flappy Bird game. The intention of combining Q-learning and backpropagation is to predict the value-function of each action or so-called value-function approximation. The use of value-function approximation is expected to accelerate the learning time and to reduce the weights stored in memory, since the results of previous studies showed that it took a longer time and more amount of weights stored in memory when the method used was only regular reinforcement learning. The artificial neural network architecture used in this study is one artificial neural network for each action. Based on the test results, it can be concluded that combining Q-learning and backpropagation can accelerate agent’s learning time to play Flappy Bird up to 92% and can reduce the weights stored in memory up to 94% compared with the use of only regular Q-learning. Although the learning time is faster and the weights stored is reduced, however Q-learning combined with backpropagation have the same ability with regular Q-learning to play Flappy Bird game.

Give Comment ?#(0) | Bookmark

PropertyValue
Publisher IDJBPTUNIKOMPP
OrganizationPerpustakaan UNIKOM
Contact Namedyah@unikom.ac.id
AddressJl. Dipati Ukur No.116 Lt.7
CityBandung
RegionWest Java
CountryIndonesia
Phone022-2533825 ext.112
Fax022-2533754
Administrator E-mailperpus@unikom.ac.id
CKO E-mailperpus@unikom.ac.id

Jumlah Pengunjung: 147.779.651 sejak 27 Maret 2009
Hari ini 36.373 pengunjung, Kemarin: 39.445 pengunjung