Path: Top > S1-Final_Project > Fakultas_Teknik_dan_Ilmu_Komputer > Teknik_Informatika > 2015

Optimasi Akurasi Analisis Sentimen Pada Twitter Menggunakan Metode N-Gram

2015
Undergraduate Theses from JBPTUNIKOMPP / 2016-02-11 15:03:45
By : Arif Rachman NIM. 10111486, Perpustakaan UNIKOM (arifrachman93@gmail.com)
Created : 2016-02-11, with 13 files

Keyword : analisis sentimen, twitter, tweet, naive bayes, n-gram, akurasi, k-fold cross validation.
Url : http://alumni.unikom.ac.id

Twitter sebagai salah satu jejaring sosial yang interaktif dapat dijadikan sebagai sumber data untuk melakukan analisis sentimen terhadap suatu hal. Pada tweet di Twitter terdapat banyak penggunaan kata tidak baku dengan variasi penulisannya. Berdasarkan hasil pengamatan terhadap akun Twitter salah satu acara pencarian bakat di Indonesia, ditemukan beberapa penggunaan kata tidak baku dengan berbagai variasinya. Keberadaan variasi kata tidak baku yang sebetulnya merujuk kepada suatu kata baku dapat mempengaruhi akurasi hasil penghitungan dengan naive bayes, karena setiap kata pada tweet berperan penting pada proses klasifikasi apakah sebuah tweet masuk ke dalam kelas positif atau negatif. Diperlukan suatu proses untuk mengakomodasi pengunaan kata tersebut, yaitu dengan metode n-gram. N-gram adalah potongan n-karakter yang dibangkitkan dari suatu string. Metode n-gram digunakan untuk pengambilan fitur pada suatu tweet sebelum diklasifikasikan ke dalam kelas sentimen positif atau negatif menggunakan naive bayes. Nilai n yang digunakan yaitu 2-10. Berdasarkan hasil pengujian menggunakan metode 10-fold cross validation dengan jumlah data sebanyak 1000 tweet, dapat disimpulkan bahwa penggunaan metode n-gram sebagai fitur dapat berpengaruh dalam peningkatan akurasi dari klasifikasi tweet. Nilai n=4 sudah mencapai rata-rata akurasi tertinggi sebesar 95%, sehingga direkomendasikan untuk digunakan sebagai pengambilan fitur.

Description Alternative :

Twitter as one of the interactive social networking can be used as a data source to do sentiment analysis of something. There are many non-standar use of word with writing variations at tweet in Twiter. Based on observation one of the Indonesia’s talent show Twitter account, found some non-standar use of word with writing variations. The writing variations existence of the word which actually refer to a standar word can affect the accuracy of calculation result using naive bayes, because every word in a tweet has an important role of classification process to classify a tweet into positive or negatif class. It needs a process to accommodate the use of these word, using n-gram method. N-gram is n-character pieces generated from a string. N-gram method is used for feature selection of a tweet before classified into positive or negative sentiment class using naive bayes. N value used is 2-10. Based on test result using 10-fold cross validation with 1000 data tweet, it can be concluded that using of n-gram method as feature can be influential in improving the accuracy of the classification tweet. With n=4 reach the highest average of accuracy about 95%, so it recommended for feature selection.

Give Comment ?#(0) | Bookmark

PropertyValue
Publisher IDJBPTUNIKOMPP
OrganizationPerpustakaan UNIKOM
Contact Namedyah@unikom.ac.id
AddressJl. Dipati Ukur No.116 Lt.7
CityBandung
RegionWest Java
CountryIndonesia
Phone022-2533825 ext.112
Fax022-2533754
Administrator E-mailperpus@unikom.ac.id
CKO E-mailperpus@unikom.ac.id