Path: Top > S1-Final_Project > Fakultas_Teknik_dan_Ilmu_Komputer > Teknik_Informatika > 2017

Pengembangan Kamus Jenis Kata Yang Dilengkapi Kata Majemuk Sebagai Sumber Daya NLP Bahasa Indonesia

2017
Undergraduate Theses from JBPTUNIKOMPP / 2017-07-10 09:45:45
By : Yoppy Yansyah NIM. 10112988, Perpustakaan UNIKOM (yoppy787@gmail.com)
Created : 2017-07-10, with 10 files

Keyword : Kamus jenis kata, kamus online, resource NLP, kata majemuk.
Url : http://alumni.unikom.ac.id

Pada penelitian tentang “Pembangunan Kamus Jenis Kata Sebagai Resource NLP Bahasa Indonesia”, resource yang dihasilkan sebanyak 38.870 lema yang terdiri dari kata dasar dan turunannya, belum menghasilkan bentuk kata majemuk sebagai penambahan sumber daya. Resource dalam kamus jenis kata yang dilengkapi kata majemuk sangat dibutuhkan untuk penelitian tentang NLP seperti tokenisasi kata pada POS Tag dan question answering. Berdasarkan kebutuhan akan sumber daya maka dilakukan pengembangan kamus jenis kata yang dilengkapi kata majemuk yang dapat digunakan dalam pengembangan dalam bidang NLP. Pada penelitian sebelumnya data masukan kbbi berformat .txt, sehingga tidak dapat mendeteksi lema yang dicetak tebal. Oleh sebab itu dilakukan proses konversi format data masukan dari kbbi.pdf menjadi kbbi.doc dan menjadi kbbi.html dan dilakukan dengan 3 proses yaitu 5 tahapan proses merapikan data masukan terdiri dari penghapusan karakter HTML entitas, penghapusan label kecuali label jenis kata, penghapusan nomor makna, penyamaan simbol kata majemuk dan penyatuan kata terpisah. Dalam proses memisahkan kata dilakukan 3 tahapan terdiri dari, pemisahan kata majemuk, pengambilan kata dan jenis kata, dan pemisahan kata dasar dengan kata turunannya. Dalam proses mendeteksi kata majemuk dilakukan 4 tahapan terdiri dari penghapusan baris kosong, pengisian kata dan jenis kata untuk kata majemuk, pembersihan dan pengkategorian. Hasil akhir dari pengembangan kamus jenis kata yang dilengkapi kata majemuk adalah menghasilkan lema sebanyak 51.147 lema terdiri dari 10.609 lema atau kata majemuk dan 40.439 lema atau bukan kata majemuk. kamus jenis kata yang dilengkapi kata majemuk sudah tersedia dan dapat dimanfaatkan untuk penelitian NLP (Natural Language Processing).

Description Alternative :

In research on "Development of Type Password As a Resource Dictionary Indonesian NLP", resource produced as many as 38 870 entries consisting of basic words and derivatives, the immature form of the compound as additional resources. Resource kind word in the dictionary that include a compound word is needed for research on NLP as tokenisasi word on POS Tag and question answering. Based on the resource requirements then development of indonesian part of speech dictionary with compound sentence that can be used in the development in the field of NLP. In previous studies the data input KBBI .txt format, so it can not detect entries in bold. Therefore do format conversion process of data input from kbbi.pdf be kbbi.doc and become kbbi.html and done with 3 processes, namely the 5 stages smoothing process input data consists of the elimination character html entities, removal of labels except label kind words, the elimination of a number meaning, equation symbols and unification compound words separate words. In the process of separating the words do three stages consist of, the separation of compound words, word retrieval and kind words, and the separation of said base with said derivatives. In the process of detecting a compound word made four stages consist of the elimination of empty rows, filling words and types of words to compound words, cleaning and categorizing. The end result development of indonesian part of speech dictionary with compound sentence is to produce as many as 51 147 entries entry consists of 10 609 entries and 40 439 or compound word entry or not a compound word. Dictionary kinds of words that include compound words are already available and can be used to study NLP (Natural Language Processing).

Give Comment ?#(0) | Bookmark

PropertyValue
Publisher IDJBPTUNIKOMPP
OrganizationP
Contact Namedyah@unikom.ac.id
AddressJl. Dipati Ukur No.116 Lt.7
CityBandung
RegionWest Java
CountryIndonesia
Phone022-2533825 ext.112
Fax022-2533754
Administrator E-mailperpus@unikom.ac.id
CKO E-mailperpus@unikom.ac.id