title: ANALISIS WORD PREDICTION DENGAN MENGGUNAKAN LANGUAGE MODEL Bidirection Encoding Representations from Transfordmers (BERT) PADA DATASET KALIMAT BAHASA INDONESIA creator: AGHITA NAMIRA , YULIZA subject: 000 Ilmu komputer, informasi dan pekerjaan umum subject: 500 ilmu pengetahuan alam dan matematika subject: 600 Teknologi (ilmu terapan) description: Bahasa Indonesia sebagai bahasa nasional memiliki peran penting dalam berbagai bidang, termasuk pengembangan teknologi pemrosesan bahasa alami (Natural Language Processing). Salah satu pendekatan modern dalam NLP adalah penggunaan model transformer-based seperti BERT (Bidirectional Encodder Representations from Transformers) untuk menyelesaikan tugas Masked Langugae Modeling (MLM), yaitu menebak token yang hilang dalam suatu kalimat berdasarkan konteksnya. Tujuan penelitian ini adalah untuk mengevaluasi kinerja model BERT pada kalimat bahasa Indonesia dengan dataset 27.600 baris kalimat bahasa Indonesia. Model dilatih dengan dua skema, yaitu tanpa augmentasi (skema 1) dan dengan teknik augmentasi data (skema 2). Hasil evaluasi menunjukkan bahwa skema 2 memberikan kinerja yang lebih baik, dengan akurasi sebesar 42,1% (top-1), 53,7% (top-3), dan 58,1% (top-5), dibandingkan dengan skema 1 yang menghasilkan akurasi 29% (top-1), 42,6% (top-3), dan 52,6% (top-5). Peningkatan ini menunjukkan bahwa penggunaan augmentasi data dapat meningkatkan variasi kalimat dalam pelatihan model, kemampuan prediktif model terhadap kata-kata yang dimasking dapat ditingkatkan. Kata kunci: BERT, Masked Language Modelling, Bahasa Indonesia, NLP; Indonesian, as the national language, plays a crucial role in various fields, including the development of Natural Language Processing (NLP) technologies. One modern approach in NLP is the use of transformer-based models such as BERT (Bidirectional Encoder Representations from Transformers) to perform Masked Language Modeling (MLM), which involves predicting missing tokens in a sentence based on context. This study aims to evaluate the performance of the BERT model on Indonesian sentences using a dataset of 27,600 Indonesian sentence entries. The model was trained using two schemes: without augmentation (Scheme 1) and with data augmentation techniques (Scheme 2). Evaluation results show that Scheme 2 provides better performance, with an accuracy of 42.1% (top-1), 53.7% (top-3), and 58.1% (top-5), compared to Scheme 1 which achieved an accuracy of 29% (top-1), 42.6% (top-3), and 52.6% (top-5). This improvement indicates that data augmentation can enhance the diversity of training sentences, thereby improving the model's predictive capability for masked words. Keywords: BERT, Masked Language Modeling, Indonesian Language, NLP publisher: FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM date: 2025-05-21 type: Skripsi type: NonPeerReviewed format: text identifier: http://digilib.unila.ac.id/88902/3/ABSTRAK.pdf format: text identifier: http://digilib.unila.ac.id/88902/1/SKRIPSI%20FULL.pdf format: text identifier: http://digilib.unila.ac.id/88902/2/SKRIPSI%20TANPA%20BAB%20PEMBAHASAN.pdf identifier: AGHITA NAMIRA , YULIZA (2025) ANALISIS WORD PREDICTION DENGAN MENGGUNAKAN LANGUAGE MODEL Bidirection Encoding Representations from Transfordmers (BERT) PADA DATASET KALIMAT BAHASA INDONESIA. FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM, UNIVERSITAS LAMPUNG. relation: http://digilib.unila.ac.id/88902/