ANALISIS PARAMETER TERBAIK DALAM DETEKSI KESALAHAN LABEL I-DIS PADANAMED ENTITY RECOGNITIONJUDUL BERITA PENYAKIT MENULAR BERBASISHYBRID INDOBERT–BILSTM–CRF

ANITA CAROLINE . , GUNAWAN (2026) ANALISIS PARAMETER TERBAIK DALAM DETEKSI KESALAHAN LABEL I-DIS PADANAMED ENTITY RECOGNITIONJUDUL BERITA PENYAKIT MENULAR BERBASISHYBRID INDOBERT–BILSTM–CRF. FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM, UNIVERSITAS LAMPUNG.

Preview

File PDF
ABSTRAK.pdf
Download (138Kb) | Preview

File PDF
SKRIPSI FULL.pdf
Restricted to Hanya staf
Download (3713Kb) | Minta salinan

Preview

File PDF
SKRIPSI TANPA BAB PEMBAHASAN.pdf
Download (2661Kb) | Preview

Abstrak (Berisi Bastraknya saja, Judul dan Nama Tidak Boleh di Masukan)

Entity extraction in health news texts is an important component in supporting the automated analysis of infectious disease information. However, the characteristics of news headlines, which are concise and context-dense, pose challenges for entity labeling using the Named Entity Recognition (NER) approach. This study aims to develop an NER model based on a hybrid IndoBERT–BiLSTM–CRF architecture by integrating Part-of-Speech (POS) tagging features using Stanza and FastText embeddings to recognize disease entities in Indonesian news headlines, determine the optimal hyperparameter configuration, and analyze labeling errors, particularly in the I-DIS label. The research method includes data preprocessing, annotation using the BIO scheme, model training with several hyperparameter combinations, and evaluation using accuracy, precision, recall, F1-score, confusion matrix, and ROC–AUC metrics. The results show that the best-performing model achieves an accuracy of 98.26% and a weighted F1-score of 98.28%, and is capable of recognizing disease entities with an accuracy of approximately 99%. The optimal configuration is obtained with a hidden dimension of 256, one BiLSTM layer, a dropout rate of 0.22, a learning rate of 2.53×10 −5 , and a batch size of 16. Error analysis indicates that the primary weakness lies in the I-DIS label due to data imbalance; however, it does not significantly affect the overall model performance in detecting disease entities. Overall, the hybrid IndoBERT–BiLSTM–CRF model, supported by POS tagging (Stanza) and FastText embeddings, proves to be effective in recognizing disease entities in Indonesian news headlines and demonstrates competitive performance in NER tasks within the healthcare domain. Keywords:Named Entity Recognition, IndoBERT–BiLSTM-CRF, POS Tagging, FastText Embedding, Error Analysis. Ekstraksi entitas pada teks berita kesehatan merupakan komponen penting dalam mendukung analisis otomatis informasi penyakit menular. Namun, karakteristik judul berita yang singkat dan padat konteks menimbulkan tantangan dalam pelabelan entitas menggunakan pendekatanNamed Entity Recognition(NER). Penelitian ini bertujuan membangun model NER berbasis arsitektur hibrida IndoBERT–BiLSTM–CRF dengan integrasi fitur POStaggingmenggunakan Stanza danembeddingFastText untuk mengenali entitas penyakit pada judul berita berbahasa Indonesia, menentukan konfigurasihyperparameterterbaik, serta menganalisis kesalahan pelabelan, khususnya pada label I-DIS. Metode penelitian meliputi praproses data, anotasi dengan skema BIO, pelatihan model menggunakan beberapa kombinasihyperparameter, dan evaluasi menggunakan metrikaccuracy,precision, recall, F1-score,confusion matrix, dan ROC–AUC. Hasil penelitian menunjukkan bahwa model terbaik mencapaiaccuracysebesar 98,26% danweightedF1-score sebesar 98,28%, serta mampu mengenali entitas penyakit dengan tingkat ketepatan sekitar 99%. Konfigurasi optimal diperoleh padahidden dimension256, satu lapisan BiLSTM,dropout0,22,learning rate 2,53×10 −5 , danbatch size16. Analisis kesalahan menunjukkan bahwa kelemahan utama terdapat pada label I-DIS akibat ketidakseimbangan distribusi data, namun tidak memberikan dampak signifikan terhadap kinerja model dalam mendeteksi entitas penyakit secara keseluruhan. Secara keseluruhan, model hibrida IndoBERT–BiLSTM–CRF dengan dukungan fitur POS tagging(Stanza) sertaembeddingFastText terbukti efektif dalam mengenali entitas penyakit pada judul berita berbahasa Indonesia dan menunjukkan kinerja yang kompetitif pada tugas NER di domain kesehatan. Kata-kata kunci:Named Entity Recognition, IndoBERT–BiLSTM-CRF, POS Tagging, FastTextEmbedding,Error Analysis.

Jenis Karya Akhir:	Skripsi
Subyek:	500 ilmu pengetahuan alam dan matematika > 510 Matematika
Program Studi:	FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM (FMIPA) > Prodi S1 Matematika
Pengguna Deposit:	2602074273 Digilib
Date Deposited:	27 Apr 2026 07:20
Terakhir diubah:	27 Apr 2026 07:20
URI:	http://digilib.unila.ac.id/id/eprint/98690

Actions (login required)

Lihat Karya Akhir