PENDEKATAN BARU STEMMING KATA DAN AUGMENTASI DATA TEKS PADA BAHASA LAMPUNG SEBAGAI LOW-RESOURCE LANGUAGE

Zaenal , Abidin (2026) PENDEKATAN BARU STEMMING KATA DAN AUGMENTASI DATA TEKS PADA BAHASA LAMPUNG SEBAGAI LOW-RESOURCE LANGUAGE. [Disertasi]

Preview

File PDF (Abstrak)
13 ABSTRAK FINAL S PROMOSI.pdf
Download (233Kb) | Preview

File PDF (Disertasi)
FINAL OK Gabungan Semua 2026.pdf
Restricted to Hanya staf
Download (5Mb) | Minta salinan

Preview

File PDF (Disertasi Tanpa Bab 4)
FINAL OK Gabungan Semua 2026 Tanpa BAB 4.pdf
Download (4Mb) | Preview

Abstrak (Berisi Bastraknya saja, Judul dan Nama Tidak Boleh di Masukan)

Penelitian ini mengembangkan pendekatan natural language processing (NLP) untuk bahasa Lampung berfokus pada stemming kata dialek Tulang Bawang dan Lampung Language Dialect Identification (LLDI) pada dialek Api dan Nyo. Untuk stemming kata, lima modifikasi metode diuji secara komparatif: modifikasi Nazief-Adriani (MNA), modifikasi Confix-Stripping (MCS), MCS disertai N-Gram Stemming, Morphological-based, dan N-Gram Stemming. Eksperimen pada 500 kata data uji dan 200 kata independen menunjukkan MCS disertai N-Gram Stemming mencapai performa terbaik dengan nilai Gold Standard Assessment (GSA) 98,8%. Pendekatan terbaik dari stemming kata diimplementasikan pada aplikasi Direct Machine Translation (DMT) Tulang Bawang–Indonesia dan hasil pengujian penerjemahan menunjukan nilai Bilingual Evaluation Understudy (BLEU) mencapai 80,07%. Untuk identifikasi dialek, model LLDI dibangun menggunakan data set 3000 kalimat dialek Api dan 9078 kalimat dialek Nyo. Text Data Augmentation (TDA) melalui metode permutasi kalimat diterapkan untuk mengatasi ketidakseimbangan data, menghasilkan data set sintesis sebesar n! dari n token sebuah kalimat. Empat pendekatan klasifikasi—Naive Bayes, Logistic Regression, Support Vector Machine (SVM), dan Random Forest—dievaluasi menggunakan 5-fold cross validation. Hasil eksperimen menunjukkan SVM balanced class mencapai performa tertinggi dengan akurasi 97,4%, diikuti Random Forest balanced class dengan akurasi 96,9%. Penyeimbangan kelas terbukti meningkatkan deteksi dialek minoritas (Api) tanpa mengorbankan performa dialek mayoritas (Nyo). Sebaliknya, kondisi unbalanced menghasilkan precision tinggi namun recall rendah untuk dialek Api. Penelitian ini memberikan kontribusi awal yang signifikan dalam pengembangan Natural Language Understanding (NLU) pada bahasa Lampung dan berpotensi dilanjutkan pada penelitian fonologi, sintaksis, semantik dan pragmatik bahasa Lampung secara komputasi.

Jenis Karya Akhir:	Disertasi
Subyek:	000 Ilmu komputer, informasi dan pekerjaan umum > 005 Pemrograman komputer, program dan data
Program Studi:	FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM (FMIPA) > Prodi S3 Doktor MIPA
Pengguna Deposit:	2602966666 Digilib
Date Deposited:	30 Apr 2026 04:26
Terakhir diubah:	30 Apr 2026 04:26
URI:	http://digilib.unila.ac.id/id/eprint/98855

Actions (login required)

Lihat Karya Akhir