TY  - GEN
ID  - eprints85398
UR  - http://digilib.unila.ac.id/85398/
A1  - Damayanti	, Damayanti
Y1  - 2024/04/18/
N2  - Post-translational modification (PTM) adalah salah satu mekanisme penting dalam
mengatur fugsi protein. Modifikasi pasca translasi mengacu pada penambahan
modifikasi protein kovalen dan enzimatik dalam biosintesis protein, yang memiliki
peran penting dalam memodifikasi fungsi protein dan mengatur ekspresi gen. Salah
satu modifikasi pasca translasi adalah glikosilasi. Glikosilasi adalah penambahan
gugus gula ke struktur protein. Glikosilasi telah terkait dengan beberapa penyakit
diantaranya diabetes, kanker, dan alzheimer. Oleh karena itu, penting untuk
mengantisipasi terjadinya glikosilasi dengan melakukan prediksi glikosilasi.
Permasalahan dalam prediksi glikosilasi saat ini masih bergantung pada teknik
laboratorium manual, yang menyebabkan proses prediksi menjadi lambat dan
memerlukan biaya peralatan laboratorium yang tinggi. Untuk mengatasi hal
tersebut, diperlukan pendekatan machine learning sehingga prediksi dapat
dilakukan lebih cepat dan tidak membutuhkan biaya yang mahal.
Data yang digunakan dalam penelitian ini adalah data PTM glikosilasi-N,
glikosilasi-O, dan glikosilasi-C yang diperoleh dari website UniProt yang tersedia
secara terbuka. Penelitian ini bertujuan untuk meningkatkan akurasi klasifikasi
modifikasi pasca translasi glikosilasi-N, glikosilasi-O, dan glikosilasi-C dengan
menggabungkan 5 (lima) Ekstraksi fitur dan menggunakan algoritma Extreme
Gradient Boosting (XGBoost).
Ekstraksi fitur terdiri dari: AAIndex, Hydrophobicity, SABLE, CTD, dan PseAAC.
Seleksi fitur dilakukan dengan pendekatan MRMR. Masing-masing fitur
memberikan kontribusi terhadap peningkatan prediksi glikosilasi. Fitur AAIndex
memberikan kontribusi terbesar pada peningkatan prediksi glikosilasi-N secara
keseluruhan sebesar 24%. Sedangkan, fitur SABLE memberikan kontribusi
terbesar pada peningkatan prediksi glikosilasi-O sebesar 44%. Fitur Hydrophobicity
dan PseAAC masing-masing berkontribusi sebesar 27% untuk pningkatan prediksi
glikosilasi-C

iv

Hasil penelitian ini menunjukkan kinerja prediksi modifikasi pasca translasi
glikosilasi-N, glikosilasi-O dan glikosilasi-C dengan masing-masing nilai akurasi
100%. Pendekatan menggunakan XGBoost dalam penelitian ini berhasil
meningkatkan akurasi sebesar 5% dibandingkan dengan penelitian sebelumnya.
Kata Kunci: Post-translational modifications, glikosilasi, sequence, xgboost,
klasifikasi




Post-translational modification (PTM) is one of the important mechanisms in
regulating protein function. Post-translational modifications refer to the addition of
covalent and enzymatic protein modifications in protein biosynthesis, which play a
crucial role in modifying protein function and regulating gene expression. One of
the post-translational modifications is glycosylation, which involves adding sugar
groups to protein structures. Glycosylation has been associated with several
diseases including diabetes, cancer, and Alzheimer's. Therefore, it is important to
anticipate glycosylation by predicting it.
The current issue in glycosylation prediction still relies on manual laboratory
techniques, resulting in slow prediction processes and requiring expensive
laboratory equipment. To address this, a machine learning approach is needed so
that predictions can be made faster and at a lower cost.
The data used in this study are PTM glycosylation-N, glycosylation-O, and
glycosylation-C data obtained from the publicly accessible UniProt website. This
research aims to improve the accuracy of classification of post-translational
modifications glycosylation-N, glycosylation-O, and glycosylation-C by
combining 5 feature extractions and using the Extreme Gradient Boosting
(XGBoost) algorithm.
Feature extraction consists of: AAIndex, Hydrophobicity, SABLE, CTD, and
PseAAC. Feature selection is performed using the MRMR approach. Each feature
contributes to improving glycosylation prediction. The AAIndex feature contributes
the most to the overall improvement in glycosylation prediction by 24%.
Meanwhile, the SABLE feature contributes the most to the improvement in
glycosylation-O prediction by 44%. The Hydrophobicity and PseAAC features
contribute 27% each to the improvement of C-glycosylation prediction accuracy.

vi

The results of this study show the performance of predicting post-translational
modifications of glycosylation-N, glycosylation-O, and glycosylation-C, with each
having an accuracy value of 100%. The approach using XGBoost in this study
successfully increased the accuracy by 5% compared to previous research.
Keywords: Post-translational modification, glycosylation, site sequence, xgboost,
classification
PB  - FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
TI  - IMPLEMENTASI PENGGABUNGAN EKSTRAKSI FITUR DALAM
MENINGKATKAN KLASIFIKASI POST-TRANSLATIONAL
MODIFICATION (PTM) GLIKOSILASI PADA PROTEIN SEQUENCE N, O
DAN C DENGAN METODE EXTREME GRADIENT BOOSTING

(XGBOOST)
AV  - restricted
ER  -