KLASIFIKASI IMBALANCED DATA MENGGUNAKAN ALGORITME SMOTE DAN METODE SUPPORT VECTOR MACHINE (STUDI KASUS: METILASI SEQUENCE PROTEIN ARGININ)

Ester Caroline Lumban Gaol, 1717051002 (2021) KLASIFIKASI IMBALANCED DATA MENGGUNAKAN ALGORITME SMOTE DAN METODE SUPPORT VECTOR MACHINE (STUDI KASUS: METILASI SEQUENCE PROTEIN ARGININ). FAKULTAS MATEMATIKA ILMU PENGETAHUAN ALAM, UNIVERSITAS LAMPUNG.

[img]
Preview
FIle PDF
1. ABSTRAK - Ester Caroline Lumban Gaol.pdf

Download (186Kb) | Preview
[img] FIle PDF
5. SKRIPSI FULL-DENGAN PEMBAHASAN - Ester Caroline Lumban Gaol.pdf
Restricted to Hanya staf

Download (2808Kb)
[img]
Preview
FIle PDF
4. SKRIPSI FULL-TANPA PEMBAHASAN - Ester Caroline Lumban Gaol.pdf

Download (2178Kb) | Preview

Abstrak

Post-translasional modification (PTM) merupakan modifikasi kovalen yang terjadi setelah translasi pada sintesis protein. Modifikasi ini dapat mengidentifikasikan dan menggambarkan proses PTM seperti metilasi. Metilasi ialah penambahan gugus metil pada gugus protein yang dapat mempengaruhi transduksi sinyal hingga mengikat RNA dalam sitoplasma. Metilasi protein Arginin mengikat gugus metil dan nitrogen Arginin yang menghasilkan basa organik. Umumnya, data biologi memunculkan jumlah data yang tidak seimbang antar kelas. Proses klasifikasi yang melibatkan data tidak seimbang akan menyebabkan penurunan nilai akurasi kelas minoritas dan kualitas metode klasifikasi itu sendiri. Oleh karena itu, masalah ketidakseimbangan data menjadi hal penting untuk ditangani dalam bidang machine learning. Untuk itu penggunaan algoritme lain selain metode klasifikasi disarankan menangani ketidakseimbangan data. Synthetic Minority Oversampling Technique (SMOTE) merupakan teknik oversampling yang membuat salinan data kelas minoritas yang mengimplementasikan algoritme k-nearest neighbor. Support Vector Machine mengelompokkan data dengan hyperplane dan memaksimalkan jarak margin. Riset ini menggunakan data Metilasi Arginin yang terdiri dari data latih, data uji, dan data independen. Alur kerja penelitian ini terdiri dari tahap: preprocessing yang menghapus dan meredundansi data, ekstraksi fitur, pemodelan SMOTE dan SVM, hingga pengujian klasifikasi. Dengan menerapkan pengujian 10-fold cross validation dan confusion matrix diperoleh keakuratan data latih sebesar 100% pada kernel RBF, sedangkan data uji hanya sebesar 64,90% di kernel linear. Data independen memiliki rata-rata akurasi yang baik dengan persentase 98,50% pada kernel linear. Kata kunci: Imbalanced Data; Metilasi; Post-Translational Modification, Post-translational modification (PTM) is a covalent modification that occurs after the translation process in protein synthesis. This modification can identify and describe PTM processes such as methylation. Methylation is the addition of a methyl cluster to a protein cluster that can affect signal transduction and RNA binding in the cytoplasm. Protein methylation of Arginine binds to the methyl and nitrogen cluster of Arginine to produce an organic base. Generally, biological data generates an unbalanced amount of data between classes. The classification process that involves unbalanced data will cause a decrease in the accuracy value of the minority class and the quality of the classification method itself. Therefore, the problem of imbalanced data becomes an crucial thing to be addressed in the field of machine learning. For this reason, it is recommended to use other algorithms besides the classification method to handle imbalanced data. Synthetic Minority Oversampling Technique (SMOTE) is an oversampling technique which creates a copy of the minority class data that implements the k-nearest neighbor algorithm. Support Vector Machine groups the data with hyperplanes and maximizes margin space. This research uses Arginine Methylation data which consists of training data, test data, and independent data. The workflow of this research consists of these stages: preprocessing which removes and redundant data, feature extraction, SMOTE and SVM modeling, and classification testing. By applying the 10-fold cross validation scheme and confusion matrix, the accuracy of the training data is 100% in the RBF kernel, whilst the test data is only 64.90% in the linear kernel. Independent data have a decent accuracy with a percentage of 98.50% in the linear kernel. Keywords : Imbalanced Data; Methylation; Post-Translational Modification, SMOTE, Support Vector Machine

Jenis Karya Akhir: Skripsi
Subyek: 000 Ilmu komputer, informasi dan pekerjaan umum
000 Ilmu komputer, informasi dan pekerjaan umum > 003 Sistem-sistem
Program Studi: FAKULTAS MIPA > Prodi Ilmu Komputer
Pengguna Deposit: UPT . Meda Sulistiana
Date Deposited: 30 May 2022 05:01
Terakhir diubah: 30 May 2022 05:01
URI: http://digilib.unila.ac.id/id/eprint/62073

Actions (login required)

Lihat Karya Akhir Lihat Karya Akhir