Sistem pengenalan emosi melalui suara menggunakan support vector machine dan multi-layer perceptron classifier
D Dalam konteks interaksi antara manusia dan komputer, Speech Emotion Recognition (SER) adalah sebuah teknologi yang memungkinkan sistem untuk tidak hanya mendengar, tetapi juga memahami serta mengklasifikasikan emosi yang terkandung dalam ucapan manusia. Inovasi ini berpotensi besar untuk merevolusi cara kita berinteraksi dengan mesin, membuatnya lebih responsif terhadap keadaan emosional pengguna. Penelitian ini difokuskan untuk membandingkan kinerja algoritma Support Vector Machine (SVM) dengan 4 jenis kernel dan Multi-Layer Perceptron (MLP) Classifier dalam mengidentifikasi emosi melalui suara. Metodologi yang diterapkan dalam penelitian ini mencakup penggunaan dataset Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS), yang terdiri dari 1440 rekaman audio yang mengekspresikan delapan kategori emosi: neutral, happy, disgust, sad, calm, fear, surprise, dan angry. Proses penelitian meliputi beberapa langkah penting, seperti pre-processing data audio, ekstraksi fitur dengan menggunakan teknik-teknik yang telah terbukti efektif seperti Zero-Crossing Rate (ZCR), Chroma, Mel-Frequency Cepstrum Coefficient (MFCC), dan Energy, serta penerapan metode SMOTE (Synthetic Minority Over-sampling Technique) untuk mengatasi masalah ketidakseimbangan dalam dataset. Hasil dari penelitian ini menunjukkan bahwa model SVM dengan kernel RBF berhasil mencapai akurasi klasifikasi sebesar 73,61% pada data pelatihan dan 71,88% pada data pengujian. Di sisi lain, model MLP Classifier mencatatkan akurasi sebesar 68,02% pada data pelatihan. Temuan ini mengindikasikan bahwa algoritma SVM memiliki keunggulan dalam mengenali emosi melalui suara, yang terlihat dari tingkat akurasi klasifikasi yang lebih tinggi dibandingkan dengan algoritma MLP Classifier.
I In the context of human-computer interaction, Speech Emotion Recognition (SER) is a technology that enables systems to not only hear but also understand and classify the emotions contained in human speech. This innovation has significant potential to revolutionize the way we interact with machines, making them more responsive to users\\\' emotional states. This research focuses on comparing the performance of the Support Vector Machine (SVM) algorithm with four types of kernels and the Multi-Layer Perceptron (MLP) Classifier in identifying emotions through voice. The methodology applied in this study includes the use of the Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS), which consists of 1,440 audio recordings expressing eight categories of emotions: neutral, happy, disgust, sad, calm, fear, surprise, and angry. The research process involves several key steps, such as pre-processing audio data, feature extraction using proven techniques like Zero-Crossing Rate (ZCR), Chroma, Mel-Frequency Cepstrum Coefficient (MFCC), and Energy, as well as the application of the SMOTE (Synthetic Minority Over-sampling Technique) method to address the issue of imbalance in the dataset. The results of this study indicate that the SVM model with the RBF kernel achieved a classification accuracy of 73.61% on the training data and 71.88% on the testing data. On the other hand, the MLP Classifier recorded an accuracy of 68.02% on the training data. These findings suggest that the SVM algorithm has an advantage in recognizing emotions through voice, as evidenced by its higher classification accuracy compared to the MLP Classifier algorithm.