Oleh:
Alfath Thoriq Kumara, Mujib Ridwan, Anang Kunaefi
Fakultas Saintek UIN Sunan Ampel Surabaya
Penelitian ini bertujuan untuk mengklasifikasi sentimen masyarakat pada masa kampanye pemilu 2024 melalui tweet berbahasa Indonesia pada media sosial X (Twitter). Penelitian ini diharapkan dapat menjadi telaah untuk masyarakat atau peneliti lain mengenai masa pemilu 2024. Penelitian ini juga diharapkan menjadikan masrayakat lebih mawas terhadap informasi yang beredar di media sosial. Data yang digunakan berjumlah ±4500 tweet yang diambil pada waktu yang telah ditentukan. Analisis penelitian ini berbasis deep learning, terkhusus menggunakan metode IndoBERT dari huggingface yang berbasis pada BERT dengan arsitektur Transformer. Hasil penelitian menunjukkan bahwa model IndoBERT menghasilkan performa yang baik hingga mencapai akurasi 93,67%. Hasil analisa sentimen positif dan negatif, keduanya menunjukkan bahwa tweet berisi kata-kata dengan konotasi positif seperti “pilih”, “menang”, dan “jadi” dan berisi kata yang merujuk pada subjek seperti “pak”, “mas”, “gus”, dan “prof”.
Kata kunci: sentimen, Indobert, tweet, pemilu, cawapres.
Perkembangan teknologi dan informasi telah mencapai tingkat yang pesat di era modern saat ini. Salah satu penemuan yang sangat mempengaruhi perkembangan tersebut adalah internet. Di Indonesia, pengguna internet terus meningkat dengan cepat. Pada bulan Januari 2023, jumlah pengguna aktif internet di Indonesia mencapai 212,9 juta orang (Hootsuite (We are Social): Indonesian Digital Report 2023, 2023). Media sosial menjadi salah satu tempat bagi redaksi untuk menyampaikan berita. Tersebarnya berita melalui media sosial dapat dengan mudah mendapat perhatian pengguna media sosial atau netizen. Berbagai cuitan dan berita yang tersebar di media sosial merupakan data yang mudah untuk didapatkan. Data-data tersebut merupakan informasi yang berharga mengenai sentimen dan polaritas suatu hal apabila diolah dengan benar.
Analisis sentimen merupakan pendekatan komputasional untuk mempelajari opini, sentimen, dan emosi yang terungkap dalam bentuk teks. Tujuannya adalah untuk mengidentifikasi atribut dan komponen yang dikomentari dalam setiap dokumen teks, serta menentukan apakah komentar tersebut bersifat positif, negatif, atau netral(Alita & Isnain, 2020). Memanfaatkan teknik analisis sentimen dan text mining dapat mengungkap pola opini dan sentimen dalam teks, yang dapat memberikan wawasan berharga dalam berbagai bidang seperti analisis pasar, pengambilan keputusan, dan pengembangan produk.
Intensitas pembicaraan di media sosial mengenai pemilu yang akan datang mencerminkan tingginya antusiasme dan perhatian masyarakat terhadap proses demokrasi. Warganet secara aktif membahas survei elektabilitas, program kerja, serta rekam jejak para kandidat, menciptakan lingkungan digital yang penuh dengan opini yang beragam mengenai visi, misi, dan karakter masing-masing calon. Selain itu, perdebatan dan pertarungan argumen di media sosial semakin sering terjadi, terutama menjelang debat calon wakil presiden (cawapres). Maraknya data yang tersebar dapat digunakan sebagai acuan untuk menilai seperti apa tanggapan masyarakat mengenai keberpihakan netizen terhadap cawapres pemilu pada Februari 2024.
Text mining adalah proses ekstraksi informasi berharga dari kumpulan dokumen teks yang tidak terstruktur atau semi terstruktur menggunakan alat analisis, yang merupakan bagian dari data mining. Tujuan utamanya adalah mendapatkan informasi yang berarti melalui teknik seperti kategorisasi, pengelompokan teks, dan identifikasi pola. Sumber data bisa berupa berbagai jenis dokumen seperti artikel, laporan, dan media sosial. Untuk mencapai tujuannya, text mining mengadopsi teknik dari berbagai bidang seperti Data Mining, Machine Learning, dan Natural Language Processing (NLP).
Dalam informasi tekstual, terdapat dua jenis informasi, yaitu fakta dan opini. Fakta bersifat objektif, sedangkan opini bersifat subyektif dan mencerminkan sentimen individu. Analisis sentimen adalah bidang yang fokus pada pengklasifikasian polaritas teks untuk menentukan apakah opini dalam dokumen bersifat positif, negatif, atau netral. Bidang ini memanfaatkan teknik komputasional untuk memahami aspek emosional dalam teks. Analisis sentimen semakin penting, terutama dalam mengolah data dari media sosial, ulasan produk, dan opini pengguna, guna memahami pendapat publik dan mendukung pengambilan keputusan. Fokus utama dari analisis sentimen adalah melakukan klasifikasi terhadap review berdasarkan polaritasnya. Melalui analisis sentimen, informasi yang tersembunyi dalam teks dapat diungkapkan, dan hasilnya dapat digunakan untuk berbagai keperluan seperti pemahaman umum publik terhadap suatu produk, merek, atau topik tertentu, serta pengambilan keputusan berdasarkan sentimen yang terkandung dalam ulasan dan komentar pengguna.
Analisis sentimen melibatkan pengolahan data teks yang seringkali tidak terstruktur. Untuk memudahkan proses klasifikasi, data mentah diolah menjadi lebih terstruktur melalui beberapa tahapan. Penghapusan Duplikasi Data: Data yang memiliki duplikat dihapus untuk meningkatkan efisiensi klasifikasi. Preprocessing: proses pengolahan data mentah menjadi lebih bersih dan terstruktur, meliputi: Cleansing: Penghapusan simbol-simbol khusus, tanda baca, dan spasi yang tidak perlu. Case Folding: Mengubah semua huruf dalam teks menjadi huruf kecil untuk keseragaman. Tokenizing: Memisahkan teks menjadi unit-unit kecil atau kata-kata (token) untuk analisis lebih lanjut. Normalization: Menyamakan variasi penulisan kata agar sesuai dengan bentuk standar. Filtering: Menghilangkan kata-kata yang tidak relevan seperti kata hubung untuk fokus pada kata-kata yang lebih bermakna. Proses-proses ini menghasilkan data teks yang lebih terstruktur, siap untuk dianalisis dan diklasifikasikan. Stemming: Menghapus imbuhan pada kata-kata untuk mendapatkan kata dasar yang sesuai. Setelah proses preprocessing selesai, data yang sudah bersih dan terstruktur ini kemudian diklasifikasikan sentimennya menggunakan metode yang telah dipilih.
BERT (Bidirectional Encoder Representations from Transformers) adalah model canggih dalam bidang Natural Language Processing (NLP) yang dikembangkan oleh Google pada 11 Oktober 2018. BERT menggunakan pendekatan bidirectional dalam pemrosesan teks, yang berarti model ini dapat memahami konteks dengan melihat kata dari kedua arah, yakni dari kiri ke kanan dan dari kanan ke kiri. Pendekatan ini memungkinkan BERT untuk melakukan fine-tuning dengan hanya menambahkan satu lapisan tambahan, yang membuatnya mampu menangkap makna kata dalam konteks yang lebih luas.
BERT dibangun berdasarkan arsitektur Transformer encoder, yang terdiri dari beberapa lapisan. Setiap lapisan encoder memiliki dua sub-lapisan: mekanisme multi-head self-attention dan jaringan feedforward terhubung sepenuhnya. Dalam setiap lapisan, input melewati self-attention untuk memahami konteks secara lebih luas sebelum diteruskan ke jaringan feedforward untuk langkah berikutnya.
WordPiece Embeddings adalah metode yang digunakan dalam BERT untuk merepresentasikan kata dalam bentuk vektor. Dengan 30.000 token dalam kosakata, WordPiece dirancang untuk mengatasi masalah kata-kata yang tidak ada dalam kamus (Out of Vocabulary/OOV). Kata-kata yang sering digunakan disimpan utuh, sementara kata-kata yang jarang digunakan dibagi menjadi sub-kata hingga mencapai bentuk dasar.
Selengkapnya silahkan klik disini.