Memahami Confusion Matrix: Accuracy, Precision, Recall, Specificity, dan F1-Score | by Rina | Jun, 2023

0
33


Evaluasi mannequin adalah proses penting yang membantu kita memahami sejauh mana mannequin kita berhasil dalam menghasilkan prediksi yang diharapkan. Untuk mengevaluasi, kita bisa mengambil contoh dari latihan menendang bola dalam permainan sepak bola. Catatan diambil tentang berapa kali bola mengenai gawang dan berapa kali bola meleset. Bola yang mengenai gawang menandakan prediksi yang benar, sedangkan bola meleset menunjukkan prediksi yang salah. Hasil ini kemudian digunakan untuk mengukur dan, jika perlu, meningkatkan keterampilan menendang bola.

Dalam information mining, textual content mining ataupun machine studying, evaluasi mannequin juga penting untuk memastikan bahwa mannequin kita bekerja dengan baik dalam menghasilkan prediksi yang tepat. Sebagai contoh, kita bisa menggunakan evaluasi mannequin untuk melihat seberapa baik mannequin kita membedakan teks yang bersifat positif atau negatif. Dengan evaluasi ini, kita bisa mendapatkan gambaran tentang seberapa sukses mannequin kita dalam menjalankan tugas yang diinginkan.

Memahami evaluasi mannequin adalah langkah penting dalam analisis information terstruktur maupun tidak terstruktur. Evaluasi mannequin membantu kita mengetahui seberapa baik mannequin kita dalam memberikan hasil yang tepat. Untuk mengevaluasi mannequin, kita dapat menggunakan beberapa metode atau ukuran yang bisa memberikan gambaran objektif tentang kinerja mannequin. Beberapa ukuran yang sering digunakan adalah akurasi, presisi, recall, specificity, dan F1-score. Dengan mengerti evaluasi mannequin, kita bisa melihat kelebihan dan kekurangan mannequin yang kita buat. Sehingga, kita bisa melakukan perbaikan agar mannequin tersebut bisa memberikan hasil yang lebih baik.

Confusion matrix atau matriks kebingungan adalah alat yang digunakan untuk menggambarkan kinerja mannequin klasifikasi pada information uji yang sudah diketahui hasil sebenarnya. Mudahnya, kita bisa membayangkan sebuah permainan di mana ada dua kotak, satu berisi kelereng biru dan yang lainnya berisi kelereng merah. Mannequin kita bertugas menebak warna kelereng yang kita ambil dari kotak tanpa melihatnya. Ketika mannequin kita menebak benar, misalnya mannequin bilang kita ambil kelereng biru dan ternyata memang benar kita ambil kelereng biru, kita mencatat sebagai poin benar. Jika mannequin salah menebak, misalnya mannequin bilang kita ambil kelereng merah padahal kita ambil kelereng biru, kita mencatat sebagai poin salah.

Confusion matrix merupakan cara kita mencatat poin benar dan poin salah tersebut. Di dalam matriks ini, kita tulis semua kemungkinan jawaban yang benar dan jawaban yang salah. Dari catatan ini, kita bisa mengetahui seberapa baik mannequin kita dalam menebak kelereng dan apa yang perlu diperbaiki agar mannequin kita makin pintar menebak. Dalam confusion matrix, ada 4 bagian yang penting untuk kita ketahui. Seluruh bagian tersebut digabung menjadi tabel sederhana seperti di bawah ini. Tujuan utama dari confusion matrix adalah untuk memvisualisasikan dan menganalisis hasil prediksi yang dibuat oleh mannequin, sehingga kita bisa lebih mudah memahami kelebihan dan kekurangan mannequin dalam mengklasifikasikan information.

Tabel Confusion Matrix

Untuk memahami tabel di atas, kita akan menggunakan contoh kasus “COVID-19”. Di asumsikan kita membuat mannequin klasifikasi menggunakan dataset COVID-19 yang memiliki label atau class “positif” dan “negatif”. Berikut penjelasan keempat bagian dalam confusion matrix yang ditampilkan pada tabel di atas:

  1. True Optimistic (TP): merupakan jumlah tebakan yang benar, di mana mannequin kita menebak seseorang terinfeksi COVID-19, dan kenyataannya memang benar. Misalnya, mannequin menebak seseorang positif COVID-19, dan hasil tes memang menunjukkan positif COVID-19.
  2. True Adverse (TN): merupakan jumlah tebakan yang benar, di mana mannequin kita menebak seseorang tidak terinfeksi COVID-19, dan kenyataannya memang benar. Misalnya, mannequin menebak seseorang negatif COVID-19, dan hasil tes memang menunjukkan negatif COVID-19.
  3. False Optimistic (FP): merupakan jumlah tebakan di mana mannequin kita menebak seseorang terinfeksi COVID-19, tapi kenyataannya itu salah. Misalnya, mannequin menebak seseorang positif COVID-19, padahal hasil tes sebenarnya menunjukkan negatif COVID-19.
  4. False Adverse (FN): merupakan jumlah tebakan di mana mannequin kita menebak seseorang tidak terinfeksi COVID-19, tapi kenyataannya itu salah. Misalnya, mannequin menebak seseorang negatif COVID-19, padahal hasil tes sebenarnya menunjukkan positif COVID-19.

Sampai di sini, apakah penjelasan di atas dapat dipahami dengan baik? Jika belum, kita akan menggunakan contoh lain yang lebih mudah untuk memahami apa itu confusion matrix. Kasus yang akan kita gunakan adalah mannequin klasifikasi foto hewan yang terdiri dari 20 document atau tupel[2]. Dataset tersebut memiliki dua label atau class yaitu “kucing” dan “anjing”. Masing-masing class memiliki sebanyak 7 dan 13 document seperti gambar berikut:

Memahami Confusion Matrix dengan mudah

Dari gambar di atas, hal pertama yang harus kita perhatikan adalah x label (Predicted values) dan y label (precise values)[4]. Menurut gambar tersebut, kucing diidentifikasi pada information aktual sebagai class positif dan anjing sebagai class negatif. Namun, mannequin klasifikasi yang dibuat dapat memprediksi dengan benar class kucing sebanyak 6 document dan class anjing sebanyak 11 document.

Pertanyaan selanjutnya yang mungkin muncul “bagaimana dengan 3 information lainnya? Apakah mannequin dapat memprediksi dengan benar atau justru salah?” Menurut gambar di atas, mannequin memprediksi 1 information yang seharusnya memiliki class “kucing” menjadi class “anjing”. Begitu juga untuk 2 information lainnya, mannequin memprediksi information yang seharusnya memiliki class “anjing” ke dalam class “kucing”. Dari penjelasan tersebut, dapat ditarik kesimpulan seperti berikut:

  1. True Optimistic (TP) = 6: Artinya, ada 6 kali mannequin kita berhasil menebak dengan benar bahwa foto tersebut adalah kucing, dan kenyataannya memang benar foto tersebut menampilkan kucing.
  2. True Adverse (TN) = 11: Artinya, ada 11 kali mannequin kita berhasil menebak dengan benar bahwa foto tersebut bukan kucing (atau anjing), dan kenyataannya memang benar foto tersebut menampilkan anjing.
  3. False Optimistic (FP) = 2: Artinya, ada 2 kali mannequin kita salah menebak bahwa foto tersebut adalah kucing, padahal kenyataannya foto tersebut menampilkan anjing.
  4. False Adverse (FN) = 1: Artinya, ada 1 kali mannequin kita salah menebak bahwa foto tersebut bukan kucing (atau anjing), padahal kenyataannya foto tersebut menampilkan kucing.

Agar mendapatkan pemahaman yang semakin baik, pada contoh berikutnya kita akan menghitung confusion matrix menggunakan dataset yang berisi evaluation movie “Upin & Ipin”. Dataset ini berisi 15 document yang terdiri dari class “positif” dan “negatif” seperti berikut:

Dataset by creator

Terlihat pada dataset di atas, mannequin memprediksi dengan salah information ke 3, 5, 6, 11, dan 12 sehingga tabel confusion matrix yang dihasilkan seperti berikut:

Dataset by creator

Penjelasan:

  • Di pojok kiri atas (6), ada enam evaluation yang sebenarnya positif dan diprediksi sebagai positif. Ini adalah hasil yang benar atau True Positives (TP).
  • Di pojok kanan bawah (4), ada empat evaluation yang sebenarnya negatif dan diprediksi sebagai negatif. Ini juga hasil yang benar atau True Negatives (TN).
  • Di pojok kiri bawah (2), ada dua evaluation yang sebenarnya negatif, tetapi diprediksi sebagai positif. Ini adalah kesalahan atau False Positives (FP).
  • Di pojok kanan atas (3), ada tiga evaluation yang sebenarnya positif, tetapi diprediksi sebagai negatif. Ini juga kesalahan atau False Negatives (FN).

Setelah mempelajari confusion matrix, mungkin ada yang bertanya, “Mengapa kita perlu mengenal dan memahami confusion matrix ini?” Jawaban dari pertanyaan tersebut terdapat materi selanjutnya. Penting untuk mengingat dan memahami posisi dari setiap elemen dalam confusion matrix dengan tepat, karena hal tersebut akan sangat membantu dalam proses evaluasi mannequin dan meningkatkan pemahaman kita tentang kinerja mannequin dalam memprediksi hasil yang diinginkan.

Akurasi adalah metrik evaluasi yang mengukur seberapa baik mannequin membuat prediksi yang benar dari whole prediksi yang dilakukan. Dalam konteks klasifikasi, akurasi memberikan gambaran mengenai seberapa sering mannequin memprediksi kelas yang benar, baik itu kelas positif maupun negatif. Nilai akurasi akan menjawab pertanyaan sejauh mana mannequin yang digunakan mampu memprediksi sentimen evaluation movie secara keseluruhan dengan benar. Dalam konteks evaluation movie, akurasi menggambarkan persentase prediksi yang benar (True Optimistic dan True Adverse) dibandingkan dengan whole jumlah evaluation.

Dengan menggunakan nilai akurasi, kita bisa mengetahui seberapa baik mannequin dalam mengidentifikasi evaluation movie sebagai positif atau negatif secara keseluruhan. Namun, perlu diingat bahwa akurasi saja mungkin tidak cukup untuk mengevaluasi kinerja mannequin secara menyeluruh, terutama jika information tidak seimbang atau memiliki biaya yang berbeda untuk kesalahan jenis yang berbeda.

Information tidak seimbang adalah situasi di mana jumlah sampel untuk setiap kelas dalam information tidak sama atau jauh berbeda. Misalnya, jika dalam kumpulan information ada 95% sampel positif dan hanya 5% sampel negatif, information tersebut dianggap tidak seimbang. Dalam kasus seperti ini, akurasi mungkin tidak memberikan gambaran yang akurat tentang kinerja mannequin, karena mannequin yang hanya memprediksi kelas mayoritas (dalam hal ini, positif) akan memiliki akurasi tinggi, tetapi mungkin tidak bekerja dengan baik pada kelas minoritas (negatif).

Sedangkan biaya yang berbeda untuk kesalahan jenis yang berbeda mengacu pada situasi di mana konsekuensi dari salah mengklasifikasikan satu jenis information lebih serius daripada yang lain. Sebagai contoh, dalam konteks medis, salah mengklasifikasikan pasien yang sebenarnya sakit (False Adverse) mungkin memiliki konsekuensi yang lebih serius daripada salah mengklasifikasikan pasien yang sebenarnya sehat (False Optimistic). Dalam kasus seperti ini, akurasi mungkin tidak memberikan gambaran yang cukup baik tentang kinerja mannequin, karena tidak mempertimbangkan konsekuensi yang berbeda dari kesalahan klasifikasi yang berbeda.

Untuk menghitung nilai akurasi, kita dapat menggunakan persamaan matematika berikut:

Image by creator

Untuk mempermudah pemahaman, rumus di atas akan kita implementasikan pada kasus yang kita miliki sebelumnya yaitu information evaluation movie Upin & Ipin:

Image by creator

Sehingga, akurasi mannequin dalam memprediksi sentimen evaluation movie adalah 0.67 atau 67%. Dalam konteks ini, artinya mannequin berhasil memprediksi 67% dari whole evaluation movie dengan benar, baik itu evaluation positif maupun negatif. Jadi, dalam kasus ini, mannequin berhasil memprediksi 10 evaluation (6 evaluation positif dan 4 evaluation negatif) dengan benar dari whole 15 evaluation yang ada.

Dengan mengetahui akurasi, kita dapat menilai sejauh mana mannequin berhasil dalam melakukan klasifikasi. Namun, perlu diingat kembali bahwa akurasi mungkin tidak selalu menjadi metrik terbaik, terutama ketika information tidak seimbang atau ketika ada biaya yang berbeda untuk kesalahan jenis yang berbeda (seperti False Optimistic dan False Adverse). Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti presisi, recall, dan F1 rating dalam mengukur kinerja mannequin.

Presisi adalah metrik evaluasi yang mengukur seberapa baik mannequin membuat prediksi yang benar untuk kelas positif dari whole prediksi positif yang dilakukan. Dalam konteks klasifikasi, presisi memberikan gambaran mengenai seberapa sering mannequin memprediksi kelas positif dengan benar, di antara semua prediksi positif yang dibuat oleh mannequin. Nilai presisi akan menjawab pertanyaan sejauh mana mannequin yang digunakan mampu memprediksi sentimen evaluation movie yang sebenarnya positif dengan benar. Dalam konteks evaluation movie, presisi menggambarkan persentase prediksi positif yang benar (True Optimistic) dibandingkan dengan whole jumlah prediksi positif (True Optimistic dan False Optimistic).

Dengan menggunakan nilai presisi, kita bisa mengetahui seberapa baik mannequin dalam mengidentifikasi evaluation movie sebagai positif tanpa salah mengklasifikasikan evaluation negatif sebagai positif. Presisi sangat penting dalam situasi di mana biaya kesalahan False Optimistic lebih tinggi daripada kesalahan False Adverse, misalnya dalam kasus analysis medis atau deteksi spam. Information tidak seimbang dan biaya yang berbeda untuk kesalahan jenis yang berbeda telah dijelaskan pada penjelasan akurasi sebelumnya. Dalam kasus di mana presisi lebih penting daripada akurasi, seperti ketika kita ingin memastikan bahwa mannequin tidak salah mengklasifikasikan evaluation negatif sebagai positif, kita bisa fokus pada metrik presisi.

Untuk menghitung presisi, kita bisa menggunakan rumus matematika berikut:

Image by creator

Rumus ini akan kita gunakan pada contoh information evaluation movie Upin & Ipin yang telah kita bahas sebelumnya. Berikut ini implementasi perhitungannya:

Image by creator

Dari hasil ini, presisi mannequin dalam memprediksi sentimen evaluation movie yang sebenarnya positif adalah 0.75 atau 75%. Dalam konteks ini, artinya mannequin berhasil memprediksi 75% dari whole prediksi positif dengan benar. Jadi, dalam kasus ini, mannequin berhasil memprediksi 6 evaluation positif dengan benar dari whole 8 prediksi positif yang dibuat oleh mannequin.

Dengan mengetahui presisi, kita dapat menilai sejauh mana mannequin berhasil dalam melakukan klasifikasi yang lebih fokus pada kelas positif dan mengurangi kesalahan jenis False Optimistic. Namun, perlu diingat bahwa presisi saja mungkin tidak selalu menjadi metrik terbaik, terutama ketika kita perlu mempertimbangkan kinerja mannequin dalam mengklasifikasikan kelas negatif juga. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti recall dan F1 rating dalam mengukur kinerja mannequin.

Sensitivitas (Recall) adalah metrik evaluasi yang menggambarkan seberapa baik suatu mannequin dalam mengidentifikasi kelas positif dengan benar. Dalam kasus evaluation movie Upin & Ipin, Recall akan menunjukkan kemampuan mannequin kita untuk mengenali evaluation positif yang sebenarnya. Sebagai analogi, bayangkan kita sedang mencari jarum di tumpukan jerami. Recall menggambarkan seberapa baik kita menemukan semua jarum yang ada di tumpukan tersebut. Jika kita menemukan 6 dari 10 dari jarum ditumpukan Jerami tersebut, artinya kita masih melewatkan 4 jarum yang belum ditemukan.

Nilai Recall akan menjawab pertanyaan sejauh mana mannequin kita mampu mengenali dan mengklasifikasikan evaluation positif dengan benar. Dalam konteks evaluation movie, ini penting karena kita ingin mengetahui seberapa akurat mannequin kita dalam mengidentifikasi evaluation yang memuji movie, sehingga kita bisa memahami bagaimana movie tersebut diterima oleh penonton.

Untuk menghitung nilai Recall, kita dapat menggunakan persamaan matematika berikut:

Image by creator

Dari hasil perhitungan, kita dapat menyimpulkan bahwa mannequin kita memiliki Recall sebesar 67%, yang berarti mannequin berhasil mengenali 67% evaluation positif dengan benar. Namun, ini juga berarti mannequin melewatkan 33% evaluation positif yang sebenarnya (False Negatif). Kelebihan dari Recall adalah bahwa metrik ini fokus pada mengurangi kesalahan False Adverse, sehingga kita bisa memastikan bahwa sebanyak mungkin evaluation positif diidentifikasi dengan benar. Namun, perlu diingat bahwa Recall saja mungkin tidak selalu menjadi metrik evaluasi terbaik, terutama ketika kita perlu mempertimbangkan kinerja mannequin dalam mengklasifikasikan kelas negatif juga. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti Presisi dan F1 Rating dalam mengukur kinerja mannequin.

Spesifisitas (Specificity) merupakan metrik evaluasi yang menunjukkan seberapa efektif suatu mannequin dalam mengklasifikasikan kelas negatif secara akurat. Menggunakan contoh evaluation movie Upin & Ipin, Specificity menggambarkan kemampuan mannequin kita untuk membedakan evaluation negatif yang asli. Sebagai ilustrasi, anggaplah kita sedang mencari kelereng di antara tumpukan pasir. Specificity menggambarkan betapa handalnya kita dalam menemukan seluruh kelereng yang ada di tumpukan pasir tersebut. Misalkan kita menemukan 4 dari 6 kelereng, artinya kita masih melewatkan 2 kelereng yang seharusnya ditemukan.

Nilai Specificity akan menjelaskan sejauh mana mannequin kita berhasil mengenali dan mengklasifikasikan evaluation negatif secara tepat. Dalam konteks evaluation movie, hal ini penting karena kita ingin menilai seberapa akurat mannequin kita dalam mendeteksi evaluation yang memberikan kritik terhadap movie, sehingga kita bisa memperoleh gambaran tentang bagaimana movie tersebut diterima oleh penonton.

Untuk menghitung Spesifisitas, kita gunakan rumus berikut:

Image by creator

Berdasarkan hasil perhitungan, kita bisa menyimpulkan bahwa mannequin kita memiliki Specificity sebesar 67%, yang berarti mannequin berhasil mengenali 67% evaluation negatif secara akurat. Namun, ini juga berarti bahwa mannequin masih melewatkan 33% evaluation negatif yang sebenarnya (False Positif). Keunggulan Specificity adalah metrik ini fokus pada pengurangan kesalahan False Optimistic, sehingga kita bisa memastikan sebanyak mungkin evaluation negatif teridentifikasi dengan tepat. Akan tetapi, hanya mengandalkan Specificity mungkin tidak cukup untuk menilai kinerja mannequin, terutama jika kita ingin memperhatikan kinerja mannequin dalam mengklasifikasikan kelas positif juga. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti Sensitivitas (Recall) dan F1 Rating dalam mengukur kinerja mannequin.

F1 Rating merupakan metrik evaluasi yang mencerminkan keseimbangan antara Presisi (Precision) dan Sensitivitas (Recall). Dalam konteks evaluation movie Upin & Ipin, F1 Rating memberikan gambaran mengenai seberapa baik mannequin kita dalam mengklasifikasikan baik evaluation positif maupun negatif secara akurat. Sebagai contoh, bayangkan kita ingin menilai kinerja seorang penjaga gawang dalam pertandingan sepak bola. F1 Rating akan menggabungkan kemampuan penjaga gawang untuk melakukan penyelamatan (Presisi) dan mencegah gol (Sensitivitas) dalam satu angka yang mencerminkan kinerja keseluruhan.

Nilai F1 Rating akan memberikan informasi tentang seberapa baik mannequin kita dalam menggabungkan kemampuan Presisi dan Sensitivitas, sehingga kita bisa memahami seberapa efektif mannequin kita dalam mengklasifikasikan evaluation movie secara akurat. Dalam konteks evaluation movie, ini penting karena kita ingin memastikan bahwa mannequin kita efisien dalam mengidentifikasi evaluation positif dan negatif dengan benar, agar kita dapat memahami bagaimana movie tersebut diterima oleh penonton.

Untuk menghitung F1 Rating, kita menggunakan rumus matematika berikut:

Image by creator

Dari perhitungan ini, kita bisa menyimpulkan bahwa F1 Rating mannequin kita adalah 0.71 atau 71%, yang menunjukkan keseimbangan antara Presisi dan Sensitivitas (Recall). Kelebihan dari F1 Score adalah metrik ini mempertimbangkan kedua aspek kinerja mannequin (Presisi dan Sensitivitas) dalam satu angka, sehingga kita bisa mendapatkan gambaran yang lebih lengkap tentang kinerja mannequin. Namun, perlu diingat bahwa F1 Rating mungkin tidak selalu menjadi metrik evaluasi terbaik dalam semua situasi, terutama jika kita ingin fokus pada kinerja mannequin dalam mengklasifikasikan salah satu kelas saja. Oleh karena itu, penting untuk mempertimbangkan metrik evaluasi lain seperti Presisi, Sensitivitas, dan Specificity dalam mengukur kinerja mannequin.

Setelah kita mempelajari berbagai metriks evaluasi di atas, mungkin akan muncul pertanyaan dalam benak kita “apakah seluruh metriks evaluasi tersebut harus digunakan dalam mannequin yang kita buat?” Jawabannya, tidak. Untuk menentukan keberhasilan sebuah mannequin klasifikasi merupakan salah satu tugas yang menantang. Sering kali, kita terjebak dengan asumsi jika mannequin yang menghasilkan nilai akurasi yang tinggi merepresentasikan nilai terbaik. Namun, faktanya tidak semudah itu.

Secara sederhana, kasus di atas dapat kita analogikan saat seorang tukang akan membangun rumah. Berbagai alat dan metode bisa digunakan untuk memastikan rumah tersebut dibangun dengan baik. Tukang tersebut akan memilih alat berdasarkan apa yang ingin dicapai. Misalnya, tukang akan memilih waterpass[3] untuk memastikan jika lantai rumah sudah rata. Di sisi lain, tukang akan menggunakan meteran untuk memastikan tinggi dinding sesuai dengan ketentuan. Secara umum, tidak ada alat yang lebih baik dari alat lainnya. Karena, pemilihan fungsionalitas alat didasarkan pada tujuan yang akan dicapai.

Dalam konteks mannequin klasifikasi, akurasi, recall, precision, specificity, dan F1 rating merupakan alat yang digunakan oleh tukang (pengembang mannequin) dengan berbagai tujuan masing-masing. Memilih metriks yang tepat bukan hanya soal melihat angka yang paling tinggi. Namun, metriks terbaik adalah yang paling relevan dengan tujuan yang hendak kita capai dalam membangun mannequin tersebut [4].

Sebelum melanjutkan, pastikan analogi di atas dapat dipahami dengan baik agar terhindar dari perasaan pusing yang mungkin tiba-tiba muncul di masa yang akan datang. Jika sudah dapat dipahami dengan baik, berikutnya akan ditampilkan panduan memilih metriks evaluasi dalam bentuk tabel. Tujuannya, agar dapat dipahami dengan mudah:

Desk by creator

Itulah penjelasan singkat terkait evaluasi mannequin. Semoga dapat dipahami dengan baik. Tetap semangat dan jangan pernah menyerah, karena penderitaan lainnya masih banyak yang menunggu ☺️.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here