www.jagostat.com

www.jagostat.com

Website Belajar Matematika & Statistika

Website Belajar Matematika & Statistika

Machine Learning   »   Pendahuluan   ›  Memahami Outlier (Pencilan) dalam Data Statistik

Memahami Outlier (Pencilan) dalam Data Statistik

Outlier atau pencilan adalah objek data yang menyimpang secara signifikan dari objek lainnya dalam suatu kelompok data. Adanya outlier dapat menyebabkan analisis data menggunakan metode statistik standar menjadi bias.


Flag Counter

Outline Artikel:

Oleh Iman Jihad Fadillah · Statistisi

2 Januari 2023

Dalam ilmu statistik, kita mengenal yang namanya outlier atau pencilan. Pada tulisan ini, kita akan fokus membahas outlier yang muncul pada kelompok data.

Pengertian Outlier

Secara umum, outlier atau pencilan adalah objek data yang menyimpang secara signifikan dari objek lainnya dalam suatu kelompok data. Arti lain dapat dilihat dari Outlier (Pencilan) yang bersumber dari kata pencil yang bermakna terasing (terpisah) dari yang lain.

Bagaimana Outlier Bisa Mempengaruhi Kualitas Data?

Adanya outlier pada data dapat menyebabkan analisis-analisis menggunakan statistik standar menjadi bias. Oleh karenanya keberadaan outlier perlu dihindari/ditangani sebelum melakukan proses analisis data. Selain itu, adanya outlier bisa membuat informasi yang didapatkan menjadi menyesatkan (misleading).

Contoh 1:

Kelompok data yang terdiri dari 10 orang memiliki tinggi badan berkisar 165-175 cm. Adapun tinggi masing-masing orang adalah sebagai berikut:

170, 165, 174, 171, 174, 167, 175, 166, 170, 165

Kelompok data tinggi badan 10 orang tersebut memiliki rata-rata tinggi sebesar 169.7 cm. Nilai rata-rata ini cukup menggambarkan kondisi kelompok data tersebut. Sekarang seandainya 1 orang pertama tingginya berubah menjadi outlier dengan tinggi badan (cm) baru sebagai berikut:

110, 165, 174, 171, 174, 167, 175, 166, 170, 165

Maka rata-rata tinggi badan kelompok tersebut menjadi 163,7 cm. Informasi ini tentu menyesatkan (misleading) karena seolah-olah kelompok tersebut memiliki tinggi badan sekitar 163,7 cm, padahal tanpa adanya nilai outlier tersebut, kelompok data memiliki tinggi sekitar 165-175 cm. Nilai rata-rata sebesar 163,7 cm tidak menggambarkan kelompok tersebut karena adanya outlier.

Adanya outlier pada data/kelompok data, akan mempengaruhi kualitas analisis yang dihasilkan. Seperti pada contoh 1, outlier sangat mempengaruhi penghitungan rata-rata statistik. Outlier sangat sensitif dan mempengaruhi analisis atau uji-uji statistik standar seperti uji-t, analisis regresi, dan lain sebagainya.

Oleh karena itu, sangat penting untuk mengidentifikasi dan menangani outlier pada suatu data sebelum dilakukan analisis. Cara paling sederhana menangai outlier adalah dengan menghapus unit amatan tersebut dari kelompok/populasi, tetapi cara ini akan mengurangi unit amatan dan tidak semua kasus data di mana unit amatan tersebut dapat dihapuskan. Cara lain adalah dengan mencari metode statistik lain yang tidak sensitif terhadap outlier. (Cara pendeteksian outlier dan cara penanganan outlier lebih detail akan kita bahas pada tulisan lain).

Outlier bisa ditemukan pada semua kelompok data. Namun umumnya, outlier yang sering dibahas adalah outlier pada kelompok data numerik (yang dibahas pada contoh 1) atau data agregat/jumlah dari data kategorik yang dibahas pada contoh 2 berikut.

Contoh 2:

Pada hari senin, di suatu kelas Z yang terdiri dari 30 siswa/siswi, 28 siswa munggunakan pakaian berwarna putih abu-abu, sedangkan 2 siswa lainnya menggunakan pakaian pramuka. Secara definisi, 2 siswa yang menggunakan pakaian pramuka dapat dikategorikan sebagai objek yang terasing/terpisah dari yang lain, sehingga dikategorikan sebagai outlier pada kelas tersebut.

Tipe-tipe Outlier

Secara umum, outlier dapat dibagi menjadi tiga kategori, yaitu Outlier Global (Global Outliers), Outlier Kontekstual (Contextual Outliers), dan Outlier Kolektif (Collective Outliers).

Mari kita bahas masing-masing kategori outlier tersebut.

Outlier Global (Global Outliers)

Pada kumpulan data atau kelompok data tertentu, suatu objek dikatakan Outlier Global jika objek tersebut menyimpang/terasingkan/terpisah secara signifikan dari kumpulan data atau kelompok data lainnya. Outlier ini merupakan outlier yang paling sederhana dan paling umum kita kenal.

Sebagian besar metode yang ada untuk mendeteksi outlier ditujukan untuk menemukan outlier global. Contoh 1 sebelumnya, dapat dikategorikan sebagai outlier jenis ini.

Outlier Kontekstual (Contextual Outliers)

Pada kumpulan data atau kelompok data tertentu, suatu objek dikatakan Outlier Kontekstual jika objek tersebut menyimpang/terasingkan/terpisah secara signifikan dari data lain dalam satu konteks yang sama atau konteks objek tertentu. Outlier kontekstual juga dikenal sebagai outlier bersyarat karena outlier jenis ini tergantung pada konteks yang dipilih.

Contoh 3:

Di suatu wilayah negara empat musim. Apakah suhu 25-30oC adalah suhu yang relatif normal atau dapat dikatakan sebagai outlier? Jawabnya adalah tergantung konteksnya. Suhu tersebut bisa dianggap normal jika saat itu adalah musim panas, sebaliknya jika 25-30 oC itu terjadi pada musim dingin, maka hal tersebut merupakan outlier yang tergolong Outlier Kontekstual.

Contoh 4:

Contoh lain yang lebih sederhana adalah makan siang. Apakah makan siang adalah sesuatu yang normal atau dapat dikatakan sebagai outlier? Jawabannya adalah tergantung konteksnya. Makan siang dapat dianggap normal jika saat itu ada bulan bulan biasa, sebaliknya makan siang dapat dikatakan outlier jika dilakukan di Bulan Ramadhan.

Outlier Kolektif (Collective Outliers)

Pada kumpulan data atau kelompok data tertentu, tidak seperti deteksi Outlier Global atau Outlier Kontekstual, suatu objek dikatakan Outlier Kolektif jika objek tersebut menyimpang/terasingkan/terpisah tidak hanya perilaku objek individual, tetapi juga perilaku kelompok objek. Oleh karena itu, untuk mendeteksi Outlier Kolektif, diperlukan pengetahuan latar belakang tentang hubungan antar objek data seperti pengukuran jarak atau kesamaan antar objek.

Yang perlu diperhatikan, objek kolektif yang dikategorikan sebagai outlier kolektif, secara individual objek tersebut mungkin bukan outlier atau belum tentu menjadi outlier.

Contoh 5:

Jika pada satu kelas, ada satu atau beberapa siswa/siswi remedial atau mengulang mata kuliah karena nilai tidak memenuhi standar, maka kasus ini adalah hal yang biasa. Namun jika pada satu kelas seluruh siswa/siswi remedial atau mengulang mata kuliah, maka kasus ini adalah kasus yang tidak biasa/tidak normal.

Sumber:

Han, J., & Kamber, M. (2012). Data Mining: Concepts and Techniques. Elsevier.

Editor: Tju Ji Long · Statistisi

Artikel Terkait

When people undermine your dreams, predict your doom or criticize you; remember they are telling you their story, not yours.