Cara Mendeteksi Data Outlier dengan SPSS

Portal-Statistik | Pemeriksaan terhadap data merupakan langkah awal yang harus dilakukan sebelum masuk tahap analisis lebih lanjut, pemeriksaan terhadap data merupakan tahap yang sangat penting sebelum melanjutkan ke tahap analisis lebih kompleks, pemeriksaan terhadap data ini sering kali dilupakan orang sehingga menyebabkan hasil analisisnya bias atau kurang baik.
Pemeriksaan terhadap data berguna untuk mengetahui karakteristik data, contohnya adalah memeriksa data yang outlier, missing value dan sebagainya.

Ya sesuai dengan judul diatas, yaitu Cara Mendeteksi Data Outlier dengan SPSS, saya akan membagikan tutorial Cara Mendeteksi Data Outlier dengan SPSS. Ada beberapa metode yang sering digunakan untuk mendeteksi data outlier, seperti dengan pendekatan grafis yaitu dengan scatter plot atau box plot dan juga pendekatans secara statistik yaitu dengan melakukan standarisasi data.

Outlier

Outliers adalah data yang muncul memiliki karakteristik unik yang terlihat sangat jauh berbeda dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel kombinasi. Data ekstrim tersebut muncul karena berbagai kemungkinan seperti kesalahan prosedur dalam memasukkan data atau mengkoding, karena keadaan yang benar-benar khusus seperti pandangan responden terhadap sesuatu yang menyimpang, karena ada sesuatu alasan yang tidak diketahui penyebabnya oleh peneliti, muncul dalam range nilai yang ada, tetapi bila dikombinasi dengan variabel lain menjadi ekstrim (disebut multivariat outliers).

Contoh data yang mengandung outlier bisa dilihat pada gambar dibawah.
Outlier/anomali adalah sehimpunan data yang dianggap memiliki sifat yang berbeda dibandingkan dengan kebanyakan data lainnya. Analisis outlier dikenal juga dengan analisis anomali atau deteksi anomali atau deteksi deviasi (nilai atributnya objek tsb, signifikan berbeda dengan nilai atribut objek lainnya ) atau exception mining

Manfaat Menggunakan Analisis Outlier

1.    Deteksi penyalahgunaan kartu kredit
2.    Deteksi adanya penyusupan pada jaringan komunikasi
3.    Analisis Medis
4.    Segmentasi data pelanggan, dsb

Penyebab adanya Outlier

1.    Data berasal dari sumber yang berbeda
2.    Variasi natural data itu sendiri
3.    Error pada saat pengukuran atau pengumpulan data

Standarisasi Data, Scatter Plot, Box Plot

Deteksi data dengan standarisasi pada prinsipnya mengubah nilai data menjadi bentuk Z, dengan kemudian menafsirkan nilai Z tersebut.
Scatter plot adalah sebuah grafik yang biasa digunakan untuk melihat suatu pola hubungan antara 2 variabel. Untuk bisa menggunakan scatter plot, skala data yang digunakan haruslah skala interval dan rasio. Scatter plot juga dapat digunakan untuk mendeteksi data outlier.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical. Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu: Rata-rata (mean), Median atau Q2, Q1, Q3, dan Outlier.
STUDI KASUSAn experiment was conducted to study the size of squid eaten by sharks and tuna. The data are given as follows:
...


X1X2X3X4X5Y
1.311.070.440.7511.95
1.551.490.530.902.9
0.990.840.340.5700.72
0.990.830.340.5400.81
1.010.90.360.6401.09
1.090.930.420.6101.22
1.080.90.40.5111.02
1.271.080.440.7711.93
0.990.850.360.5600.64
1.341.130.450.7702.08
3.31.10.450.7601.98
1.331.10.480.7701.9
1.861.470.61.0118.56
1.581.340.520.9504.49
1.971.590.671.208.49
1.81.560.661.0206.17
1.751.580.631.0907.54
1.721.430.641.0206.36
1.681.570.720.9617.63
1.751.590.681.0817.78
2.191.860.751.24010.15
1.731.670.641.1406.88
...
X1 = rostral length, in inches,
X2 = wing length, in inches,
X3 = rostral to notch length, in inches,
X4 = notch to wing length, in inches,
X5 = gender
Y = weight, in pounds.

Carilah data yang mengandung outlier…!

Deteksi Data Outlier dengan Scatter Plot dan Box Plot

Adapun langkah-langkahnya adalah.
  1. Membuka aplikasi SPSS 22 dengan melakukan double click pada icon desktop.
  2.  Setelah aplikasi SPSS terbuka dan siap digunakan, buat nama variabel X1, X2, X3, X4, X5, dan Y dengan melakukan klik pada button Variable View.
  3. Kemudian masukkan data sesuai studi kasus, dengan melakukan klik pada button Data View. Seperti terlihat pada gambar dibawah ini.
  4. Selanjutnya dilakukan pendeteksian data outlier dengan metode scatter plot, box plot dan melihat linearitas data, klik menu Graph – Regression Variable Plots, kemudian masukkan variabel Y kedalam kotak Vertical Axis Variables dan variabel X1, X2, X3, X4 ke dalam kotak Horizontal Axis Variables, klik menu button Option, isi sesuai dengan gambar , selanjutnya klik Continue dan OK.
     
    Sehingga muncul outpue seperti dibawah ini,
Pendeteksian data outlier dengan menggunakan Scatter Plot dan Box Plot dapat dilihat pada gambar, pada scatter plot, data yang outlier dapat dilihat pada titik yang ditunjukkan dengan point atau titik yang menyendiri pada variabel X1 diatas, pada data tersebut hanya ada 1 data yang outlier, data tersebut terlihat berbeda dan jauh dari yang lainnya, sehingga data tersebut dapat dikatakan data outlier. 
Dengan menggunakan Box Plot juga dapat terlihat data yang outlier, data yang menyendiri dan keluar dari box dikatakan data yang outlier dan hanya terdapat 1 data saja yaitu pada variabel X1.

Deteksi Outlier dengan Standarisasi Data

Metode yang lain yang dapat digunakan untuk mendeteksi data outlier adalah dengan melakukan standarisasi Z-Score pada data. 
Adapun langkah-langkahnya adalah: Klik menu Analyze – Descriptive Statistics – Descriptives, pata kotak dialog Descriptives, masukkan seluruh variabel kedalam kotak variable(s) dan berikan centang pada Save standardized values as variables, kemudian klik OK.
Sehingga muncul output seperti table dibawah ini.
...

NOZX1ZX2ZX3ZX4ZX5ZY
1-0.46989-0.60954-0.62813-0.471021.59545-0.70012
2-0.015490.688190.047790.18761-0.59829-0.40386
3-1.07577-1.3202-1.37917-1.26137-0.59829-1.08371
4-1.07577-1.3511-1.37917-1.3931-0.59829-1.05564
5-1.0379-1.13481-1.22896-0.95401-0.59829-0.96832
6-0.88643-1.04211-0.77834-1.08574-0.59829-0.92778
7-0.90536-1.13481-0.92855-1.524821.59545-0.99015
8-0.54563-0.57864-0.62813-0.38321.59545-0.70636
9-1.07577-1.2893-1.22896-1.30528-0.59829-1.10866
10-0.41309-0.42415-0.55303-0.3832-0.59829-0.65958
113.29787-0.51684-0.55303-0.42711-0.59829-0.69077
12-0.43203-0.51684-0.32772-0.3832-0.59829-0.71572
130.571450.626390.573510.67061.595451.36127
140.041310.22471-0.027310.40715-0.598290.092
150.779710.997171.099241.50486-0.598291.33943
160.457850.904481.024130.71451-0.598290.61592
170.363180.966270.798821.02187-0.598291.04317
180.306380.50280.873930.71451-0.598290.67517
190.230640.935371.474750.451061.595451.07124
200.363180.997171.174340.977961.595451.11801
211.196251.831421.700061.6805-0.598291.85712
220.325311.244360.873931.24141-0.598290.83734
...
 Data dikatakan outlier atau terpencil (pencilan) apabila nilai Z lebih besar dari +2,5 atau Z lebih kecil dari -2,5. Secara teori, untuk memperoleh nilai Z rumusnya adalah sebagai berikut:
  
 Dimana     
xi = nilai pengamatan ke-i
x ̅ = rata-rata nilai pengamatan
s  = standar deviasi nilai pengamatan.
Berdasarkan hasil analisis pada data standarisasi tersebut, diperoleh data yang outlier adalah data pada variabel  X1, pada data ke 11 dengan nilai Z = 3.29787.

Demikian postingan tentang Cara Mendeteksi Data Outlier dengan SPSS,
semoga bermanfaat.
Have Fun.
13 Komentar untuk "Cara Mendeteksi Data Outlier dengan SPSS"

Selamat siang.
Perkenalkan saya Rizal dari Madiun. Ada yang ingin saya tanyakan, jika kita sudah mengetahui adanya data outlier, dan ingin menghapusnya supaya bisa digunakan dalam analisis lebih lanjut, data manakah yang harus dihapus ? apakah data awal atau data nilai zscorenya saja ? Kalau seperti contoh di atas apakah data ke-11 pada nilai x1 atau zx1 ?

salam kenal juga mas Rizal, penanganan data outlier salah satunya adalah dengan cara menghapus data yg outlier tersebut, data yang dihapus tentunya data aslinya mas, kemudian silahkan di cek kembali.
Penghapusan data tsb harus ada dasarnya jg, kenapa harus dihapus, atau misalnya tujuannya adalah untuk melihat pengaruh variabel dependent terhadap variabel independent bisa menggunakan metode analisis regresi robust., dsb.

apakah jika data oulier, apakah data tersebut tetap bisa digunakan dalam analisis lebih lanjut (uji normalitas dst...) ?
wawan-jogja

bisa saja dilakukan analisis lebih lanjut, tapi nanti hasilnya tidak bagus, jika data ada yang outlier akan lebih baik di tangani terlebih dahulu.

Mas, data saya adalah 1variabel dependen/terikat (Y) dan 3 variabel independen/bebas (X), setelah dianalisis ada 2 data outlier yang terjadi pada 2 variabel saya yaitu pada variabel Y dan varibael X1, apakah yang dihapus cuma 2 data ( pada Y dan X1) itu saja atau di pukul rata dihapus masing-masing 1 variabel (pada X2 dan X3) dicari data yang mendekati kriteria data outlier ? trima kasih.

mas, boleh saya minta sumber buku cara yang kedua yaitu standarisasi z score ngak?

to Juli Kalia : Kalo boleh saya bantu, buku yang digunakan bisa buku SPSS Karya Imam Ghozali, atau Buku karya Sufren dan Natanael - Mahir menggunakan SPSS secara Otodidak.. Semoga membantu..

itu sudah dijawab sama mas Rizal di comment yang dibawah, di buku pak Imam Ghazali yang Analisis Multivariate dengan SPSS
Terimakasih

Assalamu'alaykum mas, Zlebih kecil dari -2.5 apa termasuk data outlier? seperti -0.628, data yg saya olah menghasilkan banyak angka sprt itu, trm ksh sebelumnya,

Assalamualaikum Mas, saya mau tanya, untuk penanganan outlier apakah bisa dengan mengganti data outlier tersebut dengan median atau mean? apakah ada referensi buku atau jurnal untuk hal tersebut? Terima kasih mas

Assalamualaikum mas, saya mau bertanya.
Apabila kita menggunakan variabel < 10 kan kita harus mengeliminasi variabel mana yang berpegaruh atau tidak. Selain itu kita juga harus mengeliminasi data mana yang merupakan pencilan, untuk proses eliminasi pencilan itu sendiri dilakukan setelah kita melakukan uji koefisien korelasi atau sebelum melakukan uji?
terimakasih

Silahkan tinggalkan komentar, kritik, maupun saran dari sobat blogger tentang apa yang sobat rasakan setelah mengunjungi blog ini.

Back To Top