www.jagostat.com

www.jagostat.com

Website Belajar Matematika & Statistika

Website Belajar Matematika & Statistika

Analisis Regresi   »   Asumsi Multikolinearitas   ›  Mengatasi Multikolinearitas dengan Ridge Regression
Analisis Regresi

Mengatasi Multikolinearitas dengan Ridge Regression

Ridge regression merupakan salah satu dari beberapa metode yang telah diusulkan untuk memperbaiki multikolinearitas dengan memodifikasi metode kuadrat terkecil untuk memperbolehkan estimator koefisien regresi yang bias.


Ridge regression merupakan salah satu dari beberapa metode yang telah diusulkan untuk mengatasi multikolinearitas dengan memodifikasi metode kuadrat terkecil untuk memperbolehkan estimator koefisien regresi yang bias.

Saat sebuah estimator hanya mempunyai bias yang kecil dan secara substansial lebih presisi dibandingkan estimator yang tak bias (unbiased), maka estimator tersebut akan lebih diinginkan karena ia akan mempunyai peluang yang lebih besar untuk mendekati nilai parameter yang sebenarnya. Gambar 1 mengilustrasikan situasi ini.

Gambar

Gambar 1. Estimator bias dengan varians kecil akan lebih dipilih daripada estimator unbiased dengan varians besar

Estimator b adalah unbiased tetapi tidak presisi, sedangkan estimator \(b^R\) jauh lebih presisi tetapi mempunyai bias yang kecil. Peluang bahwa \(b^R\) jatuh mendekati nilai β yang sebenarnya adalah jauh lebih besar daripada untuk estimator yang tidak bias b.

Sebelum melangkah lebih jauh, kita perlu mengenal sebuah ukuran yang disebut dengan mean square error (MSE) yakni nilai harapan (ekspektasi) deviasi kuadrat estimator bias \(b^R\) dari parameter yang sebenarnya \(β\). Dalam rumus, ini dapat dinyatakan dengan:

Gambar

Dari penjabaran rumus di atas, terlihat bahwa MSE merupakan kombinasi antara bias dan variasi sampling. Dengan demikian, MSE sama dengan varian estimator ditambah kuadrat bias. Perhatikan bahwa jika estimator unbiased, MSE sama dengan varians estimator.

Ridge estimator

Anda mungkin masih ingat bahwa dalam metode kuadrat terkecil biasa (ordinary least square), persamaan normal diberikan oleh

Gambar

Ketika semua variabel ditransformasi dengan transformasi korelasi, model regresi transformasi diberikan oleh

Gambar

dan persamaan normal untuk kuadrat terkecil menjadi:

Gambar

di mana \(r_{XX}\) adalah matrik korelasi variabel X dan \(r_{YX}\) adalah vektor koefisien korelasi sederhana antara Y dan setiap variabel X.

Koefisien regresi ridge yang distandarisasi diperoleh dengan memasukkan persamaan normal kuadrat terkecil dengan sebuah konstanta bias \(c ≥ 0\), dalam bentuk berikut ini:

Gambar

di mana \(b^R\) adalah vektor koefisien regresi ridge yang distandarisasi (\(b_k^R\)) dan I adalah matriks identitas berukuran (p-1) x (p-1). Solusi persamaan normal menghasilkan koefisien regresi ridge yang distandarisasi:

Gambar

Perhatikan bahwa konstanta c di sini berperan penting. Konstanta c merefleksikan jumlah bias dalam estimator. Saat \(c=0\), persamaan di atas tereduksi menjadi koefisien regresi kuadrat terkecil biasa dalam bentuk yang distandarisasi. Saat \(c > 0\), koefisien regresi ridge adalah bias tetapi cenderung lebih stabil (misalnya variabel lebih sedikit) daripada estimator kuadrat terkecil biasa.

Lantas dari mana nilai c ini diperoleh ?

Pemilihan Konstanta Bias c

Dapat ditunjukkan bahwa komponen bias dari total MSE estimator regresi ridge meningkat ketika \(c\) semakin besar (dengan semua \(b_k^R\) cenderung mendekati nol), sedangkan pada saat yang sama komponen varians semakin kecil.

Lebih lanjut bisa ditunjukkan bahwa selalu terdapat beberapa nilai \(c\) yang mana estimator regresi ridge \(b_k^R\) mempunyai total MSE yang lebih kecil dibandingkan estimator kuadrat terkecil biasa b. Kesulitannya adalah nilai optimum \(c\) bervariasi dan nilainya tidak diketahui.

Sebuah metode yang umum digunakan dalam menentukan konstanta bias \(c\) didasarkan pada ridge trace dan variance inflation factors \((VIF)_k\). Ridge trace adalah plot simultan dari nilai-nilai \(p-1\) estimasi koefisien regresi ridge yang distandarisasi untuk nilai \(c\) yang berbeda, biasanya antara 0 dan 1.

Pengalaman selama ini mengindikasikan bahwa koefisien regresi estimasi \(b_k^R\) akan sangat berfluktuasi ketika \(c\) diubah sedikit demi sedikit dari 0, dan bahkan mungkin juga mengakibatkan terjadinya perubahan tanda (misalnya dari positif menjadi negatif).

Namun, secara perlahan-lahan, fluktuasi yang lebar ini berhenti dan besarnya koefisien regresi cenderung hanya berubah secara perlahan ketika c meningkat lebih jauh.

Pada saat yang bersamaan, nilai \((VIF)_k\) cenderung menurun dengan cepat ketika c diubah dari 0, dan secara perlahan, \((VIF)_k\) juga akan cenderung berubah sedikit ketika \(c\) meningkat lagi.

Oleh karena itu, kita akan gunakan ridge trace dan nilai VIF sebagai patokan dalam memilih nilai c terkecil di mana dengan nilai c tersebut, koefisien regresi menjadi stabil dalam ridge trace dan nilai VIF menjadi cukup kecil.

Hal yang perlu menjadi catatan adalah bahwa pemilihan nilai c ini bersifat subyektif. Artinya, nilai c yang terplih bisa berbeda antara orang yang satu dengan yang lainnya.

Sebagai contoh, telah kita nyatakan sebelumnya beberapa indikasi informal dari multikolinieritas yang parah dalam data body fat example dengan tiga variabel independen. Memang, dalam model fit dengan tiga variabel independen, koefisien regresi estimasi b2 adalah negative meskipun diharapkan bahwa jumlah body fat adalah berhubungna positif dengan thigh circumference.

Penghitungan regresi ridge dibuat untuk data body fat example dalam tabel 8.1. (penghitungannya tidak ditunjukkan disini). Koefisien regresi ridge yang distandarisasi untuk nilai c terpilih disajikan dalam tabel 11.5, dan variance inflation factors (VIF) diberikan dalam tabel 11.6. Koefisien determinasi berganda R^2 juga ditunjukkan pada tabel terakhir. Gambar 11.8 menyajikan ridge trace dari koefisien regresi estimasi yang distandarisasi. Untuk mempermudah analisis, skala c horizontal dalam gambar 11.8 adalah logarithmic.

Perhatikan ketidakstabilan dari koefisien regresi untuk nilai c yang sangat kecil pada gambar 11.8. Koefisien regresi estimasi b_k^R, sebenarnya, mengubah tanda. Juga perhatikan penurunan yang cepat dalam nilai VIF pada tabel 11.6. Nilai c =0.02 kemudian dipilih karena nilai konstanta bias ini, membuat koefisien regresi ridge mempunyai VIF mendekati 1 dan koefisien regresi estimasi tampak telah menjadi cukup stabil. Model fit yang dihasilkan untuk c=0.02 adalah:

Gambar

Dengan mentransformasi kembali ke variabel asli dengan (8.50), kita peroleh:

Gambar

di mana:

Tanda yang tidak sesuai pada estimasi bagi β_2 kini telah dieliminasi, dan koefisien regresi estimasi lebih sesuai dengan harapan sebelumnya. Jumlah kuadrat residual untuk variabel yang ditransformasi, yang mana meningkat seiring c, hanya meningkat dari 0.1986 pada c=0 menjadi 0.2182 pada saat c = 0.02 sedangkan R2 menurun dari 0.8014 menjadi 0.7818. Perubahan-perubahan yang terjadi ini relative kecil. Nilai rata-rata estimasi body fat saat X_h1=25.0, X_h2=50.0,dan X_h3=29.0 adalah 19.33 untuk regresi ridge saat c = 0.02 dibandingkan 19.19 saat menggunakan solusi kuadrat terkecil biasa. Oleh karena itu, solusi ridge saat c = 0.02 tampak cukup memuaskan di sini dan merupakan alternative yang cukup beralasan bagi solusi kuadrat terkecil biasa.

Tabel 1. Estimasi koefisien regresi ridge yang distandarisasi untuk konstanta bias c yang berbeda – Body fat example dengan tiga variabel independen.

Gambar

Tabel 2. Nilai VIF bagi koefisien regresi dan \(R^2\) bagi konstanta bias c yang berbeda – Body fat example dengan tiga variabel independen

Gambar
Artikel Terkait

An inch of time is an inch of gold but you can't buy that inch of time with an inch of gold.