Interpretasi dan Inferensi Regresi Linear

Pada tulisan sebelumnya gw udah bahas bagaimana melakukan regresi linear sederhana terhadap sebuah variabel independen X dan sebuah variabel dependen Y. Caranya ialah dengan menghitung $\hat{\beta_1}$ dan $\hat{\beta_0}$ sehingga menghasilkan persamaan garis lurus $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$. Pertanyaan selanjutnya ialah apa makna sebenarnya $\hat{\beta_1}$ dan $\hat{\beta_0}$? Bagaimana akurasi regresi linear tersebut? Kemudian apakah luas tanah benar-benar mempengaruhi harga suatu rumah?

Coba kita recall masalah jual beli rumah pada tulisan sebelumnya, dimana setelah menghitung $\hat{\beta_1}$ dan $\hat{\beta_0}$ didapat persamaan garis $\hat{y}=167.634 +6.063x$, dimana $\hat{y}$ merupakan harga jual rumah (dalam juta) dan $x$ merupakan luas tanah (dalam $m^2$). $\hat{y}=167.634 +6.063x$ berarti 1$m^2$ tanah berharga sekitar Rp 6.063 juta (6 juta-an). Wah mahal banget!!!! Eits, ini merupakan harga tanah yang udah ada rumahnya ya, bukan tanah kosong.

linear-regression-data-rumah-with-equation

Lalu bagaimana dengan akurasi model regresi linear yang dihasilkan? Coba perhatikan gambar berikut, menurut lo mana yang lebih akurat, model regresi linear yang A atau B?

linear-regression-accurary-comparison

Kalau lo jawab A, apa alasannya? (yang jawab B gw ga tanya karena salah hahaha)

Pasti karena lo liat kalo data point di gambar A lebih rapet, kan? Kalo alasannya bukan karena ini, apalagi kalo karena si A lebih cantik/ganteng daripada si B (apasih), maka alasan lo gak bisa diterima.

Memang benar, secara kasat mata gambar A memiliki akurasi presisi yang lebih tinggi dibandingkan gambar B karena titik-titik pada gambar A lebih dekat ke garis regresi (lebih rapat) dibandingkan titik-titik pada gambar B (lebih menyebar). Tapi, kita perlu perhitungan kuantitatif untuk mengukur seberapa akurat/presisi model tersebut, karena akan sulit bila hanya dilihat secara kasat mata.

Kualitas suatu model regresi linear dapat diukur menggunakan beberapa metrik, salah satunya residual standard error (RSE), beberapa menyebutnya standard error of estimate atau standard error of regression. RSE secara sederhana diartikan sebagai rata-rata error, sehingga semakin kecil RSE maka presisinya semakin bagus. RSE dihitung dengan formula berikut:

$$RSE=\sqrt{\frac{RSS}{n-2}}=\sqrt{\frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{n-2}}$$

Ups, tunggu dulu. Mengapa pembaginya $n-2$ bukan $n$? Bukannya data yang digunakan ada $n$? Dalam  statistika ini dinamakan derajat kebebasan (degrees of freedom).

Mari kita hitung RSE pada model regresi linear jual beli rumah.

\begin{align}RSE&=\sqrt{\frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{n-2}} \\\\ &=\sqrt{\frac{524783.827}{32-2}} \\\\ &=132.26\end{align}

Ini artinya harga jual rumah berdasarkan prediksi dengan harga yang sebenarnya di lapangan rata-rata berbeda Rp 132 juta. Apakah perbedaan ini dapat diterima? Itu tergantung konteksnya. Kalo kita bandingkan dengan rata-rata harga jual rumah yang Rp 834 juta, maka persentase errornya ialah 132 juta/834 juta = 15.82%. Agaknya masih bisa diterima.

linear-regression-data-rumah-with-confidence-interval

Lalu apakah luas tanah benar-benar mempengaruhi harga jual rumah? Untuk mengetahuinya kita dapat melakukan uji hipotesis:

$H_0$: Luas tanah tidak mempengaruhi harga jual rumah

$H_1$: Luas tanah mempengaruhi harga jual rumah

Ada tidaknya pengaruh luas tanah terhadap harga jual rumah dapat dilihat dari $\hat{\beta_1}$. Semakin jauh $\hat{\beta_1}$ dari nol maka kita akan semakin yakin bahwa luas tanah memiliki pengaruh, sebaliknya jika $\hat{\beta_1}$ bernilai nol maka harga jual rumah hanya ditentukan oleh $\hat{\beta_0}$ yang nilainya konstan. Dengan kata lain hipotesis diatas dapat ditulis ulang menjadi:

$$H_0:\hat{\beta_1}=0$$

$$H_1:\hat{\beta_1}\neq 0$$

Untuk menentukan apakah $\hat{\beta_1}$ memiliki pengaruh atau tidak, sangat bergantung pada akurasi $\hat{\beta_1}$. Yakni walaupun nilai $\hat{\beta_1}$ relatif kecil, namun apabila akurasinya tinggi maka hal itu masih dapat membuktikan $\hat{\beta_1}\neq 0$. Akurasi $\hat{\beta_1}$ ditentukan oleh $SE(\hat{\beta_1})$ (standard error) yang jika semakin rendah nilainya maka akurasinya semakin tinggi. $SE(\hat{\beta_1})$ dihitung dengan rumus:

$$SE(\hat{\beta_1})=\sqrt{\frac{RSE^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}$$

Setelah diketahui $SE(\hat{\beta_1})$ maka selanjutnya kita menghitung t-statistics yang akan menunjukkan sebenarnya $\hat{\beta_1}$ itu seberapa jauh dari 0. Kalau sangat jauh maka kita akan sangat yakin $\hat{\beta_1}$ memiliik pengaruh, dan sebaliknya.

$$t=\frac{\hat{\beta_1}-0}{SE(\hat{\beta_1})}$$

(1) Menghitung standard error dari $\hat{\beta_1}$

\begin{align}SE(\hat{\beta_1})&=\sqrt{\frac{RSE^2}{\sum_{i=1}^n (x_i-\bar{x})^2}} \\\\ &=\sqrt{\frac{RSE^2}{\sum_{i=1}^n (x_i-\bar{x})^2}} \\\\ &=\sqrt{\frac{132.26^2}{405474.876}} \\\\ &= 0.207\end{align}

(2) Menghitung t-statistics

\begin{align}t&=\frac{\hat{\beta_1}-0}{SE(\hat{\beta_1})} \\\\ &=\frac{6.063}{0.207} \\\\ &=29.19\end{align}

Nilai t-statistics ini cukup jauh dari nol, sehingga hampir pasti $H_0$ ditolak. Untuk memastikannya kita hitung dulu p-value. Kasarnya, p-value ini merupakan probabilitas $H_0$ bernilai true. Oleh karena itu, untuk menolak $H_0$ ini maka nilai p-value harus secara signifikan kecil. Biasanya $H_0$ dapat ditolak bila p-value < 5% atau <1%, atau < 0.1%. Nilai p-value untuk t-statistics=29.19, derajat kebebasan=30, dan two-tailed hypothesis ialah kurang dari 0.00001. Dengan nilai p-value yang demikian maka kita menolak $H_0$ sehingga disimpulkan bahwa luas tanah turut mempengaruhi harga jual rumah.