tentang regresi

Ada yang bertanya tentang regresi linear mudah.
y = a + bx
Dalam bahasa mudahnya,
y = benda yang diramal
x = benda yang diguna untuk meramal
b = kadar hubungan x dan y ikut ramalan
a = nilai yang diramal jika nilai x = 0
Ini bukan ramalan kurafat ya. Nak buat ramalan guna regresi kena ada data. Datanya mestilah sahih dan boleh pula disahkan atau diperiksa oleh orang lain. Bukan macam ramalan tok nujum yang tak diketahui asal usulnya.
Kita boleh unakan satu contoh bagaimana nak menggunakan formula regresi ni.
y = markah final exam
x = markah mid-term exam
Menggunakan markah final dan mid-term exam pelajar yang dah selesai belajar, kita boleh cari nilai a dan b yang paling sesuai menghubungkan x dan y.
Kalaulah pun fail teruk masa mid-term, pelajar masih mungkin dapat markah untuk final exam. Dalam kata lain, walaupun x=0, dia mungkin ada nilai y yang positif. Itulah nilai a (intercept).
Kalau nilai a tu 10, maka kita boleh ramalkan (bagi batch pelajar yang hampir sama semester depan), pelajar akan dapat 10 markah dalam final exam, walaupun tertonggeng teruk dalam mid-term exam.
Biasanya, kita akan dapati ada hubungan positif antara markah midterm dan final exam. Padanannya tak lah 100% sama (mid-term 57, final pun 57). Kalau itulah yang berlaku, maka nilai b = 1 (jika x dan y diukur menggunakan unit yang sama).
Kalau performance masa final berkadar negatif dengan markah mid term (yang dapat 100 di mid term dapat 10 di final; yang dapat 10 di midterm dapat 100 di final), maka nilai b akan jadi -1.
Kalau tengok contoh output SPSS, bila nilai X dan Y sebijik sama, maka nilai R Square = 1 (atau 100%). Maksudnya variasi dalam nilai Y adalah 100% diterangkan oleh nilai X. Tak ada nilai faktor lain yang masuk campur dalam hubungan antara X dan Y.
Kalau tengok scatter plot, memang pasangan data x dan y tak 'berterabur' - elok je depa bersusun atas satu garis lurus (sila gunakan imaginasi untuk tengok garis tu). Tak ada satupun pasangan data yang menyimpang daripada garis ramalan. Dalam kata lain, tidak ada ralat dalam ramalan. Sebab tu tak pelik kita dapati nilai R square tu 100%.
Jadual ANOVA pun menunjukkan bahawa model regresi ni signifikan. Nilai F tu dah tak terungkap dah sebab residual (ralat dalam ramalan) = 0. Jadi, nilai F tu memang dianggap signifikan la.
Dalam jadual co-efficient pula, didiapati nilai B (atau beta) adalah =1; bagi kedua-dua standardized dan unstandardized. Kalau ada x2, x3, dan x yang seterusnya, baru kita tengok nilai b piawai: sebab nak bandingkan secara adil hubungan setiap peramal (x) dengan y.

Comments