Mengenal Regresi: Simple Linear Regression & Multiple Linear Regression

7 April 2026 12 views

1. Apa itu Regresi

Regresi adalah teknik dalam supervised learning yang digunakan untuk memprediksi nilai kontinu (numerik) berdasarkan satu atau lebih variabel input. Berbeda dengan klasifikasi yang memprediksi kategori/kelas, regresi memprediksi angka.


bagaimana perbedaan dari klasifikasi dengan regresi dapat kita visualisasikan sebagai berikut:

2. Linear Regression

2.1. Apa itu Linear Regression?

Linear Regression adalah metode regresi paling sederhana yang memodelkan hubungan linier antara variabel independen (X) dan variabel dependen (Y).

2.2. Persamaan Regresi Linier Sederhana

y^=β0+β1x\hat{y} = \beta_0 + \beta_1 x

Di mana:

  • y^\hat{y}= nilai prediksi (variabel dependen)

  • xx= variabel independen (fitur/input)

  • β0\beta_0= intercept (titik potong sumbu Y)

  • β1\beta_1= slope/koefisien (kemiringan garis)

2.3. Bagaimana Mencari dan ?

Menggunakan metode Ordinary Least Squares (OLS), yaitu meminimalkan jumlah kuadrat error:

Minimize: i=1n(yiy^i)2=i=1n(yiβ0β1xi)2\text{Minimize: } \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2

Formulanya:

β1=nxiyixiyinxi2(xi)2\beta_1 = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2}
β0=yˉβ1xˉ\beta_0 = \bar{y} - \beta_1 \bar{x}

Di mana xˉ\bar{x} dan yˉ\bar{y} adalah rata-rata dari X dan Y.

2.4. Regresi Linier Berganda (Multiple Linear Regression)

Ketika ada lebih dari satu variabel independen:

y^=β0+β1x1+β2x2++βpxp\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p

Contoh: Harga rumah = β0\beta_0 + β1\beta_1(Luas) + β2\beta_2(Jumlah Kamar) + β3\beta_3(Jarak ke pusat kota)

dari konsep diatas dapat divisualisasikan sebagai berikut:

3. Hubungan Variabel Independen dan Dependen

3.1. Variabel Dependen (Y)

  • Disebut juga: variabel respon, variabel target, atau variabel output

  • Nilainya bergantung pada variabel lain

  • Merupakan apa yang ingin kita prediksi

  • Contoh: harga rumah, suhu, nilai ujian

3.2. Variabel Independen (X)

  • Disebut juga: variabel prediktor, variabel fitur, atau variabel input

  • Nilainya tidak bergantung pada variabel lain dalam model

  • Merupakan faktor yang mempengaruhi variabel dependen

  • Contoh: luas rumah, cuaca, waktu belajar

3.3. Jenis Hubungan

Jenis Hubungan

Deskripsi

β1\beta_1

Positif

X naik → Y naik

β1>0\beta_1 > 0

Negatif

X naik → Y turun

β1<0\beta_1 < 0

Tidak ada

X berubah → Y tidak berpengaruh

β10\beta_1 \approx 0

berikut visualisasi dari jenis hubungan nya:

4. Evaluasi Model Regresi

4.1. Metrik Evaluasi Utama

Metrik

Formula

Keterangan

MSE (Mean Squared Error)

1n(yiy^i)2\frac{1}{n}\sum(y_i - \hat{y}_i)^2

Rata-rata kuadrat error, penalti besar untuk error besar

MAE (Mean Absolute Error)

1nyiy^i\frac{1}{n}\sum|y_i - \hat{y}_i|

Rata-rata nilai absolut error

RMSE (Root Mean Squared Error)

MSE\sqrt{MSE}

Akar dari MSE, satuan sama dengan Y

(Koefisien Determinasi)

1(yiy^i)2(yiyˉ)21 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}

Proporsi variansi Y yang dijelaskan oleh model

4.2. Interpretasi R²

Nilai R²

Interpretasi

R² = 1.0

Model sempurna (semua titik tepat di garis)

R² ≥ 0.9

Model sangat baik

R² ≥ 0.7

Model baik

R² ≥ 0.5

Model cukup

R² < 0.5

Model kurang baik

R² = 0.0

Model tidak lebih baik dari rata-rata

R² < 0.0

Model sangat buruk (lebih buruk dari rata-rata)

5. Kelebihan dan Keterbatasan Regresi Linier

5.1. Kelebihan

No

Kelebihan

Penjelasan

1

Sederhana & mudah dipahami

Persamaan linier mudah diinterpretasikan

2

Cepat dilatih

Tidak membutuhkan komputasi yang berat

3

Tidak perlu tuning parameter

Tidak ada hyperparameter yang kompleks

4

Interpretable

Setiap koefisien punya makna yang jelas

5

Baseline yang baik

Sering digunakan sebagai model pembanding

5.2. Keterbatasan

No

Keterbatasan

Penjelasan

1

Asumsi linearitas

Hanya memodelkan hubungan linier

2

Sensitif terhadap outlier

Data yang jauh dari pola bisa merusak model

3

Multikolinearitas

Variabel independen yang saling berkorelasi bisa memberikan hasil yang tidak stabil

4

Underfitting

Terlalu sederhana untuk data yang kompleks

5

Tidak cocok untuk hubungan non-linier

Perlu metode lain (Polynomial, dll.)

Komentar

Tulis Komentar

Belum ada komentar. Jadilah yang pertama!