Deriving Polynomial Regression with Regularization to Avoid Overfitting

After we discuss about polynomial regression here using LSE (Least Square Error), we know that higher order of polynomial model has more capability to fit more complex data points, but more prone to be overfitting.  Picture below illustrates that red line (using high order) exactly fit those blue dot points, but will give big error, such as in axis 0.9. That is what we called overfitting (away too fit data training). In this case, green line is better, that has more general model to represent those data points.

We can avoid overfitting by using so-called regularization. How does it work? Usually, a function is prone to be overfitting when its coefficients (weighting values) has big value and not well distributed. Thus, we will force our training process to make those coefficients small by adding a term in our cost function. This process also makes those coefficients more well distributed. Here is our new cost function. Continue reading “Deriving Polynomial Regression with Regularization to Avoid Overfitting”

Regresi Linear Menggunakan Least Square Estimation

Language : [English][Bahasa Indonesia]

Mempelajari linear regression adalah langkah yang baik untuk mengawali mempelajari machine learning, karena sederhana dan dapat memberikan intuisi bagaimana machine belajar dari suatu data. Lihat gambar di bawah ini.

Diberikan sejumlah data (titik-titik warna merah), dan kita ingin mendapatkan suatu fungsi garis (garis biru) yang paling sesuai untuk merepresentasikan data titik-titik tersebut. Dalam konteks machine learning, kita akan menggunakan data titik-titik tersebut sebagai data training untuk membuat suatu fungsi linear yang paling sesuai untuk merepresentasikan data tersebut. Gambar di atas memiliki input satu komponen nilai (satu titik) dengan output satu komponen nilai juga. Dalam case ini, kita akan menggeneralisasinya menggunakan 1-dimensional array (vektor) dengan n komponen untuk inputnya, dengan output 1 komponen nilai. Kita dapat menuliskan model persamaan linear regression kita sebagai berikut, dengan h(\mathbf{x}) adalah hypothesis/prediction untuk input \mathbf{x}.

h(\mathbf{x})=a_0x_0+a_1x_1+a_2x_2+....+a_nx_n

Mungkin ada yang bertanya, kenapa linear modelnya bukan h(x)=ax+b ? Untuk bentuk tersebut saya bahas sekalian dengan bentuk polinomial di sini, yakni dengan mensetting orde n=1.

Continue reading “Regresi Linear Menggunakan Least Square Estimation”