Data Science
Non-Linear Model
Polynomial Regression Piecesiwe Polynomial Linear Spline Cubic Spline Natural Cubic Spline Local Regression GAM

Resampling Methods
Resampling Methods는 training data의 서로 다른 부분 집합을 사용하여 동일한 통계 모델을 여러번 fitting 하는 것을 의미한다. 모델 평가(model assessment), 모델 선택(model selection)을 위해 사용한다. Validation Set Approach 전체 데이터 셋을 동일한 크기를 가진 2개의 집합으로 분할하여 training set, validation set을 만든다. 영향력이 큰 관측지가 어느 set에 속하느냐에 따라 MSE가 달라진다. 관측치의 일부만 train에 속하여 높은 bias를 갖는다. LOOCV(Leave-One-Out Cross-Validation) 단 하나의 관측값(x1, y1)만을 validation set으로 사용하고, 나머지..

Activation Function
신경망모델의 각 layer에서는 input 값과 W, b를 곱, 합연산을 통해 a=WX+b를 계산하고 마지막에 활성화 함수를 거쳐 output을 출력한다. 이렇게 각 layer마다 sigmoid, softmax, relu 등 여러 활성화 함수를 이용한다. 선형 분류기의 한계(XOR 문제) 인공신경망에 대한 연구가 한계를 맞게된 첫 과제는 바로 XOR문제였다. 아래 그림에서 확인할 수 있듯이 기존의 퍼셉트론은 AND와 OR문제는 해결할 수 있었지만 선형 분류기라는 한계에 의해 XOR과 같은 non-linear한 문제는 해결할 수 없었다. 이를 해결하기 위해 나온 개념이 hidden layer이다. 그러나 이 hidden layer도 무작정 쌓기만 한다고 해서 퍼셉트론을 선형분류기에서 비선형분류기로 바꿀 수..

Perceptron
퍼셉트론(Perceptron)은 인공 신경망(Aritificial Neural Network, ANN)의 구성 요소로서 다수의 값을 입력받아 하나의 값으로 출력하는 알고리즘이다. 퍼셉트론(Perceptron)은 perception과 neuron의 합성어이며 인공 뉴런이라고도 부른다. 즉, 퍼셉트론은 생물학적인 신경계(Neual Network)의 기본 단위인 신경세포(=뉴런)의 동작 과정을 통계학적으로 모델링한 알고리즘이다. Biological neuron model 뉴런은 신경계를 구성하는 세포이며, 인접한 다른 뉴런과 다양한 신호(=자극)를 주고받으며 정보를 얻거나 저장하는 역할을 한다. 뉴런은 수상돌기에서 인접한 다수의 뉴런 내 축삭돌기와 시냅스를 통해 신호를 입력받아 신경세포체에 저장하는데 이때 해..

Simple Linear Regression
머신러닝의 목적은 데이터의 알려진 속성들을 학습하여 예측 모델을 만드는데 있다. 이때 찾아 낼 수 있는 가장 직관적이고 간단한 모델은 선(line)이다. 선형회귀란 데이터를 가장 잘 대변하는 최적의 선을 찾은 과정이다. 이러한 선은 주어져 있지 않은 점의 함수값을 보간하여 예측하는데 도움을 주며, 또한 기존 데이터의 범위를 넘어서는 값을 예측하기 위해 사용된다. 아래 그래프에서 검정색 점이 데이터이다. 이 데이터를 가장 잘 표현하는 선이 파란색 직선이며, 이는 y=ax+b 형태로 나타난다. 선형회귀 직선은 x와 y의 관계를 요약해서 설명해준다고 볼 수 있다. 이 때 x를 독립 변수라고 하며, x에 의해 영향을 받는 값인 y를 종속 변수라고 한다. 선형 회귀는 한개 이상의 독립 변수 x와 y의 관계를 모델..