kang9366
Repository
kang9366
글쓰기
설정
전체 방문자
오늘
어제
  • 분류 전체보기 (143)
    • Programming (70)
      • Java (1)
      • C++ (11)
      • Kotlin (12)
      • Keras (2)
      • Android (34)
      • Jetpack Compose (1)
      • Error Solution (7)
    • CS (36)
      • 자료구조 (13)
      • 운영체제 (1)
      • 알고리즘 (4)
      • 컴퓨터 보안 (8)
      • 기타 (10)
    • Data Science (28)
      • 데이터분석 (7)
      • 머신러닝 (14)
      • 딥러닝 (7)

인기 글

최근 글

최근 댓글

Github · Instagram · Facebook
kang9366

Repository

Resampling Methods
Data Science/머신러닝

Resampling Methods

2022. 11. 24. 18:55

Resampling Methods는 training data의 서로 다른 부분 집합을 사용하여 동일한 통계 모델을 여러번 fitting 하는 것을 의미한다.

모델 평가(model assessment), 모델 선택(model selection)을 위해 사용한다.

 

Validation Set Approach

  • 전체 데이터 셋을 동일한 크기를 가진 2개의 집합으로 분할하여 training set, validation set을 만든다.
  • 영향력이 큰 관측지가 어느 set에 속하느냐에 따라 MSE가 달라진다.
  • 관측치의 일부만 train에 속하여 높은 bias를 갖는다.

 

LOOCV(Leave-One-Out Cross-Validation)

  • 단 하나의 관측값(x1, y1)만을 validation set으로 사용하고, 나머지 n-1개 관측값은 train set으로 사용한다.
  • n번 fitting을 진행하고, n개의 MSE를 평균하여 최종 MSE를 계산한다.
  • n-1개 관측값을 train에 사용하므로 bias가 낮다.
  • overfitting 되어 높은 variance를 갖는다.
  • n번 나누고 n번 fit 하므로 랜덤성이 없다.
  • n번 fit을 진행하므로 expensive 하다.

 

K-Fold Cross-Validation

  • 전체 데이터 셋을 k개의 그룹으로 분할하여 한 그룹은 validation set, 나머지 그룹은 train set으로 사용한다.
  • k번 fit을 진행하여 k개의 MSE를 평균내어 최종 MSE를 계산한다. 
  • LOOCV보다 연산량이 낮다.
  • 중간 정도의 bias와 variance를 갖는다.

 

저작자표시 비영리 변경금지 (새창열림)

'Data Science > 머신러닝' 카테고리의 다른 글

Dimensionality reduction  (0) 2022.12.04
Non-Linear Model  (0) 2022.11.24
Classification  (0) 2022.11.18
Logistic Regression  (0) 2022.11.18
Multiple Linear Regression  (0) 2022.11.18
    'Data Science/머신러닝' 카테고리의 다른 글
    • Dimensionality reduction
    • Non-Linear Model
    • Classification
    • Logistic Regression
    kang9366
    kang9366

    티스토리툴바