kang9366
Repository
kang9366
글쓰기
설정
전체 방문자
오늘
어제
  • 분류 전체보기 (143)
    • Programming (70)
      • Java (1)
      • C++ (11)
      • Kotlin (12)
      • Keras (2)
      • Android (34)
      • Jetpack Compose (1)
      • Error Solution (7)
    • CS (36)
      • 자료구조 (13)
      • 운영체제 (1)
      • 알고리즘 (4)
      • 컴퓨터 보안 (8)
      • 기타 (10)
    • Data Science (28)
      • 데이터분석 (7)
      • 머신러닝 (14)
      • 딥러닝 (7)

인기 글

최근 글

최근 댓글

Github · Instagram · Facebook
kang9366

Repository

Bias-Variance Trade-off
Data Science/데이터분석

Bias-Variance Trade-off

2022. 10. 20. 21:22

Bias-Variance Trade-off는 Supervised learning에서 error를 처리할 때 중요하게 생각해야 하는 요소이다.

모델을 학습시킬 때, 우리의 목표는 bias와 variance가 모두 최소화되도록 하는 것이다. 그러나 일반적으로 bias와 variance는 동시에 최소화될 수 없는데, 이러한 현상을 bias-variance tradeoff라고 한다.

 

편향은 예측값이 정답과 얼마나 멀리 떨어져 있는지로 측정할 수 있고 분산은 예측값들끼리의 차이로 측정할 수 있다.

 

편향(Bias)

편향은 학습 알고리즘에서 잘못된 가정으로 인한 오류이다. 

편향이 높으면 알고리즘이 feature(설명변수, 독립변수)와 target(종속변수)간의 관계를 놓칠 수 있고 이는 특성과 타겟변수의 관계를 잘 파악하지 못하기 때문에 under-fitting을 야기한다.

 

 

분산(Variance)

분산은 지나치게 복잡한 모델로 인한 error입니다. 훈련 데이터에 지나치게 적합시키려는 모델말입니다. 분산이 크면 과대 적합(Over-fitting)을 야기합니다. 분산이 큰 모델은 훈련 데이터에 지나치게 적합을 시켜 일반화가 되지 않은 모델입니다.

왼쪽은 큰 편향, 작은 분산 (high bias, low variance), 오른쪽은 작은 편향, 큰 분산 (low bias, high variance)를 나타낸다.

 편향은 예측 값과 실제 값의 차이로 나타낼 수 있다. 왼쪽 그래프의 예측 값과 실제 값이 차이는 오른쪽 그래프보다 크다. 오른쪽 그래프의 예측 값과 실제 값의 차이는 0이고 이는 편향이 0이라는 뜻입니다.

 분산은 왼쪽 그래프가 더 작다. 분산은 주어진 데이터로 학습한 모델이 예측한 값의 변동성을 뜻한다. 왼쪽 그래프는 일반화가 잘 되어 있기 때문에 예측 값이 일정한 패턴을 나타내지만 오른쪽 그래프는 들쑥날쑥하다. 이는 예측 값에 일정한 패턴이 없다는 뜻이다. 즉, 분산이 크다는 뜻이다.

 

 

편향-분산 Trade-off

Error를 구하는 공식

첫번째 term : 편향의 제곱

두 번째 term : 분산

세 번째 term : irreducible error

마지막 error는 일상생활에서 발생할 수 있는 불가피한 error를 뜻한다.

전체 모델의 error는 이렇게 편향, 분산, 불가피한 error를 모두 합한 것과 같다.

하지만 편향과 분산 간에는 trade-off 관계가 있다.

 

 

모델이 복잡할수록(high model complexity) bias는 감소하고 variance는 높아지며 (over-fitting이 발생할 가능성 높음)

모델이 간단할수록(low model complexity) bias는 증가하고 variance는 낮아진다. (under-fitting이 발생할 가능성 높음)

따라서 오류를 최소화하려면 편향과 분산의 합이 최소가 되는 적당한 지점을 찾아야 한다.

 

저작자표시 비영리 변경금지 (새창열림)

'Data Science > 데이터분석' 카테고리의 다른 글

[기초통계학] 통계적 추정  (0) 2022.06.16
[기초통계학] 표본평균의 분포와 중심극한정리  (0) 2022.06.16
[기초통계학] 확률분포  (0) 2022.06.16
[기초통계학] 대표값  (0) 2022.06.16
[기초통계학] 자료의 분류  (0) 2022.06.10
    'Data Science/데이터분석' 카테고리의 다른 글
    • [기초통계학] 통계적 추정
    • [기초통계학] 표본평균의 분포와 중심극한정리
    • [기초통계학] 확률분포
    • [기초통계학] 대표값
    kang9366
    kang9366

    티스토리툴바