Data Science/데이터분석

    Bias-Variance Trade-off

    Bias-Variance Trade-off

    Bias-Variance Trade-off는 Supervised learning에서 error를 처리할 때 중요하게 생각해야 하는 요소이다. 모델을 학습시킬 때, 우리의 목표는 bias와 variance가 모두 최소화되도록 하는 것이다. 그러나 일반적으로 bias와 variance는 동시에 최소화될 수 없는데, 이러한 현상을 bias-variance tradeoff라고 한다. 편향은 예측값이 정답과 얼마나 멀리 떨어져 있는지로 측정할 수 있고 분산은 예측값들끼리의 차이로 측정할 수 있다. 편향(Bias) 편향은 학습 알고리즘에서 잘못된 가정으로 인한 오류이다. 편향이 높으면 알고리즘이 feature(설명변수, 독립변수)와 target(종속변수)간의 관계를 놓칠 수 있고 이는 특성과 타겟변수의 관계를 잘 ..

    [기초통계학] 통계적 추정

    [기초통계학] 통계적 추정

    통계적 추정(Statistical estimation) 모집단에 대한 정보가 없을 때표본의 성격을 나타내는 통계량을 기초로 하여 모집단의 모수를 추론하는 방법을 뜻한다.​ 추정량(estimator) : 추정치를 구하기 위해 사용되는 추정 방법 또는 도구이다. 예를 들어, 모평균(μ)의 추정량은 표본의 통계량인 표본 평균(x bar)이고, 모분산(σ2)의 추정량은 표본분산(s2)이다. ​ 추정치(estimate)는 표본의 자료로 구한 추정량의 구체적 수치 값을 뜻한다. 삥삥 농장 귤 100개에서 구한 평균 당도 20brix가 추정치이다. ​ 추정량으로 삼을 수 있는 통계량에는 표본의 산술평균, 기하평균, 중앙값, 최빈값 등이 있는데, 이 중 어떤 통계량을 추정량으로 사용하느냐가 중요한 문제가 된다. 이러한..

    [기초통계학] 표본평균의 분포와 중심극한정리

    [기초통계학] 표본평균의 분포와 중심극한정리

    표본평균의 분포 모평균에 대한 추론은 표본의 평균 X̄와 그 분포를 이용한다. 평균이 μ이고 분산이 σ^2인 모집단으로부터 크기가 n인 표본 X1, X2, ..., Xn을 추출했을 때, 표본평균 X̄의 기댓값과 분산은 다음과 같다. 표본평균 분포의 중심은 모집단의 중심 μ와 일치한다. 그러나 표집분포의 퍼짐 정도를 측정하는 표준편차는 표본의 크기에도 영향을 받는다. 즉, 표본의 크기 n이 증가함에 따라 표본평균의 표준편차는 n의 제곱근에 반비례해서 감소하는데 이는 표본평균의 분포가 μ를 중심으로 더욱 집중됨을 나타낸다. 예를 들어, 표본의 크기를 100배 늘리면, 표본평균의 표준편차는 1/10으로 감소하여 표집분포가 μ를 중심으로 더욱 집중된다. 중심극한정리 모집단의 분포가 정규분포가 아닌 경우 X̄의 ..

    [기초통계학] 확률분포

    [기초통계학] 확률분포

    확률변수가 취할 수 있는 값들에는 확률이 대응되어 있고, 이를 확률 분포(probability distribution)라고 한다. 더 쉽게 말하면 확률 변수들이 어떠한 형태로 놓여있을까, 어떻게 분포해 있을까를 나타내주는 함수이다. 확률 분포 역시 확률 변수가 이산형 확률 변수이냐, 연속형 확률 변수이냐에 따라서 이산형 확률 분포, 연속형 확률 분포로 나뉘며, 간단한 예시를 그래프로 표현해보면 아래와 같다. 균일 분포(uniform distribution) 확률 변수 X가 어느 구간 (a, b)에서 정의되고, 그 구간에서 확률 밀도 함수가 똑같은 높이의 일정한 확률 분포를 말한다. U(a,b) 라고도 표기하며 확률 밀도 함수와 그 그래프는 아래와 같다. 정규 분포(가우시안 분포) 정규분포는 평균을 중심으..

    [기초통계학] 대표값

    [기초통계학] 대표값

    주어진 자료를 대표하는 특정 값을 그 자료의 대표값이라고 한다. 대표값은 자료의 중심적인 경향이나 자료분포의 중심의 위치를 나타내주는데, 일반적 으로 사용되는 것에는 평균(mean), 중위수(median), 최빈수(mode) 등이 있다. 평균(mean) 평균은 산술평균, 기하평균, 조화평균, 가중평균 등으로 분류할 수 있다. 1. 산술평균(arithmetic mean) 일반적으로 평균 이라고 줄여말하는 것으로, 자료의 모든 측정값을 합산하여 이 값을 전체 자료의 수로 나누어 준 값을 말한다. 가장 보편적이고, 흔히 사용하는 값이다. 2. 기하평균(geometric mean) 변화하는 비율을 나타내는 평균이다. 예를 들어, 자본금 100만원 으로 사업을 시작하여 첫 해에는 자본금이 2배, 두 번째 해는 자..

    [기초통계학] 자료의 분류

    [기초통계학] 자료의 분류

    질적 변수와 양적 변수 ​질적 변수 (qualitative variable) --> 수량적 • 명목형 변수 (nominal variable) - 구분이 목적. 순서/간격의 의미 없음 - 이진수 변수 (binary variable) : 두 개의 값만 취하는 명목변수 - 예) 성별 (M/F), 혈액형 (A/B/O/AB) ​ 양적 변수 (quantitative variable) -> 비수량적 • 순서형 변수 (ordinal variable) [질적 변수일수도 있음] - 구분/순서 의미 있음, 간격 의미 없음 - 범주형 변수에 해당하나 연속형 변수로 취급하는 경우도 있음 - 예) 선호도: Likert’s 5-point scale (라이커트의 5점 척도) ​ • 구간형 변수 (interval variable) -..

    [기초통계학] 통계학이란?

    [기초통계학] 통계학이란?

    통계학(Statistics) 많은 양의 수치 자료를 수집하고, 정리, 요약 및 해석하는 방법을 다루는 과학의 한 분야 관심의 대상에 대한 자료를 수집하여, 정리, 요약하고, 이들 자료에 포함된 정보를 토대로 불확실한 사실에 대해 과학적 판단을 내릴 수 있도록 그 방법을 제시해 주는 학문 관측 자료를 바탕으로 추론(inference)을 하는 과학의 한 분야로서 불확실성(uncertainty)하에서 보다 합리적인 의사 결정을 하는 방법을 제시해 주는 학문 자료의 수집, 정리, 해석이 통계학의 핵심이라고 볼 수 있다. 통계학은 우리 일상에서도 쉽게 접할 수 있는데, 정당 지지율, 경제성장률, 주가지수, 연간 강수량, 제품의 불량률 등이 모두 통계 수치이다. 이러한 통계 수치는 관찰, 실험, 조사에서 얻어진 자..