Data Science
![[기초통계학] 확률분포](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbE8Tlk%2FbtrEU1LWYmu%2FAAAAAAAAAAAAAAAAAAAAAO94cASR1lBa01NW9XoE0ZWLS4K_uEeYQf71PK0JjK_o%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3DLH9u5gfwklhju9u43Fc07Om7xSE%253D)
[기초통계학] 확률분포
확률변수가 취할 수 있는 값들에는 확률이 대응되어 있고, 이를 확률 분포(probability distribution)라고 한다. 더 쉽게 말하면 확률 변수들이 어떠한 형태로 놓여있을까, 어떻게 분포해 있을까를 나타내주는 함수이다. 확률 분포 역시 확률 변수가 이산형 확률 변수이냐, 연속형 확률 변수이냐에 따라서 이산형 확률 분포, 연속형 확률 분포로 나뉘며, 간단한 예시를 그래프로 표현해보면 아래와 같다. 균일 분포(uniform distribution) 확률 변수 X가 어느 구간 (a, b)에서 정의되고, 그 구간에서 확률 밀도 함수가 똑같은 높이의 일정한 확률 분포를 말한다. U(a,b) 라고도 표기하며 확률 밀도 함수와 그 그래프는 아래와 같다. 정규 분포(가우시안 분포) 정규분포는 평균을 중심으..
![[기초통계학] 대표값](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FCC7vu%2FbtrEVZAlzWb%2FAAAAAAAAAAAAAAAAAAAAAK5lgt-LG_2Mwa5Zj5UgMv569bsCndJe74UfLA9bks4S%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3DiOBwhcorl2TnqrrL5zSE%252F9x1fmc%253D)
[기초통계학] 대표값
주어진 자료를 대표하는 특정 값을 그 자료의 대표값이라고 한다. 대표값은 자료의 중심적인 경향이나 자료분포의 중심의 위치를 나타내주는데, 일반적 으로 사용되는 것에는 평균(mean), 중위수(median), 최빈수(mode) 등이 있다. 평균(mean) 평균은 산술평균, 기하평균, 조화평균, 가중평균 등으로 분류할 수 있다. 1. 산술평균(arithmetic mean) 일반적으로 평균 이라고 줄여말하는 것으로, 자료의 모든 측정값을 합산하여 이 값을 전체 자료의 수로 나누어 준 값을 말한다. 가장 보편적이고, 흔히 사용하는 값이다. 2. 기하평균(geometric mean) 변화하는 비율을 나타내는 평균이다. 예를 들어, 자본금 100만원 으로 사업을 시작하여 첫 해에는 자본금이 2배, 두 번째 해는 자..
![[기초통계학] 자료의 분류](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2Fc8a7jX%2FbtrEpAn8Dw6%2FAAAAAAAAAAAAAAAAAAAAAOw6Ie6Re5f8CmsplOZTsW1VHeqD3yrgHkOvaBMFHQzu%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3Dn8Qcbdrw4IpdVJzhZVVusmXJcbs%253D)
[기초통계학] 자료의 분류
질적 변수와 양적 변수 질적 변수 (qualitative variable) --> 수량적 • 명목형 변수 (nominal variable) - 구분이 목적. 순서/간격의 의미 없음 - 이진수 변수 (binary variable) : 두 개의 값만 취하는 명목변수 - 예) 성별 (M/F), 혈액형 (A/B/O/AB) 양적 변수 (quantitative variable) -> 비수량적 • 순서형 변수 (ordinal variable) [질적 변수일수도 있음] - 구분/순서 의미 있음, 간격 의미 없음 - 범주형 변수에 해당하나 연속형 변수로 취급하는 경우도 있음 - 예) 선호도: Likert’s 5-point scale (라이커트의 5점 척도) • 구간형 변수 (interval variable) -..
![[기초통계학] 통계학이란?](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2Fc4LCmn%2FbtrEnuQseuv%2FAAAAAAAAAAAAAAAAAAAAADCkrYYaHyLa6DyH4-U4z9NCgeTWqENfpzgH28_vU3Ha%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1753973999%26allow_ip%3D%26allow_referer%3D%26signature%3DmVTF3zqWTVmku29TAA%252BLksvos6A%253D)
[기초통계학] 통계학이란?
통계학(Statistics) 많은 양의 수치 자료를 수집하고, 정리, 요약 및 해석하는 방법을 다루는 과학의 한 분야 관심의 대상에 대한 자료를 수집하여, 정리, 요약하고, 이들 자료에 포함된 정보를 토대로 불확실한 사실에 대해 과학적 판단을 내릴 수 있도록 그 방법을 제시해 주는 학문 관측 자료를 바탕으로 추론(inference)을 하는 과학의 한 분야로서 불확실성(uncertainty)하에서 보다 합리적인 의사 결정을 하는 방법을 제시해 주는 학문 자료의 수집, 정리, 해석이 통계학의 핵심이라고 볼 수 있다. 통계학은 우리 일상에서도 쉽게 접할 수 있는데, 정당 지지율, 경제성장률, 주가지수, 연간 강수량, 제품의 불량률 등이 모두 통계 수치이다. 이러한 통계 수치는 관찰, 실험, 조사에서 얻어진 자..