상세 컨텐츠

본문 제목

통계학 공부노트 [1편]

연구/정보

by Aesthetic Thinker 2022. 9. 29. 06:54

본문

내일 시험인데 통계 노트나 설명식으로 정리해보려고 한다.

최고의 공부는 설명하기라구요~

공부하면서 들은 플레이리스트

 

이번 범위 목차는 다음과 같다.

- 측정

- 분포

- 확률

- 추출

- 통계학적 유의미성

- 가설 검정

- 표본평균

- t-검정을 이용한 모집단 평균 추정

- 두 독립집단에 대한 t-검정

- 두 연관집단에 대한 t-검정

 

한국인은 기본적으로 잘 정립된 이론 공부를 할 때 영문과 국문을 짝지어 외워야 하는 가중부담이 있다.

헷갈리지 않도록 용어는 짝지어 숙지하자.

+ 영미권에서 정립된 이론이기 때문에 번역과정에서 파생된 동의어들이 있을 수 있어 이 또한 유의하자.

 

데이터 형식의 4가지

- Numerical continuous (수치형 연속) e.g. 1부터 5까지의 실수 [일치/불일치 대/소 합/차 곱/나눗셈 연산 가능]

- Numerical discrete (수치형 이산)  e.g. 1, 2, 3, 4, 5 [일치/불일치 대/소 합/차 연산 가능]

- Categorical ordinal (범주형 순서)  e.g. 매우 좋음, 좋음, 보통, 나쁨, 매우 나쁨 [일치/불일치 대/소 연산 가능]

- Categorical nominal (범주형 명목)  e.g. 쌀, 보리, 밀 [일치/불일치 연산 가능]

 

수치형 -> Qualitative (양적 대상)

범주형 -> Qunatitative (질적 대상)

 

각 데이터 형식이 중심을 나타내는 방법

- Numerical continuous -> Geometric average(기하평균)

- Numerical discrete -> Arithmetic average (산술평균)

- Categorical ordinal -> Median (중앙값)

- Nominal -> Mode (최빈값)

 

설명변수와 반응변수

설명변수(Explanatory variables) X =(영향을 끼침)=> 반응변수 (Response variables) Y

 

연관성과 인과성

인과성이 더 강력한 의미

= 인과성(Causalty)이 있으면 연관성(Relationship / Accociation)이 있지만, 연관성이 있다고 인과성은 보장되지 않는다.

= 인과성 ⊂ 연관성

ex 1) TV를 가까이 봐서 눈이 나쁘다?

-> 진실은 눈이 나빠서 TV를 가까이 보는 것일 수 있다.

ex 2) 선크림을 많이 쓰는 사람은 피부암이 많이 걸린다?

피부암이 많은 사람은 선크림을 많이 쓴다?

-> 태양 노출이 많은 사람이 선크림도 많이 쓰고, 피부암도 많이 걸리는 것일 수 있다.

 

관찰연구와 실험

- Observational studies (관찰연구): 연구자의 통제 밖에서 진행, 인과성보다는 관련성을 찾음

- Experimental studies (실험연구): 연구자의 통제 하에 진행, 인과성을 검증하고자 함

 

실험과 관련한 기본 용어

- Control (통제): 관심영역인 실험군(Treatment group)을 대조군(Control group)에 비교한다.

- Randomize (임의): 표본조사시 모집단으로부터 최대한 임의로 추출한다.

- Replicate (복제): 같은 실험을 반복하여 같은 결과가 나오는지 확인한다.

- Block (구획): 관심영역이 아님에도 반응변수에 영향을 줄 요인은 미리 차단한다. ex) 심장약은 환자를 저위험군과 고위험으로 나누고 그 군 안에서 각각 실험군과 대조군을 구성한다. -> 계층적 분석

- Factors (인자): 실험에 부과할 수 있는 조건

 

고급 용어

- Placebo (플라시보): 가짜 실험군으로, 약 실험을 위한 대조군을 나타낼 때 자주 쓰인다.

- Blinding: 피실험자가 자신이 실험군에 속하는지 대조군에 속하는지 모르게 하는 기법

- Double-blind: 피실험자도 실험자도 누가 대조군에 속하고 누가 실험군에 속하는지 모르게 하는 기법

 

무작위 할당과 무작위 추출

- Random assignment (무작위 할당; 무선배치): 실험대상을 실험 각 조건에 무작위로 배치하여 각 조건 참여자들의 특징을 동등하게 하는 기법

- Random sampling (무작위 추출; 무선표집): 실험대상을 모집단의 모든 구성원에 대하여 동등한 확률로 선정하는 기법

 

데이터의 요약 표현 기법들

- Scatterplot (산점도): 두 수치적 변수의 관계를 나타낼 때 유용

- Dot plots (점도표): 단일 수치적 변수를 나타낼 때 유용 (점의 투명도를 이용하여 진한 경우 많음을 나타냄)

- Stacked dot plots (누적점도표): 점의 투명도 대신 위로 쌓아 올린 그래프

- Histograms (히스토그램): 도수분포표를 막대그래프로 나타낸 것으로 데이터의 밀도를 나타내기 좋으나, 막대의 너비 선정으로 의미 조작이 가능함에 유의

- 데이터 분포의 모양은 밀도(빈도)와 밀접하다.

 

데이터 분포의 모양

- Unimodal (단봉분포): 봉이 하나

- Bimodal (쌍봉분포): 봉이 둘

- Multimodal (다봉분포): 봉이 여러개

- Uniform (균등분포): 확률이 같음

- Right skew (오른쪽으로 꼬리가 길다 = Positive skew): 봉은 왼쪽이 높음에 유의

- Left skew (왼쪽으로 꼬리가 길다 = Negative skew): 봉은 오른쪽이 높음에 유의

- Symmetric (대칭분포): 평균값을 기준으로 좌우 분포가 같음

 

분포 모양과 평균, 중앙값, 최빈값

- Mean (평균): 쏠린 경우 완만한 쪽에 있음

- Median (중앙값): 언제나 중심을 지킴

- Mode (최빈값): 봉을 나타냄

 

중앙값 계산법

- 데이터 수가 짝수개일 경우 중앙값은 중간 두 개를 평균낸다.

ex) 0, 1, 2, 3, 4, 5 -> (2 + 3) / 2 = 2.5가 중앙값

 

모평균과 표본평균

- Population mean (모평균)은 µ (mu; 뮤)로 나타냄

- Sample mean (표본평균)은 위와 같이 x bar로 나타냄

 

편차, 분산, 표준편차

- Deviate (편차): 단일 표본값 - 평균값

- Squared deviate (편차 제곱)

- Sum of squared deviate (SS) (편차 제곱의 합)
- Variance (분산): 편차 제곱의 평균 = SS / (n-1) -> 표본에 대하여 n이 아닌 n-1 을 나눔에 유의

- Standard deviation (표준편차): 분산의 제곱근

 

사분위수 (Q1, Q3, IQR)

- Q1 (first quartile) : 25%

- 50% -> 중앙값

- Q3 (third quartile): 75%

- IQR (interquartile range): Q3 - Q1

 

Box Plot (상자 수염 그림)

중간의 진한 선은 중앙값, 박스의 범위는 IQR

수염(whiskers)의 끝자락은 IQR의 1.5배 범위

점은 이상치(outliers)를 나타냄

중앙값과 IQR은 outliers들을 분별하므로 평균과 표준편차보다 더욱 강건(robust)한 통계량이다.

ex) 소득분포를 살펴보면 극단적 초고소득자들의 비율이 일반 소득자와 초고소득자 사이의 소득자들보다 더 많다. -> 초고소득자는 이상치로 분류됨

 

변형

- 극단적으로 편향된 데이터(extremely skewd data)에 대해서는 변형(transformation)이 필요할 수 있다. ex) log transformation

- 변형된 데이터는 직접 해석이 어려움으로 유의가 필요하다.

- 극단적 편향 데이터의 예시: 소득, 집값, 통신시간 등

 

범주형 데이터 분포

- Contingency tables (분할표): 범주형 데이터에 대한 통계치를 나타낸 표

- Bar plots (막대그래프): 범주형 데이터 분포를 나타내기 위해 사용 (주의: 히스토그램은 수치형 데이터를 위해 사용된다.)

- 히스토그램의 x축은 숫자이고, 막대그래프의 x축은 범주이다.

- (a) Stacked bar plots (누적막대그래프), (b) Side-by-side bar plots, (c) Standardized stacked bar plot

- Mosaic plots: 비율척도를 직사각형의 너비로 시각화

 

확률

- P(A) = 사건(probability) A가 발생할 확률(probability)

- 0 <= P(A) <= 1 (불변의 법칙)

 

빈도주의와 베이즈주의

- 빈도주의(Frequentist)의 시각: 확률을 빈도와 동일한 용어로 취급

- 베이즈주의(Bayesian)의 시각: 확률을 관찰자의 믿음으로 취급 -> 믿음의 업데이트 개념 -> 컴퓨터과학에서 인기

 

큰 수의 법칙

- 관찰 수가 많아질 수록 관찰된 사건의 빈도는 실제 확률로 수렴한다.

 

확률의 곱과 합

- Conjunctive (확률의 곱): 두 사건이 모두 발생할 확률 P(A and B)

- Disjunctive (확률의 합): 두 사건 중 하나 이상의 사건이 발생할 확률 P(A or B) = P(A) + P(B) - P(A and B)

 

확률변수

- Random variables (확률변수): 확률에 의해서 결정되는 값

- 확률변수는 대분자로 표기

- 확률변수의 값은 소문자로 표기 P(X = x)

 

기댓값

- Expectation (기댓값): 평균과 동일

기댓값의 성질

 

산포도(분산)

- Variablilty (산포도): 분산과 동일

산포도(분산)의 성질

 

주변확률, 결합확률, 조건부확률

- Marginal probability (주변확률): P(X)

- Joint probability (결합확률): P(X, Y)

- Conditional probability (조건부확률): P(Y | X) = P(Y and X) / P(X)

 

베이즈 정리

P(A | B) = P(B | A) * P(A) / P(B)

- Bayes' Theorem (베이즈 정리)

 

True/False Positive/Negative

- True positive: 코로나 걸렸는데 양성 = 이럴 확률은 Sensitive

- True negative: 코로나 안걸렸는데 음성 = 이럴 확률은 Specific

- False positive: 코로나 안걸렸는데 양성 (1종 오류; 억울)

- False negative: 코로나 걸렸는데 음성 (2종 오류; 방생)

 

독립

- 한 사건의 결과를 아는 것이 다른 사건의 결과를 아는 데 아무 도움이 되지 않으면 두 사건은 독립(independent)

ex 1) 첫 동전던지기가 앞면이 나오는 것이 다음 동전던지기의 결과에 영향을 미치지 않음; 따라서 독립 (영향이 있다고 생각한다면 도박사의 오류)

ex 2) 첫 카드 에서 에이스를 뽑았으면 다음 카드에서 에이스를 뽑을 확률을 계산하는 데 영향을 미침; 따라서 독립 아님

- P(A | B) = P(A) 면 A, B는 독립

-> P(A, B) = P(A)*P(B)면 A, B는 독립

 

종속

- 독립이 아닌 경우를 종속(dependency)이라고 함

ex) 조사결과 P(총기소유는 시민을 보호한다 | 백인) = 0.67, P(총기소유는 시민을 보호한다 | 히스패닉)  = 0.64

이라면 총기소유는 시민을 보호한다는 믿음과 인종 간에는 종속을 의심할 수도 아닐 수도 있다.

- 이러한 경우 두 개 확률의 차이가 클 수록 강한 증거

- 표본의 수가 크면 확률 차이가 작더라도 유의미한 증거

 

정규분포

- Normal distribution (정규분포): N(µ, σ)

- Standard normal distribution (표준정규분포): N(0, 1)

- Standardizing (표준화): (observation - mean) / SD

- Percentiles (백분위수): 주어진 값(data point; z) 밑으로의 관측확률 P(Z < z)

- 주어진 정규분포를 표준화한 후, 위의 Z tables를 이용하여 백분위수를 계산

- 정규분포는 대칭함수 이므로 백분위수 계산 시 다음 성질을 활용 1 - P(Z < z) = P(Z > z)

- P(-1.65 < Z < 1.65) = 약 0.9, P(-1.96 < Z < 1.96) = 약 0.95, P(-2.58 < Z < 2.58) = 약 0.99

 

기하분포

- Geometric distribution (기하분포): 확률이 p인 사건이 몇 번째 시행만에 일어나겠는가?

- Bernouilli random variables (베르누이 확률변수)를 따름

- iid 베르누이 확률변수에서 성공시까지 시행횟수를 표현하는 분포

 

이항분포

- Binomial distribution (이항분포): 확률이 p인 사건이 정해진 시행 횟수 n 중 몇 번 일어나겠는가?

n번의 독립적인 베르누이 실행에서 정확히 k번 성공할 확률의 분포

- 이항분포는 시행횟수가 증가할 수록 정규분포에 근사한다. (위의 평균과 표준편차를 정규분포의 모수로 이용)

- n이 얼마나 커야 근사되는가? 정규분포 근사의 조건: np >= 10, n(1 - p) >= 10

 

이례적 관찰

- 일반적으로 평균으로부터 2σ를 벗어나면 이례적 관찰이라고 한다.

- 이례적 관찰이 발견되면 주어진 확률을 의심할 수 있다.

ex) 동전을 10번 던졌는데 모두 앞면이 나왔다. 올바른 동전일까?

이항분포를 적용 -> 평균은 np = 10 * 1/2 = 5, 표준편차는 root(10 * 1/2 * 1/2) = 1.58

따라서 평균 5로부터 2 * 1.58 더 많거나 적은 정도인 (1.84, 8.16) 범위가 일반적인 관찰이다.

k = 나온 앞면의 수 = 10가 8.16을 넘어섰으므로 이례적이며, 따라서 동전을 의심할 수 있다.

 

추론

- 모집단의 성질을 표본의 성질로부터 추론(inference)한다.

- Sampling distribution (표본분포): 모집단으로부터 무작위로 추출한 표본들이 보이는 분포

- Point estimate (점추정): 표본의 어떤 값을 모집단의 값으로 추정

 

중심극한정리

- Sample mean (표본평균)은 모집단의 분포와 관계없이 위의 정규분포를 따른다.

- µ, σ는 각각 모집단의 평균과 분산

- n은 표본 수

- σ를 모르는 경우 s(표본의 표준편차)를 대신 사용한다.

- 표본추출 과정은 독립적이어야 하며, 복원추출이어야 한다. (비복원추출의 경우 n은 모집단의 10%보다 작아야 한다)

- 모집단 분포의 편향이 심할수록 더 많은 표본이 필요하다.

- 적당한 편향의 모집단 분포에 대하여 n > 30 조건이 널리 사용된다.

 

중심극한정리와 Success-failure condition

- 발생빈도 p^는 np >= 10, n(1 - p) >= 10 를 만족할 정도로 n이 클 때 위의 정규분포를 따른다.

 

신뢰구간

- Confidence Intervals (CI; 신뢰구간): 모집단 모수(parameter)가 가질 수 있는 가능한 구간 (점추정은 매우 불확실하므로 구간으로 추정치를 표현)

- 95% 신뢰도의 신뢰구간을 표현할 경우 표본평균 + 1.96 * SE를 구간의 하한과 상한으로 사용

- 95% 확률로 신뢰구간 내에 모평균이 있다.

- 표본평균을 여러 번 구한 후 각각에 대한 95% 신뢰구간도 여러번 구했다고 하면, 그중 95%의 신뢰구간이 모평균을 포함한다.

- 신뢰도가 높아지면 신뢰구간이 길어진다.

 

가설 검정

가설 검정(Hypothesis testing)의 과정

1. Null hypothesis (H0, 귀무가설): 현재 상황에 대한 가설     *귀무: 무로 돌아가다.

2. Alternative hypothesis (HA, 대립가설): 검증하고 싶은 가설

3. 귀무가설 H0이 참이라고 가정

4. 시뮬레이션 또는 중심극한정리를 이용하여 확률을 구함

5. HA가 관찰될 확률을 확인

6. 확률이 크면 H0을 기각하지 않는다. (검증하고 싶은 가설은 거짓이 된다.)

7. 확률이 매우 작으면 H0을 기각한다. (이례적인 관찰이므로, 검증하고 싶은 가설이 참이 된다.)

 

유의도

- p-value: 귀무가설이 사실일 때 샘플결과를 관찰할 수 있는 확률 (관찰 결과)

- significance level (α, 유의도): 만일 p-value가 유의도보다 작으면 귀무가설을 기각한다. (유의도는 실험자가 설정한다)

- 일반적으로 유의도는 0.05로 설정

양측 검정: 대립가설이 '많다'나 '적다'가 아닌 '다름(different)'을 말할 경우, '많다'와 '적다'를 모두 포함하는 것이다.

따라서 단측검정의 경우 p-value를 P(Z > z)로 구했다면 양측검정에서의 p-value는 P(-z < Z < z) = P(Z > z) * 2 로 구한다.

 

가설검정의 오류

- Decision errors (가설검정의 오류): 가설 검정을 통해 내린 결정이 잘못된 경우

- Type 1 error (1종 오류): 귀무가설이 사실인데 기각한 경우

- Type 2 error (2종 오류): 귀무가설이 거짓인데 기각하지 않은 경우

- 유의도가 클 수록 1종 오류의 확률이 증가한다.

 

t-분포

- Degree-of-freedom (df; 자유도)가 클 수록 정규분포에 가까워진다.

- 적은 샘플 수에 대해서 대응성이 있으므로 정규분포보다 보수적이다. (표본 수가 커져도 마찬가지이다)

- 자유도는 n - 1이다.

- 해당 분포에서는 Z score 대신 T score를 쓴다.

 

모집단의 분산 추정

- SS엔 n - 1을 나눠 표본의 분산을 구하지만, 모집단의 분산 추정 시에는 n을 나누는 것에 유의한다.

 

t-분포를 이용한 모집단의 평균 추정

- 추정된 모집단 표준편차 (SE)를 구한 후

- 표본평균 +- T * SE 로 모평균의 신뢰구간을 구한다.

- 이때 T는 자유도 및 정해진 신뢰도로 t-table을 참고하여 구한다.

 

t-검정

- t-검정(t-test)은 모집단의 분산을 알지 못할 때 포본으로부터 추정된 분산을 이용하여 두 모집단의 평균의 차이를 알아보는 방법이다.

t-검정 과정

1. 두 표본집단의 독립성 확인 (독립인 경우 진행)

2. 귀무가설을 두 표본집단의 평균의 차이가 0인 것으로 설정한다.

3. 평균차이의 분산을 위와 같이 구한다. (pooled variance)

4. 평균차이의 모집단의 표준편차를 위와 같이 추정한다.

5. t를 위와 같이 구한다.

6. 유의도에 따라 귀무가설을 기각하거나 기각하지 않는다.

 

대응표본 t-검정

- 같은 집단으로부터 두 번의 관찰을 통해 두 표본집단을 얻은 경우, 두 표본집단은 상호연관되어 있고 (독립이 아니고) 이를 대응표본(paired) 라고 하며 이 경우에는 paired t-test를 통해 검정한다.

- 이 때의 차이는 같은 표본끼리의 차이를 의미하게 된다.

paired t-검정 과정

1. 귀무가설을 같은 표본 간의 차이의 평균이 0인 것으로 정의한다.

2. 위와 같이 모집단의 분산을 추정한다.

3. t를 위와 같이 구한다.

4. 유의도에 따라 귀무가설을 기각하거나 기각하지 않는다.

 

1편은 여기까지!!

관련글 더보기

댓글 영역