헤매어도 한 걸음씩
신뢰 구간 본문
자주 나오는 면접 질문 |
통계에서 사용되는 부트스트랩(Bootstrap)의 의미는? |
신뢰구간의 정의는? |
신뢰구간이 95%인 경우, p-value가 0.03이 나오면 어떻게 해석할 것인가? |
1. 부트스트랩
표본통계량이나 모델 파라미터의 표본분포를 추정하는 쉽고 효과적인 방법은, 표본에서 추가적으로 표본을 복원추출하고, 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩이라고 한다.
개념적으로 부트스트랩은 원래 표본을 수천, 수백만번 복제하는 것이라고 생각할 수 있다.
그렇다고 표본을 실제로 엄청난 횟수로 반복 복제하는 것은 아니다. 대신 각각의 표본을 뽑은 후 각 관측치를 다시 원래 자리에 돌려놓는다. 즉, 복원추출 한다. 이런식으로 뽑을때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무난한 크기의 모집단을 만들 수 있다. 크기 N의 샘플의 평균을 구하는 부트스트랩 재표본추출 알고리즘 다음과 같다.
- 샘플값을 하나 뽑아서 기록하고 다시 제자리에 놓는다.
- n번 반복한다.
- 재표본추출된 값의 평균을 기록한다.
- 앞의 단계를 R번 반복한다. (R은 임의 설정)
- R개의 결과를 사용하여,
- 표준편차(표본평균의 표준오차)를 계산한다.
- 히스토그램 또는 상자그림을 그린다.
- 신뢰구간을 찾는다.
2. 신뢰 구간(Confidence Interval; CI)
: 모수가 실제로 포함될 것으로 예측되는 범위
집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반을 모수의 범위를 추청
따라서, 신뢰구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다. ‘있을 수 있는 모수가 들어있는 구간’ 을 95% 신뢰구간이라고 한다.
부트스트랩은 신뢰구간을 생성하는데 사용하는 일반적인 방법이다.
▶ 95% 예언적중구간, 95% 신뢰구간
1. 95% 예언적중구간
- 모집단의 평균, 표준편차를 다 아는 상황에서 어떤 특정조건을 만족하는 데이터의 95%가 그 구간에 들어가 있다는 것.
- 따라서 다음에 관측하는 데이터는 95%의 확률로 그 구간에 들어간다.
2. 95% 신뢰구간
- 애초에 모수는 불확실하게 결정될 것이 아니라, 이미 확정되었지만 모르는 것
- 어떤 관측값 x가 나온 경우에 모수N을 추정해 가는 과정을 반복한다면, 그 중 95%의 추정 결과는 맞다는 것의 %
- 다시말하면, 구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간이 있을 수 있지만, 그 100번 중 95번은 N이 구해지는 구간에 들어간다.
- 95%가 바른 모수를 포함하고 있는 구간
- ‘버릴 수 없는 가능성으로 두어야 하는 모수의 집합'
→ 허용할 수 있는 신뢰수준이 낮을수록 신뢰구간은 좁아진다.
→ 부트스트랩은 신뢰구간을 구성하는 효과적인 방법이다.
▶ Data scientist는 신뢰구간을 통해 표본 결과가 얼마나 달라질 수 있는지 알 수 있다.
- 추정에 대한 잠재적인 오류를 알려주거나, 더 큰 표본이 필요한지 여부를 파악하는 용도로 사용한다.
▶ 신뢰구간이 95%인 경우, p-value가 0.03이 나오면 어떻게 해석할 것인가?
- p-value : 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률
- 95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 구간)이
- → 가설을 채택 혹은 기각 결정
- → 여기서 결정할 수 있는 확률(가설을 뒷받침해줄 수 있는 크기)이 p-value
ex> 평균 키를 구하고자 할 때, 신뢰구간이 175 ~ 182 이고, 가설은 184라고 가정.
- 여기서 p-value는 가설(184)보다 큰 쪽의 확률을 의미
- 결국, p-value가 작을수록 -> 신뢰구간에서 벗어남 -> 가설 기각
- 반대로 p-value가 클 수록 -> 신뢰구간에 포함 -> 가설 채택
- p-value가 작을 수록, 신뢰구간에서 점점 멀어지게 되고, 가설은 기각
- 반대로 p-value가 클 수록, 신뢰구간에 속하게 되고, 가설은 채택
- p-value의 채택과 기각의 기준이 되는 0.05라는 수치는 신뢰구간에 포함될 확률인 95%(=0.95)의 나머지인 5%(=0.05)를 의미한다.
따라서 "p-value > 0.05" 라면 가설 채택, "p-value < 0.05" 라면 가설 기각
▶ p-value는 클수록 좋은걸까? 작을수록 좋은걸까?
"p-value는 가설에 따라 클수록 좋을 때가 있고, 작을수록 좋을 때가 있다"
만일, 회귀분석 모델에 y = ax + b 라는 함수를 적용하려고 하는데, 여기서 가설이 "a(기울기) = 0" 이라고 할 때,
가설이 채택(p-value가 큰 경우)된다면, 이 함수는 모델에 사용될 수 없게되므로, (a가 0이면 x와 y의 상관관계가 없음)가설이 기각(p-value가 작은 경우)되어야 한다. (가설을 부정해야 좋은 모델이 되기 때문)
결국, p-value가 작을수록 좋은 모델이라는 정의를 내릴 수 있는 것
더 쉽게, 분류분석 모델의 가설이 "매개변수 = 0" (해당 매개변수는 의미가 없다) 라고 할 때, 가설이 채택(p-value가 큰 경우)된다면 해당 매개변수는 의미가 없게 되므로 모델은 사용할 수 없게 되고, 가설이 기각(p-value가 작은 경우)된다면, 해당 매개변수는 의미가 있으므로 좋은 모델이라고 해석을 할 수 있다.
그렇기 때문에, 대부분 99% 이상의 분석 모델은 부정의 의미(ex. 해당 매개변수는 의미가 없다)를 통계적 가설로 세워 p-value가 작을수록 좋은 모델, 의미있는 모델이라고 하는 것