헤매어도 한 걸음씩

신뢰 구간 본문

ML&DL

신뢰 구간

ritz 2021. 8. 14. 17:00

 

자주 나오는 면접 질문
통계에서 사용되는 부트스트랩(Bootstrap)의 의미는?
신뢰구간의 정의는?
신뢰구간이 95%인 경우, p-value가 0.03이 나오면 어떻게 해석할 것인가?

 


 

1. 부트스트랩

 표본통계량이나 모델 파라미터의 표본분포를 추정하는 쉽고 효과적인 방법은, 표본에서 추가적으로 표본을 복원추출하고, 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩이라고 한다.

개념적으로 부트스트랩은 원래 표본을 수천, 수백만번 복제하는 것이라고 생각할 수 있다.

 그렇다고 표본을 실제로 엄청난 횟수로 반복 복제하는 것은 아니다. 대신 각각의 표본을 뽑은 후 각 관측치를 다시 원래 자리에 돌려놓는다. 즉, 복원추출 한다. 이런식으로 뽑을때마다 각 원소가 뽑힐 확률은 그대로 유지하면서 무난한 크기의 모집단을 만들 수 있다. 크기 N의 샘플의 평균을 구하는 부트스트랩 재표본추출 알고리즘 다음과 같다.

  1. 샘플값을 하나 뽑아서 기록하고 다시 제자리에 놓는다.
  2. n번 반복한다.
  3. 재표본추출된 값의 평균을 기록한다.
  4. 앞의 단계를 R번 반복한다. (R은 임의 설정)
  5. R개의 결과를 사용하여,
    1. 표준편차(표본평균의 표준오차)를 계산한다.
    2. 히스토그램 또는 상자그림을 그린다.
    3. 신뢰구간을 찾는다.

 

 

2. 신뢰 구간(Confidence Interval; CI)

: 모수가 실제로 포함될 것으로 예측되는 범위

집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반을 모수의 범위를 추청

따라서, 신뢰구간은 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다.  ‘있을 수 있는 모수가 들어있는 구간’ 을 95% 신뢰구간이라고 한다.

부트스트랩은 신뢰구간을 생성하는데 사용하는 일반적인 방법이다.

 

 

▶ 95% 예언적중구간, 95% 신뢰구간 

 

1. 95% 예언적중구간

  • 모집단의 평균, 표준편차를 다 아는 상황에서 어떤 특정조건을 만족하는 데이터의 95%가 그 구간에 들어가 있다는 것.
  • 따라서 다음에 관측하는 데이터는 95%의 확률로 그 구간에 들어간다.

 

2. 95% 신뢰구간

  • 애초에 모수는 불확실하게 결정될 것이 아니라, 이미 확정되었지만 모르는 것
  • 어떤 관측값 x가 나온 경우에 모수N을 추정해 가는 과정을 반복한다면, 그 중 95%의 추정 결과는 맞다는 것의 %
  • 다시말하면, 구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간이 있을 수 있지만, 그 100번 중 95번은 N이 구해지는 구간에 들어간다.
  • 95%가 바른 모수를 포함하고 있는 구간
  • ‘버릴 수 없는 가능성으로 두어야 하는 모수의 집합'

→ 허용할 수 있는 신뢰수준이 낮을수록 신뢰구간은 좁아진다.

→ 부트스트랩은 신뢰구간을 구성하는 효과적인 방법이다.

 

 

 

▶ Data scientist는 신뢰구간을 통해 표본 결과가 얼마나 달라질 수 있는지 알 수 있다.

  •  추정에 대한 잠재적인 오류를 알려주거나, 더 큰 표본이 필요한지 여부를 파악하는 용도로 사용한다.

 

 

 

▶ 신뢰구간이 95%인 경우, p-value가 0.03이 나오면 어떻게 해석할 것인가?

  •  p-value : 모집단 추론의 가설 검정에서 기각 혹은 채택을 결정할 수 있는 확률
    •   95%의 신뢰구간(표준정규분포의 값이 [-1.96 ~ 1.96]인 구간)이 
    • → 가설을 채택 혹은 기각 결정
    • → 여기서 결정할 수 있는 확률(가설을 뒷받침해줄 수 있는 크기)이 p-value

 

 

 

ex> 평균 키를 구하고자 할 때, 신뢰구간이 175 ~ 182 이고, 가설은 184라고 가정.

  • 여기서 p-value는 가설(184)보다 큰 쪽의 확률을 의미
  • 결국, p-value가 작을수록 -> 신뢰구간에서 벗어남 -> 가설 기각
  • 반대로 p-value가 클 수록 -> 신뢰구간에 포함 -> 가설 채택

  • p-value가 작을 수록, 신뢰구간에서 점점 멀어지게 되고, 가설은 기각
  • 반대로 p-value가 클 수록, 신뢰구간에 속하게 되고, 가설은 채택
  • p-value의 채택과 기각의 기준이 되는 0.05라는 수치는 신뢰구간에 포함될 확률인 95%(=0.95)의 나머지인 5%(=0.05)를 의미한다.

 

따라서 "p-value > 0.05" 라면 가설 채택,  "p-value < 0.05" 라면 가설 기각

 

 

 

 

▶  p-value는 클수록 좋은걸까? 작을수록 좋은걸까? 

"p-value는 가설에 따라 클수록 좋을 때가 있고, 작을수록 좋을 때가 있다" 

 

만일, 회귀분석 모델에 y = ax + b 라는 함수를 적용하려고 하는데, 여기서 가설이  "a(기울기) = 0" 이라고 할 때,

가설이 채택(p-value가 큰 경우)된다면, 이 함수는 모델에 사용될 수 없게되므로, (a가 0이면 x와 y의 상관관계가 없음)가설이 기각(p-value가 작은 경우)되어야 한다. (가설을 부정해야 좋은 모델이 되기 때문)

결국, p-value가 작을수록 좋은 모델이라는 정의를 내릴 수 있는 것

 

더 쉽게, 분류분석 모델의 가설이 "매개변수 = 0" (해당 매개변수는 의미가 없다) 라고 할 때, 가설이 채택(p-value가 큰 경우)된다면 해당 매개변수는 의미가 없게 되므로 모델은 사용할 수 없게 되고, 가설이 기각(p-value가 작은 경우)된다면, 해당 매개변수는 의미가 있으므로 좋은 모델이라고 해석을 할 수 있다.

 

그렇기 때문에, 대부분 99% 이상의 분석 모델은 부정의 의미(ex. 해당 매개변수는 의미가 없다)를 통계적 가설로 세워 p-value가 작을수록 좋은 모델, 의미있는 모델이라고 하는 것