본문 바로가기
카테고리 없음

스피겔힐터,『숫자에 약한 사람들을 위한 통계학 수업』, 상관관계가 인과관계를 의미하지 않는다

by growingseed 2021. 7. 24.

숫자에 약한 사람들을 위한 통계학 수업

경험을 데이터로 바꾸는 일은 간단하지 않으며 데이터가 세상을 설명하는 능력은 제한적이다... 통계학 수업은 수학적 방법을 가르치는 것에서 문제 해결 모형을 가르치는 것으로 바뀌고 있다. (23)

1. 비율로 표시하기: 범주형 데이터와 백분율: ‘/아니오질문은 이지변수다. 각 응답은 비율로 표현할 수 있다... 긍정적 또는 부정적 틀 짜기는 비율이 주는 느낌을 바꿀 수 있다. 상대위험도는 과장된 인상을 줄 수 있으므로 절대 위험도와 함게 살펴 봐야 한다... 기대빈도는 데이터를 이해하고 중요성을 판단하는데 도움을 준다... 승산비는 과학 연구에서 많이 쓴다. (48)

2. 숫자들을 요약하고 전달하기: 데이터의 위치, 퍼짐, 관계: 평균 - 산술평균(mean), 중앙값(meidan), 최빈값(mode)... 수의 순서쌍들은 산점도로, 시계열(time-series)데이터는 꺾은 선 그래프로 보자

3. 부분에서 전체를 추론하기: 모집단과 측정: 귀납적 추론은 데이터에서 출발해 연구 표본과 연구 모집단을 거쳐 목표 모집단으로 가는 과정이다. 문제와 편향은 귀납적 추론의 각 단계에서 발생할 수 있다. 최상의 표본은 무작위 추출이다.

4. 무엇이 무엇의 원인인가?: 인과관계: 상관관계가 인과관계를 의미하지는 않는다... 통계적 의미에서 인과관계는 우리가 개입할 때 다른 결과가 나올 가능성이 체계적으로 변한다는 뜻이다... 혼동요인이나 잠복변수에 의한 왜곡을 방지하는 통계적 방법이 있기는 하지만, 확신을 갖고 인과 관계를 주장하려면 결국 판단이 요구된다. (137)

5. 관계를 모형화하기: 회귀모형: 회귀모형은 설명변수와 반응변수 간 관계를 수학적으로 표현한다. 회귀 모형의 계수는 설명변수의 변화가 관측될 때 예상되는 반응변수의 변화량을 나타낸다. (160)

6. 분석하기와 예측하기: 알고리즘: 데이터를 가지고 만든 알고리즘은 분류와 예측에 사용된다. 알고리즘이 훈련 세트에 과대적합하지 않도록, 즉 신호가 아니라 잡음에 맞춰지지 않도록 주의하자. 분류의 정확도, 그룹 식별 능력, 전반적인 예측 정확도를 기준으로 알고리즘을 평가할 수 있다. 복잡한 알고리즘은 투명성이 부족하맂 모른다. 이해라는 가치를 위해 정확성을 조금 포기할 수 있다. (209)

7. 추정을 얼마나 확신할 수 있나? : 표본의 크기와 불확실성 구간: 불확실성 구간은 통계량을 전달할 때 중요하다. 어떤 표본의 부트스트랩은 복우너 추출을 통해 원래 표본에서 같은 크기의 데이터 집합들을 얻는 기법이다. 부트스트랩 재표본의 통계량은 원래 데이터의 분포와 상관없이 그 크기가 커짐에 따라 정규 분포에 가까워지는 경향이 있다. (227)

8. 불확실성과 변동성의 언어: 확률 법칙과 이론: 확률은 우연을 다루기 위한 언어와 수학을 제공한다.

9. 확률 모형에 기초한 통계적 추론: 95% 신뢰구간은 가정이 맞는 사례들 중 95%가 모수의 참값을 포함하는 과정의 결과이다. 그것이 참값을 포함할 확률이 95%라는 뜻은 아니다... 오차범위(%)는 최대 +_100/루트 표본크기다.

댓글