통계 개념정리
확률변수에서 정규분포·신뢰구간까지 · '표준화'라는 다리 하나로 통일.
확률변수 · '값에 확률을 붙인다'는 발상
통계의 모든 출발점은 확률변수예요. 주사위 결과는 눈금이지만, 우리가 궁금한 건 '그 눈금에 얼마의 확률이 붙어 있나'죠.
한줄핵심: 확률변수는 '어떤 값이 얼마의 확률로 나오는가'를 적어둔 표예요.
값이 띄엄띄엄이면 이산확률변수, 연속이면 연속확률변수예요.
- 이산: 각 값마다 확률 ,
- 연속: 확률밀도함수 ,
핵심 직관은 확률의 총합은 항상 1이에요. 이산이면 막대 높이를 다 더해 1, 연속이면 그래프 아래 전체 넓이가 1. 이 '총넓이=1' 감각이 정규분포에서 그대로 살아나요.
동전 2개를 던져 앞면 수를 라 하면, 는 값을 갖고 확률은 . 더하면 1이죠. 이게 확률분포고, 앞으로는 '이 표를 가지고 평균과 흩어짐을 따지는 일'이에요.
기댓값과 분산 · 중심과 흩어짐, 그리고 변환 공식
확률변수를 표로 적었으면, 두 숫자로 요약해요. 중심(기댓값)과 퍼짐(분산)이에요.
기댓값은 값에 확률을 곱해 더한 거예요. 그냥 평균인데 각 값에 확률만큼 가중치를 준 거죠.
분산은 평균에서 얼마나 떨어졌나를 제곱해 평균낸 값이에요.
오른쪽 형태가 계산용 무기예요. 편차를 일일이 구하지 말고 로 한 방에 끝나니까요.
한줄핵심:
일차변환 공식도 중요해요. 일 때
왜 분산엔 가 없을까요? 는 전체를 옮기기만 하니 퍼짐은 그대로고, 배 늘리면 간격도 배라 분산은 배가 되거든요.
이항분포 · 같은 시행을 n번 반복하면 생기는 분포
독립시행을 같은 조건으로 번 반복해요. 매번 성공확률은 로 일정하고, 성공 횟수를 라 하면 가 따르는 게 이항분포 예요.
외우지 말고 구조로 봐요. 번 성공·번 실패하는 한 가지 경우가 이고, 그 자리 배치가 가지라 곱한 거예요.
핵심은 평균과 분산이 공식으로 딱 떨어진다는 점이에요.
한 번 시행에서 성공 수의 기댓값이 이니, 번 모으면 평균은 . 분산은 한 번짜리 를 개 독립으로 더해 가 되는 거예요.
정규분포 · 자연이 가장 좋아하는 종 모양
평균 근처가 가장 빽빽하고 양옆으로 갈수록 줄어드는 좌우대칭 종 모양. 키·몸무게·측정오차 같은 수많은 현상이 이 모양을 따라요. 이게 정규분포 고, 평균 과 표준편차 단 두 숫자로 결정돼요.
- 은 종의 중심 위치
- 는 종의 폭
- 곡선 아래 넓이는 항상 1
한줄핵심: 정규분포는 평균 , 표준편차 두 개로 끝나는 종이에요.
시험에서 자주 쓰는 구간 법칙이에요.
- 안에 약
- 안에 약
- 안에 약
문제는 평균과 표준편차가 제각각이라 그때그때 넓이를 새로 구할 수 없다는 거예요. 그래서 모든 정규분포를 하나의 표준 자로 바꾸는 표준화 작업이 필요해요.
표준화 · 모든 정규분포를 하나의 자로 통일하기
정규분포가 많아도, 자를 통일하면 표는 한 장이면 돼요. 일 때 로 바꾸면 , 즉 표준정규분포가 돼요.
왜 이 식일까요? 으로 중심을 0으로 옮기고, 로 나눠 폭을 1로 맞춘 거죠.
한줄핵심: · '평균에서 몇 만큼 떨어졌나'를 재는 거예요.
계산 절차는 항상 같아요.
- 구하려는 범위의 양 끝을 값으로 변환
- 표에서 값을 읽기
- 대칭성과 덧뺄셈으로 원하는 넓이 조립
예: 에서 ? 이니 .
표본평균의 분포 · 표본을 평균내면 왜 더 안정될까
현실에선 모집단 전체를 조사할 수 없어서 표본을 뽑아요. 표본평균 도 표본을 새로 뽑을 때마다 달라지니 이것도 확률변수예요.
모평균 , 모표준편차 인 모집단에서 크기 표본을 뽑으면
두 가지를 꼭 느껴야 해요.
- 중심은 그대로 . 평균은 치우치지 않아요.
- 흩어짐은 배로 줄어든다. 이 커질수록 가 근처로 모여요.
한줄핵심: 표본평균은 중심이 그대로, 흩어짐만 로 줄어요.
모집단이 정규분포면 도 정확히 정규분포를 따르고, 이 충분히 크면 어떤 모집단이든 정규분포에 가까워져요(중심극한정리). 분모가 인 것만 놓치지 않으면 돼요.
모평균의 신뢰구간 · 표본 하나로 모평균을 '구간'으로 잡기
모평균 을 모르는 상태에서, 뽑은 표본평균 하나로 '은 대략 이 사이에 있다'를 말하는 게 추정이에요. 점 하나로는 거의 빗나가니까, 여유를 둔 구간으로 잡는 거예요.
가 근처 오차 안에 들어올 확률을 설정하면, 그 관계를 뒤집어 의 범위를 말할 수 있어요. 신뢰도 를 잡으면
신뢰도에 따라 값이 정해져요.
- →
- →
구간의 길이는 이에요. 신뢰도를 높이면 가 커져 구간이 넓어지고, 을 키우면 구간이 좁아져요. 길이를 절반으로 줄이려면 을 4배로 해야 해요.
한줄핵심: 신뢰구간 =
한눈 요약 · 한 줄기로 꿰는 통계
통계는 흩어진 공식이 아니라 하나의 줄기예요.
- 확률변수: 총합(넓이)은 항상 1
- 기댓값·분산: ,
- 이항분포: ,
- 정규분포: 평균 ·표준편차 로 결정
- 표준화 : 모든 정규분포를 표 한 장으로 통일
- 표본평균: , , 표준화는 분모가
- 신뢰구간:
한줄핵심: 모든 길은 **표준화 **로 통해요. 분모가 냐 냐만 구분하면 끝이에요.
풀이 꿀팁
🎯 출제 포인트 · 신뢰구간은 '구해라'보다 '비교·조정해라'
신뢰구간 단원은 단순 계산보다 **'길이 비교/표본 수 조정'**이 메인이에요. 구간 길이 만 손에 쥐면 거의 다 풀려요.
- 신뢰도 : 가 로 커져 길이 배
- 같은 신뢰도에서 길이를 로 줄이려면 이 2배 → 은 4배, 로 줄이려면 은 9배
- '오차한계 를 만족하는 최소 ' 부등식 세워 로 푸는 문제가 단골이에요. 나온 은 자연수로 올림 처리하는 것까지 챙기세요.
⚡ 빠른 풀이 · 표준화는 '변환·표·조립' 기계처럼
정규분포 확률은 고민하지 말고 손이 먼저 움직여야 해요.
- 양 끝 (표본평균이면 분모는 !)
- 표에서 읽기
- 대칭+덧뺄셈으로 조립 · , , 는 두 표값을 빼거나 더해서(부호 다르면 더하기) 만들기
종 그림 한 번 그리고 '필요한 넓이 = 0.5 ± 표값들의 합/차'로 보면 부호 헷갈릴 일이 없어요. 표값 , , 는 자주 나오니 외워두면 빨라요.
⚠️ 여기서 다 틀려 · √n 빼먹기 & 분산·표준편차 혼동
표본평균 문제에서 가장 많이 깨지는 두 지점이에요.
- 표준화 분모: 를 표준화할 땐 로 나눠야 하는데 그냥 로 나누는 실수. 신뢰구간 오차항도 똑같이 !
- vs : 이고 표준편차는 . 표준화·신뢰구간엔 표준편차를 쓰니, 문제가 분산을 줬으면 먼저 씌우세요.
- 에서 살려두기 금지 · 분산은 평행이동에 안 변해요(). 에선 를 살리고요.
🧠 강의 꿀팁 · 1.96·2.58과 ±σ 넓이는 통째로 외워라
이건 유도보다 암기가 이득인 몇 안 되는 숫자들이에요.
- 신뢰도 : , , (각각 에서 나온 값)
- 법칙: 약 , 약 , 약
외우는 법: '95는 1.96(둘 다 9가 보임), 99는 2.58'. 그리고 좌우대칭이라 는 모든 계산의 출발 기준선이에요. 종 그림에 중앙선 부터 긋고 시작하세요.
🎯 출제 포인트 · 이항분포는 np·np(1-p)로 끝장내기
가 나오면 확률 공식 를 일일이 계산하기 전에, 묻는 게 평균/분산인지부터 봐요. 그러면 , 한 줄로 끝나요.
- 로 역이용하는 문제도 자주 나와요.
- 꼴로 변형해 , 를 묻는 결합형도 단골 · 변환 공식 바로 적용.
- 이 크면 '로 근사'가 출제 의도 · 평균·분산 구해 바로 정규분포 표준화로 넘어가세요.