결측값 대치 방법
- 단순 대치법 : 결측값이 존재하는 데이터를 삭제하는 방법
- 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 반드는 방법
- 조건부 : 실제 값들을 분석하여 회기분석을 활용
- 비조건부 : 데이터의 평균값으로 결측값을 대치
- 단순 확률 대치법
- K-Nearest Neighbor 방법 : 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법
- 대중 대치법 : 여러 번의 대치를 통해 n개의 임의 완전 자료를 만드는 방법 (대치, 분석, 결합 세 단계)
이상값 판단
- ESD (Extreme Strudentized Deviation) : 평균으로부터 ‘표준편차 3’만큼 떨어진 값들을 이상값으로 인식하는 방법
- 사분위수
- 25%에 해당하는 값(Q1)과 75%에 해당하는 값 (Q3)을 활용하여 이상치 판단
- 자세한 건 교재 참고 P.186
표본추출 발법
- 단순 랜덤 추출 방법 : N개의모집단에서 n개의 데이터 무작위 추출
- 계통 추출법 : 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터 추출
- 군집 추출법 : 데이터를 여러 군집(집락)으로 구분한 뒤, 단순 랜덤 추출법에 의해 선택된 군집의 데이터를 표본으로 사용
- (1-1, 2-1, 3-1), (1-2, 2-2, 3-2) …..
- 층화 추출법 : 군집 추출법과 비슷하지만 반대의 성격을 지님
- (1-1, 1-2, 1-3, …) (2-1, 2-2, 2-3, …) (3-1, 3-2, 3-3, …)
척도의 종류
- 질적 척도
- 명목척도 - 측정 대상이 어느 집단에 속하는지 나타내는 자료
- 순서(서열척도) - 측정 대상이 명목척도이면서 서열 관계를 갖는 자료
- 양적 척도
- 구간척도 (등간척도) - 측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료
- 비율척도 - 측정 대상이 구간척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료
연속확률분포
- 균일 분포 - 연속확률변수 X가 취할 수 있는 모든 값에 대해 같은 확률을 갖고 있는 분포
- 정규 분포 - 대표적인 연속 확률분포로 평균이 (μ), 표준편차가 (σ) 인 분포