1. 평균과 가깝다는 것은 데이터가 정상적이라는 것을 의미한다.
- Solution
- 오해: 데이터 세트의 평균이 특정 값에 가깝다는 것은 그 데이터가 '정상적'이라는 의미로 해석될 수 있습니다.
- 실제: 평균은 데이터 세트의 경향을 나타내지만, 이상치(outliers)나 극단적인 값들에 매우 민감합니다. 따라서, 평균만으로는 데이터의 분포 상태나 '정상성'을 전체적으로 이해하기 어렵습니다.
2. 평균은 데이터 셋을 대표한다.
- Solution
- 오해: 데이터의 평균값이 그 데이터 세트 전체를 잘 대표한다고 가정합니다.
- 실제: 평균은 모든 데이터 포인트를 고려하긴 하지만, 데이터가 균일하게 분포되어 있지 않은 경우(예: 극단적으로 높거나 낮은 값이 포함된 경우) 데이터의 실제 분포를 왜곡할 수 있습니다.
3. 평균을 사용하는 것은 적절하다.
- Solution
- 오해: 모든 유형의 데이터 분석에 평균 사용이 적절하다고 생각합니다.
- 실제: 데이터의 분포가 비대칭적이거나, 이상치가 포함된 경우 중앙값(median)이나 최빈값(mode)과 같은 다른 중심 경향의 척도가 더 적절할 수 있습니다.
4. 평균이 데이터의 변동성을 반영한다.
- Solution
- 오해: 평균값이 데이터 세트의 변동성이나 퍼짐 정도를 반영한다고 착각합니다.
- 실제: 평균은 데이터의 중심 경향을 나타내지만, 데이터의 변동성을 나타내지는 않습니다. 변동성을 파악하려면 표준편차나 분산 같은 다른 통계적 수치를 함께 고려해야 합니다.
양적자료 (Quantitative data)
숫자 형태로 표현되며, 양을 측정할 수 있는 데이터입니다. 수치형 자료(Numerical Data)라고도 불리며, 두 가지 주요 유형으로 나뉩니다.
- 연속형(Continuous): 어떤 범위 안에서 어떤 값이든 취할 수 있는 데이터 (예: 키, 몸무게, 온도)
- 이산형(Discrete): 특정 카운트가 가능한 값을 가지는 데이터 (예: 학생 수, 제품 결함 수)
양적자료는 수량화 가능하며, 통계적 분석을 통해 평균, 표준편차, 상관관계 등을 계산할 수 있습니다. 이를 통해 패턴을 식별하고 예측 모델을 만들 수 있습니다.
질적자료 (Qualitative data)
질적자료는 비수치적 정보를 나타내며, 관찰되거나 설명될 수 있는 데이터입니다. 즉, 숫자로 표현할 수 없는 데이터를 의미합니다. 범주형 자료(Categorical Data) 이라고도 합니다. 이는 주로 두 가지 유형으로 분류됩니다.
- 명목형(Nominal): 카테고리나 그룹을 나타내는 데이터 (예: 성별, 혈액형)
- 순서형(Ordinal): 순서나 등급을 나타내는 데이터, 순서는 있지만 간격이 균일하지 않음 (예: 만족도 조사, 교육 수준)
질적자료는 문자형태로 되어, 테마나 패턴을 식별하기 위해 텍스트 분석 기법을 사용합니다.
독립변수 (Independent Variable)
변수에 영향을 미치는 변수
- 독립변수는 실험이나 관찰에서 의도적으로 변화시키거나 선택하여 그 영향을 관찰하는 변수입니다.
- 통계에서 독립적이라는 말은 다른 변수에 영향을 받지 않는다는 뜻입니다. 따라서 독립변수는 다른 변수에 영향을 받지 않습니다. 오히려 종속 변수에 영향을 주는 변수 입니다.
- 이 변수는 알고자 하는 결과에 영향을 줍니다. 다시 말해, 이 변수를 바꾸면 종속변수, 즉 내가 알고 싶어하는 결과가 어떻게 변하는지를 관찰할 수 있습니다.
종속변수 (Dependent Variable)
내가 알고자 하는 변수
- 실험 결과를 나타내는 변수입니다. 쉽게 말하자면, 내가 알고 싶어하는 결과를 나타냅니다.
- 종속변수가 독립변수에 의해 영향을 받는다고, 즉 종속되어있다고 해석하기 때문에 이러한 이름이 붙여졌습니다.
- 종속적인 성격을 가지고 있어, 독립변수의 변화에 따라 그 값이 달라집니다. 즉, 독립변수의 영향을 받아 변화하는 변수입니다.
데이터의 분류 이해하기
- 사람의 키: 양적 자료, 연속형
- 음식의 맛 (좋음, 나쁨): 질적 자료, 순서형
- 자동차의 색상: 질적 자료, 명목형
- 온라인 게임 사용자의 일일 활동 시간: 양적 자료, 연속형
- 책의 장르: 질적 자료, 명목형
- 영화 평점 (1점부터 5점까지): 양적 자료, 순서형
- 학생들의 수학 시험 점수: 양적 자료, 연속형 또는 이산형 (점수가 정수로 제한된 경우 이산형으로 볼 수 있음)
- 세션 체류 시간 : 양적 자료, 연속형
광고 집행 케이스에서 독립변수
- 광고 캠페인 유형 (예: 소셜 미디어 광고, TV 광고, 온라인 배너 광고)
광고 집행 케이스에서 종속변수
- 제품 판매량
수면 시간이 시험 점수에 미치는 영향 분석
- 독립 변수: 시험 전 수면 시간
- 종속 변수: 시험 점수
패스트푸드가 혈압에 미치는 영향 분석종속 변수: 혈압
- 독립 변수: 패스트푸드 섭취량
- 카페인이 수면에 미치는 영향 분석
- 독립 변수 : 카페인 섭취량
- 종속 변수 : 수면
온라인 학습 플랫폼 사용 시간이 시험 성적에 미치는 영향 분석
- 독립변수: 온라인 학습 플랫폼 사용 시간
- 종속변수: 시험 성적
기술통계
- 데이터가 어떤지를 그대로 보여줍니다.
- 이 데이터 집합에서 무엇이 관찰되었나요?
추론통계
- 관찰된 데이터를 바탕으로 더 넓은 세계에 대한 추측을 합니다.
- 이 샘플 데이터를 통해 우리가 더 큰 집단에 대해 무엇을 말할 수 있나요?
척도
관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
[명목척도 < 서열척도 < 등간척도 < 비율척도]
출처 : 쉽게 보는 척도의 4유형 - 명목척도, 서열척도, 등간척도, 비율척도 | 잡학서고 (gklibrarykor.com)
1. 명목척도
남자(1), 여자(2)처럼 이름이나 명칭이 들어갈 자리에 숫자를 부여한 것으로, 여기서 숫자는 단순히 속성이 다르다는 것을 나타낼 뿐 별다른 정보를 갖지 않는다.
- 비교방법 : 확인, 분류
- 연산 : =
- 통계 : 최빈치
- 적용가능 통계방법 : 비모수통계, 빈도분석, 교차분석
2. 서열척도
대상을 구분해주는 명목척도의 특성을 가지면서, 이와 함께 대상의 순위관계에 대한 정보를 담고 있는 척도이다. 다만, 순위 관계를 나타낼 수는 있지만 그 차이가 동일하다고는 볼 수 없다.
- 비교방법 : 순위비교
- 연산 : =, <, >
- 통계 : 최빈치, 중앙치
- 적용가능 통계방법 : 비모수통계, 서열 상관관계
3. 등간척도
앞에서 언급한 명목척도와 서열척도에 대한 정보를 가지면서 속성의 차이가 동일하다는 간격(등간) 정보를 포함하는 척도이다. 이 때문에 다른 말로 ‘간격척도’로 불리기도 한다.
- 비교방법 : 간격비교
- 연산 : +, -, =, <, >
- 통계 : 최빈치, 중앙치, 산술평균
- 적용가능 통계방법 : 모수통계
4. 비율척도
앞의 명목, 서열, 등간척도에 대한 정보를 포함하면서 비율에 관한 정보까지 담고 있는 척도이다. 비율척도의 가장 큰 특징은 절대 ‘0’의 값(절대영점)을 가지고 사칙연산(+, -, ×, ÷)이 가능하다는 것이다.
- 비교방법 : 절대크기 비교
- 연산 : +, -, ×, ÷, <, >
- 통계 : 최빈치, 중앙치, 기하평균, 조화평균 등
- 적용가능 통계방법 : 모수통계
산포도
데이터가 얼마나 그리고 어떻게 퍼져있나를 나타내는 통계학 용어
IQR
- 사분위수 범위
- 데이터 집합의 중간 50%에 해당하는 값들의 산포도를 측정하는 통계적 척도
IQR의 계산 방법
- 데이터 셋을 크기 순으로 정렬합니다.
- 중간값(2사분위수)을 찾아 데이터를 하위 그룹과 상위 그룹 두 부분으로 나눕니다.
- 하위 그룹(하위 50% 데이터)의 중간값을 찾아 1사분위수(Q1, 25%)를 결정합니다.
- 상위 그룹(상위 50% 데이터)의 중간값을 찾아 3사분위수(Q3, 75%)를 결정합니다.
- IQR은 3사분위수(Q3)에서 1사분위수(Q1)를 뺀 값으로 계산합니다.
왜도(Skewness)
왜도는 데이터가 얼마나 비대칭적으로 분포하는지를 나타내는 척도입니다. 왜도 값에 따라 데이터 분포의 비대칭 정도를 파악할 수 있습니다.
- 양의 왜도(Positive Skew): 분포의 오른쪽 꼬리(right tail)가 더 길다는 것을 의미합니다. 즉, 데이터의 중심값(평균, 중앙값)보다 더 큰 값들이 더 멀리 퍼져 있습니다.
- 음의 왜도(Negative Skew): 분포의 왼쪽 꼬리(left tail)가 더 길다는 것을 의미합니다. 이는 데이터의 중심값보다 더 작은 값들이 더 멀리 퍼져 있음을 나타냅니다.
- 왜도가 0에 가까울 경우: 분포가 대칭적이라는 것을 나타냅니다.
- 값이 0에 가까우면 대칭, 양수이면 오른쪽으로 치우친(긍정적 왜도), 음수이면 왼쪽으로 치우친(부정적 왜도) 분포를 나타냅니다.
첨도(Kurtosis)
첨도는 분포의 뾰족함과 꼬리 부분의 두께를 측정하는 척도입니다. 첨도가 높은 분포는 뾰족하고 꼬리가 두꺼운 반면, 낮은 첨도를 가진 분포는 더 납작하고 꼬리가 얇습니다.
- 정규 첨도 (Mesokurtic): 첨도가 0에 가까운 정규분포와 유사한 분포입니다.
- 뾰족한 첨도 (Leptokurtic): 첨도가 0보다 크며, 정규분포보다 뾰족하고 꼬리가 두꺼운 분포입니다. 이는 극단값이 더 자주 발생함을 의미합니다.
- 납작한 첨도 (Platykurtic): 첨도가 0보다 작으며, 정규분포보다 더 납작하고 꼬리가 얇은 분포입니다. 이는 극단값이 덜 자주 발생함을 의미합니다.
(1) 중앙값의 적용
상황
당신은 부동산 회사에서 일하며, 최근 판매된 주택의 가격 중앙값을 계산해야 합니다. 주택 가격은 다음과 같습니다.
[$300,000, $350,000, $400,000, $450,000, $500,000, $550,000, $600,000, $5,000,000]
이 데이터에 대해 중앙값을 사용하는 이유는 무엇인가요? 평균과 비교했을 때의 장점은 무엇인가요?
- solution
- 중앙값은 극단적인 값(예: $5,000,000)의 영향을 덜 받기 때문에 이 경우 더 적절한 대표값입니다. 평균을 사용하면 극단값에 의해 왜곡될 수 있습니다.
(2) 최빈값의 활용
상황
한 온라인 교육 플랫폼에서 가장 인기 있는 강의 주제를 찾고자 합니다. 다음은 지난 달 가장 많이 수강된 강의 주제입니다.
[Python, Java, Python, C++, Python, Java, C++, Python, Data Science, Data Science, Python]
이 데이터에서 최빈값을 찾고, 왜 중요한지 설명하세요.
- solution
- 자료의 유형은 범주형입니다.
- 최빈값은 범주형 데이터에서 가장 대중적인 항목을 식별하는 데 유용합니다.
- 최빈값은 Python이며, 이는 플랫폼에서 가장 인기 있는 강의 주제를 나타냅니다.
(3) 범위와 사분위수 범위
상황
한 연구자가 다섯 개의 다른 학교에서 수학 시험 점수를 수집했습니다. 각 학교의 점수 분포가 상이합니다. 한 학교의 점수는 [55, 60, 65, 70, 75, 80, 85, 90, 95]입니다.
이 학교의 점수 범위와 사분위수 범위(IQR)를 계산하세요. 이 두 측정치가 데이터의 산포도를 이해하는 데 어떻게 도움이 되나요?
- solution
- 범위는 40(95-55), 사분위수 범위(IQR)는 20(85-65)입니다. 범위는 전체 데이터의 산포도를, IQR은 중간 50%의 데이터 산포도를 나타내며, 극단값의 영향을 덜 받는 측정치입니다.
(4) 분산과 표준편차의 이해
상황
두 그룹의 학생들 사이에서 수학 시험 점수의 일관성을 비교하고자 합니다. 첫 번째 그룹의 점수는 [70, 75, 80, 85, 90], 두 번째 그룹의 점수는 [70, 80, 80, 80, 90]입니다.
각 그룹의 분산과 표준편차를 계산하고, 어느 그룹이 더 일관된 성적을 보였는지 설명하세요.
- solution반면, 두 번째 그룹은 점수가 더 집중되어 있으므로 일관성이 더 높습니다. 따라서 두 번째 그룹이 더 일관된 성적을 보였다고 할 수 있습니다.
- 첫 번째 그룹의 분산과 표준편차는 더 크므로, 점수가 더 넓게 퍼져 있습니다.
(5) 왜도와 첨도의 적용
상황
고객의 온라인 쇼핑 패턴을 분석하고 있습니다. 고객이 한 세션 동안 클릭하는 페이지 수의 분포가 다음과 같습니다: 평균이 8, 표준편차가 2입니다. 대부분의 고객은 5~11 페이지 사이를 클릭하지만, 소수의 고객이 20페이지 이상을 클릭합니다.
이 데이터의 왜도와 첨도를 논리적으로 추정하고, 이러한 추정치가 분석에 어떤 통찰을 제공할 수 있는지 설명하세요.
- solution
- 데이터에 소수의 고객이 매우 높은 페이지 클릭 수를 보이므로, 데이터는 오른쪽으로 긴 꼬리를 가진 양의 왜도를 가질 것입니다.
- 또한, 대부분의 데이터가 중앙에 집중되어 있고 극단값에 소수의 관측치가 있는 분포 형태이므로, 첨도가 높을 것으로 추정됩니다.
- 이는 사용자 행동에 있어 소수의 이용자들이 매우 활발하게 활동하고 있음을 나타냅니다.
정규분포 (Normal Distribution)
- 정규분포는 종 모양의 대칭적인 확률 분포
- 평균값(μ) 주위에 데이터가 집중되어 있으며, 평균으로부터 멀어질수록 데이터의 빈도가 감소합니다.
- 많은 자연현상과 사회과학적 데이터가 정규분포를 따르며, 통계적 추론과 가설 검정에서 기본적으로 가정되는 분포
- 대칭성: 평균값을 중심으로 좌우가 대칭적인 형태를 가집니다.
- 평균, 중앙값, 최빈값 일치: 정규분포에서는 이 세 값이 모두 같습니다.
- 표준편차(σ): 평균에서 데이터가 얼마나 퍼져 있는지를 나타내며, 표준편차가 클수록 데이터는 평균으로부터 더 멀리 퍼져 있습니다.
- 데이터의 약 68%는 평균 ± 1표준편차
- 데이터의 약 95%는 평균 ± 2표준편차
- 데이터의 약 99.7%는 평균 ± 3표준편차 범위 내에 있습니다.
중심극한정리 (Central Limit Theorem, CLT)
- 동일한 모집단에서 무작위로 추출된 충분히 큰 표본의 평균은 모집단의 평균을 중심으로 정규분포를 이루게 된다는 이론입니다.
- 쉽게 말해, 많은 숫자들을 더하거나 평균을 내면, 그 결과는 종 모양의 정규분포와 비슷하게 됩니다. 이는 우리가 무작위로 뽑은 샘플들의 평균을 사용하여 전체 모집단에 대해 추론할 수 있게 해줍니다.
- 표본 평균을 사용하여 모집단에 대한 추론을 가능하게 합니다. 예를 들어, 모집단 분포가 정규분포가 아니더라도, 큰 표본의 평균은 정규분포를 따르게 되므로, 정규분포에 기반한 통계적 추론이 가능해집니다.
- 이외에도 t-분포 (t-Distribution), 카이제곱 분포 (Chi-Squared Distribution), F-분포 (F-Distribution) 등이 추론통계에서 사용됩니다.
추론통계의 프로세스
(1) 가설 설정 (Hypothesis)
연구의 시작점으로, 검증하고자 하는 주장이나 추측입니다. 연구 목적에 따라 귀무 가설(H0)과 대립 가설(H1)을 설정합니다.
- 귀무 가설 (Null Hypothesis): 연구자가 검증하고자 하는 가설과 반대되는, 효과가 없거나 차이가 없다는 가설입니다. 예를 들어, 두 집단 간의 평균에 차이가 없다는 가설이 될 수 있습니다.
- 대립 가설 (Alternative Hypothesis): 연구자가 증명하고자 하는 가설로, 귀무 가설과 대비되는 가설입니다. 예를 들어, 두 집단 간의 평균에 차이가 있다는 가설입니다.
(2) 데이터 수집
연구 가설을 검증하기 위해 필요한 데이터를 수집하는 단계입니다. 이는 실험, 설문 조사, 관찰 등 다양한 방법을 통해 이루어질 수 있습니다. 때로는 이미 존재하는 데이터 세트를 사용하기도 합니다. 중요한 것은 데이터가 연구 가설과 관련이 있고, 적절한 품질을 갖추고 있어야 한다는 점입니다.
(3) 가설 검정 (Hypothesis Test)
수집된 데이터를 분석하여 귀무 가설의 기각 여부를 결정하는 과정입니다. 이 과정에서는 통계적 검정 방법을 사용하여 데이터가 귀무 가설을 지지하는지, 아니면 대립 가설을 지지하는지를 평가합니다.
- 가설 설정: 연구 목적에 따라 귀무 가설(H0)과 대립 가설(H1)을 설정합니다.
- 적절한 검정 방법 선택: 검정하고자 하는 대상(평균, 분산 등)과 데이터의 특성(표본 크기, 분포의 형태 등)에 따라 적절한 통계적 검정 방법을 선택합니다.
- 유의수준 설정: 검정에 사용될 유의수준(α)을 설정합니다. 일반적으로 0.05(5%) 또는 0.01(1%)을 사용합니다.
- 검정통계량 계산 및 결론 도출: 선택한 검정 방법에 따라 검정통계량을 계산하고, 이를 기반으로 귀무 가설의 기각 여부를 결정합니다.
[1] 가설 설정
(1) 귀무가설 (Null Hypothesis)
Null Hypothesis는 귀무가설
귀무가설이란 관습적이고 보수적인 주장, 차이가 없다, 0이다 등의 연구자가 타파하고자 하는 주장
- 귀무가설은 기본적으로 '변화가 없다', '효과가 없다', '차이가 없다'는 가정을 의미합니다.
- Null Hypothesis의 Null은 아무것도 아닌것의 Null을 의미한다기보다는 Default의 의미이고, 그러니까 귀무가설은 없는 것으로 돌아간다는 의미보다는 Default로 돌아간다는 의미를 지녔다고 볼 수 있습니다.
(2) 대립가설 (Alternative Hypothesis)
Alternative Hypothesis는 대립가설 우리가 적극적으로 입증하려는 주장, 차이가 있음을 통계적 근거를 통해 입증하고자 하는 주장
- 대립가설은 귀무가설에 대립되는 가설로, 우리가 실제로 증명하고자 하는 주장입니다.
- 귀무가설이 틀렸을 때, 대안적으로 채택되는 가설이기에 Alternative Hypothesis라고 합니다.
ex. 새로운 교육 프로그램이 학생들의 성적에 긍정적인 영향을 미친다고 주장하려고 합니다.
- 귀무가설(H0): 새로운 교육 프로그램은 학생들의 성적에 영향을 주지 않는다. (평균 성적 차이가 없다)
- 대립가설(H1): 새로운 교육 프로그램은 학생들의 성적을 향상시킨다. (평균 성적 차이가 있다)
- 가설 검정 과정에서는 먼저 귀무가설이 참이라고 가정하고, 수집된 데이터를 분석하여 귀무가설을 지지하는지, 아니면 대립가설을 지지하는지를 확인합니다.
- 만약 충분한 증거를 통 귀무가설을 기각할 수 있다면, 대립가설을 채택하게 됩니다.
[2] 가설 조건 설정
(1) 유의수준(Significance Level)
- 유의수준(α)은 연구자가 귀무가설을 잘못 기각할 위험을 얼마나 감수할지 결정하는 기준
- 이는 '오류를 범할 최대 허용 확률'로 설명할 수 있습니다. 검정에 앞서, 이 수준에 대해 먼저 설정합니다.
- 유의수준은 보통 0.05(5%), 0.01(1%) 등으로 설정됩니다.
- 5% 유의수준에서 귀무가설을 기각한다면, 100번의 실험 중 5번은 잘못된 결정을 내릴 수 있다는 것을 의미합니다.
(2) 기각역 (Rejection Region)
- 기각역(Rejection Region) 또는 임계영역(Critical Region)은 통계적 가설 검정에서 사용되는 개념
- 귀무가설을 기각하는 결정을 내리는 검정통계량의 값의 범위를 말합니다.
- 검정통계량이 기각역 내에 있다면, 이는 귀무가설이 매우 낮은 확률로 참일 수 있다는 것을 의미하며, 따라서 귀무가설을 기각하고 대립가설을 채택합니다.
- 기각역은 특정 가설 검정에서 설정된 유의수준(α)에 의해 결정됩니다.
- 예를 들어, 유의수준이 5%인 경우, 기각역은 검정통계량의 분포에서 꼬리 부분에 해당하는 상위 5% 영역에 해당합니다.
[3] 가설 검정
(1) 검정통계량 (Test Statistic)
- 모집단 전체를 추론하기 위해서 표본을 뽑아서 표본통계량으로 계산하는데, 이 표본통계량을 가설검정에서는 검정통계량이라고 부릅니다.
- 검정통계량은 우리가 관심 있는 가설이 얼마나 타당한지를 수치로 보여주는 지표입니다. 이 값은 우리가 수집한 데이터와 귀무가설 사이의 차이를 기반으로 계산됩니다.
(2) p-value
- p-value는, 주어진 가설에 대해서 "얼마나 근거가 있는지"에 대한 값을 계산한 0과 1사이의 값
- p-value는 귀무가설이 참이라고 가정했을 때, 관측된 결과 또는 더 극단적인 결과가 나타날 확률
- 즉, 우리의 데이터가 귀무가설을 얼마나 지지하는지를 나타내는 지표로, 통계적 유의성의 정도를 평가하는 데 사용됩니다.
만약 p-value가 유의수준보다 작다면, 우리는 귀무가설을 기각하고 대립가설을 채택합니다. 즉, 우리의 데이터가 우연히 발생한 것이 아니라는 강력한 증거를 가지고 있다고 판단하는 것입니다.p-value이 작을수록, 우리가 관찰한 결과가 귀무가설과 더 불일치한다는 것을 의미합니다.
일반적으로 p-value이 0.05(5%) 미만이면, 결과가 통계적으로 유의미하다고 간주하고 귀무가설을 기각합니다.
[1] 가설 이해하기
귀무가설과 대립가설의 정의는 무엇인가요?
- Solution
- 귀무가설(H0): 연구에서 검증하고자 하는 특정 효과나 차이가 없다는 가설입니다. 기본적으로 차이의 부재를 주장하며, 검증 과정을 통해 이를 기각하려고 시도합니다.
- 대립가설(H1): 연구에서 증명하고자 하는 특정 효과나 차이가 있다는 가설입니다. 대립가설은 귀무가설에 반대되는 주장을 내세우며, 연구의 목표는 대부분 이 가설을 증명하는 데 있습니다.
학습 관련하여 새로운 기능을 신설했다고 합니다. 기능에 대한 효과성에 대한 통계적 검증을 하고 싶다고 할 때, 귀무가설과 대립가설을 설정해보세요.
- Solution
- 귀무가설: 새로운 학습 앱은 학습 시간에 영향을 주지 않는다.
- 대립가설: 새로운 학습 앱은 학습 시간을 증가시킨다.
[2] 유의수준 설정하기
유의수준(α)이 무엇인가요?
- solution
- 유의수준(α)은 연구에서 귀무가설을 잘못 기각할 위험을 감수할 확률입니다. 이는 연구자가 용인할 수 있는 최대 오류 확률을 나타내며, 통계적 유의성을 판단하는 기준으로 사용됩니다.
유의수준을 5%로 설정했을 때, 이것이 의미하는 바를 예시를 통해 설명해보세요.
- solution
- 유의수준을 5%로 설정한다는 것은, 100번의 실험 중 최대 5번은 우연히 귀무가설을 잘못 기각할 수 있다는 것을 의미합니다. 즉, 실제로는 효과나 차이가 없음에도 불구하고, 우연히 효과나 차이가 있다고 결론 내릴 위험을 5%까지는 받아들이겠다는 것입니다.
[3] p-value 이해하기
p-value의 정의를 설명하세요.
- solution
- p-value는 데이터가 귀무가설을 얼마나 지지하는지를 나타내는 지표로 사용됩니다.
p-value가 유의수준보다 낮을 때와 높을 때, 각각의 의미에 대해 설명해보세요.
- solution
- p-value가 유의수준보다 낮을 때: 이는 귀무가설이 참일 확률이 매우 낮다는 것을 의미하며, 연구 결과가 통계적으로 유의미하다고 간주합니다. 이 경우, 귀무가설을 기각하고 대립가설을 채택할 근거가 충분하다고 볼 수 있습니다.
- p-value가 유의수준보다 높을 때: 이는 귀무가설을 기각할 충분한 증거가 없다는 것을 의미하며, 연구 결과가 통계적으로 유의미하지 않다고 판단합니다. 따라서 귀무가설을 기각하지 않고 유지합니다.
추정
모집단에 대한 정보가 없을 때, 모집단을 대표할 수 있는 일부를 표본으로 추출하여 표본의 성격을 나타내는 통계량을 이용해서 모집단의 모수를 추론하는 방법
- 점추정(Point Estimation)
- 추정하고자 하는 모수를 하나의 수치로 추정합니다.
- 모집단의 특성을 하나의 값으로 간단히 요약하는 것입니다.
- 구간추정(Interval Estimation)
- 추정하고자 하는 모수가 존재하리라 예상하는 구간을 정하여 추정합니다.
- 즉, 구간 추정은 모집단 매개변수를 포함할 것으로 예상되는 값의 범위를 제공합니다.
점 추정 vs. 구간 추정
점 추정은 추정의 불확실성이나 오차의 가능성을 제공하지 않습니다. 이때문에 추정치가 실제 모집단 매개변수와 얼마나 가까운지에 대한 정보는 없습니다. 이 때문에 일반적으로 실제 응용에서는 구간 추정이 많이 사용됩니다.
점추정은 얼마나 정확한지 알 수가 없기 때문입니다. 즉 조사자의 입장에서 오차를 줄이기 위해 명확한 수치를 제시하는 점추정 대신, 신뢰도를 제시하며 상한값과 하한값으로 모수를 추정하는 구간추정이 더 용이합니다.
추정치(estimate)
- 추정치는 표본의 자료로 구한 추정량의 구체적 수치 값을 뜻합니다.
- 모수를 추정하기 위해 선택된 표본을 대상으로 구체적으로 도출된 통계량
추정량(estimator)
- 추정량은 추정치를 구하기 위해 사용되는 추정 방법 또는 도구입니다.
- 표본에서 관찰된 값으로 추정치를 계산하기 위한 도출한 함수
추정량의 조건
1) 불편성 (unbiasedness)
2) 효율성 (efficiency)
3) 일치성 (consistency)
양측검정(Two-sided test)
조사자하고자 하는 대립가설, 즉 '사실이 아니다'라는 것을 검정하여 귀무가설을 기각하고 대립가설을 채탁하고자 하는 것입니다.
단측검정(One-side test)
조사자의 목적에 따라, 대립가설을 많거나, 적다의 한 쪽만 살펴보는 것. 어느 수준을 넘어가면 귀무가설(Null hypothesis)을 기각하고, 대립가설을 채택합니다. 즉, 다르다라는 의미를 내포합니다.
[추정방법]
1) 샘플이 모집단에서 무작위로 추출 되었다고 가정
2) 모수를 추정
3) 추정식을 이용하는 방법
구간 추정(Interval Estimation)
구간추정의 정의
미리 정해진 확신(신뢰 수준)으로,모수(참값)가 포함되리라고 여겨지는, 신뢰 구간을 추정하는, 통계적 추정 방법 (Confidence Interval Estimation)
- 어떤 모수(예를 들어, 모집단의 평균이나 비율 등의 실제 값)에 대해 우리가 얼마나 확신을 가지고 있는지를 수치로 나타낼 수 있습니다.
- 구간 추정을 통해, 우리는 특정 신뢰 수준 하에서 모수가 포함될 것으로 기대되는 값의 범위, 즉 신뢰 구간을 추정할 수 있습니다.
신뢰 수준 (Confidence Level)
- 신뢰 수준은 구간 추정에서 중요한 개념
- 이는 우리가 선택한 확률 값으로, 주로 90%, 95%, 99% 등으로 설정합니다.
- 신뢰 수준이 95%라는 것은, 동일한 방법으로 여러 번 구간 추정을 수행했을 때, 추정한 신뢰 구간 중 약 95%가 실제 모수를 포함할 것으로 기대한다는 의미
신뢰 구간 (Confidence Interval)
- 신뢰수준이란 우리가 얼마나 자신있게 조사 결과를 믿을 수 있는지를 나타내는 지표
- ex. 같은 조사를 100번 반복했을 때, 몇 번이나 비슷한 결과가 나올까요? 신뢰수준이 80%라면, 100번 중 80번은 같은 결과를 얻을 것으로 기대할 수 있습니다.
예시 : 인터랙티브 학습 모듈
학생이 학습 과정에 참여하는 능동적인 학습 기법
(1) 어떠한 통계적 추정이 필요할까요? 그 이유는 무엇일까요?
- solution
- 구간추정
(2) 귀무 가설과 대립가설을 설정해보세요.
- solution
- 귀무가설(H0): 인터랙티브 학습 모듈의 도입은 학습자의 학습 성과(학습 효율도)에 영향을 주지 않는다.
- 대립가설(H1): 인터랙티브 학습 모듈의 도입은 학습자의 학습 성과(학습 효율도)를 향상시킨다.
(3) 해당 가설은 어떠한 검정 종류인가요?
- solution
- 단측검정 : 학습 성과를 n(사용한 사용수의 평균)이라고 가정한다면, 크다/작다의 기준점을 둔다.
(4) 어떠한 데이터를 수집하면 될까요?
- solution
- 고객 잔존율, WAU, 이탈률 등..
(5) 가상의 p-value를 설정하고, 설정한 p-value와 유의수준 0.05를 비교하여 가설을 기각할지, 채택할지 결정하세요.
- solution
- ex. p-value = 0.04
- 가설을 기각한다. 하지만 유의수준보다 낮지만, 매우 근접하기 때문에 기능에 대한 업데이트를 고려할 것이다.
'천재교육' 카테고리의 다른 글
에듀테크 PM 프로덕트 매니저(11) (0) | 2024.03.12 |
---|---|
에듀테크 PM 프로덕트 매니저(10) (0) | 2024.02.23 |
에듀테크 PM 프로덕트 매니저(8) (0) | 2024.02.21 |
에듀테크 PM 프로덕트 매니저(7) (0) | 2024.01.29 |
에듀테크 PM 프로덕트 매니저(6) (1) | 2024.01.25 |