본문 바로가기
개발자 일기/빅데이터의 개념이해와 분석역량강화

12. 통계의 개념 및 통계량

by ahnne_ 2021. 1. 21.
반응형

1. 통계의 개념 및 통계량

  1) 통계의 기초개념

  • 통계학 
    • 자연 및 사회현상에서 나타나는 다양한 상황이나 측정값들을 요약하여 표현하는 것
    • 요약(summary), 분포(distribution) 이해, 추세(trend)나 일정한 패턴(pattern), 방향성(direction), 스타일(style)이나 군집유형(cluster type) 등으로 요약하여 의사결정에 활용하는 학문
    • 기술통계(descriptive statistics) : 단지 관찰 혹은 측정된 데이터의 특성을 기술하는 것, 특정 집단의 데이터를 요약하고 정리하기 위함(그래프)
      • 예 : 한 회사의 직원 1000명을 대상으로 안경 사용 여부 조사
    • 추론통계(inferential statistics) : 데이터의 특성을 기초로 하여 모집단의 특성을 일반화하거나 예측하는데 활용, 기본적인 데이터를 근거로 해서 모집단의 특성을 예측하거나 미루어 짐작 (추정,가설검정,회귀분석, 상관분석)
      • 모집단 : 조사대상이 되는 모든 개체(사람 혹은 사물)들의 전체 집합
      • 예 : 대통령 선거 시 전국 2000명의 표본을 추출하여 조사한 지지도
  • 통계와 빅데이터의 관계
    • 장점 : 통계적인 분석 방법을 활용하여 빅데이터를 분석 및 활용한다면 이미 구축된 DB에 저장되어 있는 데이터의 특성 뿐만 아니라 새로 DB에 저장되는 데이터도 빠르게 분석할 수 있음
    • 기업경영이나 전략수립, 시장 개척, 신제품 개발, 광고컨셉트개발 등에 활용하여 합리적 의사결정을 할 수 있도록 지원하는 역할

  2) 모수와 통계량

  • 모수(parameter) : 모집단의 특성을 나타내는 수치자료 
    • 조사대상 집단 모두를 조사할 때 측정이 되는 수치
    • 현실에서는 비용이나 시간, 조사지역의 광범위성 등의 한계로 거의 불가능
  • 통계량(statistic) : 모수를 대체하기위해 표본조사를 실시하여 산출되는 수치
    • 표본집단을 특정하여 얻은 값, 평균(mean), 중앙값(median), 최빈값(mode), 분산(variance), 표준편차(standard deviation)등

  3) 통계분석 패키지의 종류

  • 일반 기술 및 추론통계 : SAS, SPSS, EXCEL, Matlab
  • 구조방정식(SEM) : LISREL, AMOS
  • 6시그마 통계 : Minitab
  • 메타분석 : MIX
  • 빅데이터 : R, R-studio, Tableau

2. 변수의 측정과 척도

  • 통계분석 : 연구의 목적에 따라 수집된 데이터들을 분석하여 정보나 결론을 얻는 일련의 과정
    • 데이터 분석 : 분석자가 관심을 가지고 있는 각 개체들의 특성
    • 측정 : 일반적으로 일정한 규칙에 따라 대상에 숫자를 할당하는 과정
    • 척도 : 측정대상이 갖는 특성을 측정하는 잣대

  1) 변수

  • 가변적인 요인이면서 동시에 여러 가지 값으로 변할 수 있는 수를 의미
  • 유형
    • X(독립변수) : 원이이되는 변수 혹은 영향을 미치는 변수
    • Y(종속변수) : 결과가 되는 변수 혹은 영향을 받는 변수
    • a : 상수 (오차항)로 종속변수 Y의 절편
    • b : 종속변수 Y에 대한 독립변수 X의 기울기
    • Y = a + bX
  • 양적변수(quantitative variable)
    • 이산형 변수(discrete variable) : 특정 구간에서 서로 떨어져 있는 자료로 정수의 값을 갖는 셀 수 있는 자료
      • 종업원의 수나 특정 제품의 불량품 개수
    • 연속형 변수(continuous variable) : 특정 구간에서 어떠한 값이라도 가질 수 있는 자료 
      • 물 탱크에 저장된 물의 양, 화물차의 적재량, 매출액, 영업이익, 원가, 키, 온도 등
      • 무한한 소수점으로 표현할 수 있는 자료
  • 그 외 변수의 종류
    • 통제변수, 매개변수 등 다양한 관점에서 구분

  2) 측정과 척도

  • 측정(measurement) : 특정하게 명시된 규정에 의해 수치나 혹은 다른 기호들을 통해 조사한 대상물의 특성을 기록하는 것
    • 측정변수에 특정한 값을 부여하는 것
  • 척도(scale) : 측정대상이 가지는 고유한 특성을 기록하는 것은 측정 대상물의 유형에 따라 적절하게 기록해야 하며, 이때 적절하게 기록하는 기준을 의미
    • 측정과정의 연장선상에 있는 개념으로 측정된 대상이 갖는 일직선상에서의 위치를 지정해주는 것

척도

기본특성

일상적인 활용사례

허용되는 통계량

기술통계

추론통계

명목

대상을 확인, 분류

주민등록번호, 운동선수 유니폼 번호 등

퍼센트 최빈값

카이스퀘어 이변량검증

서열

대상의 상대적 순서 위치

품질순위, 결승선 통과순위, 팀간의 순위 등

퍼센트 중앙값

순위서열상관 ANOVA

등간

비교대상들간 차이, 크기등

온도계의 온도 등

범위, 평균 분산과 표준편차

단순상관, t검증, ANOVA, 회귀분석, 요인분석

비율

절대영점이 존재하고 척도값 비율을 계산하여 이용

길이 무게등

기하학적 평균, 조하평균

분산의 계수

 

3. 평균, 분산 및 표준편차

  1) 평균 

  • 모집단이 지니고 있는 양적 구조의 특성치인 대표치를 나타내는 수치로 축정된 데이터(값)의 중앙으로의 집중화 경향을 파악하는 통계량
  • 측정된 대부분의 값들은 평균을 중심으로 주변에 흩어져 분포
  • 각 측정값들을 모두 합하여 측정치의 개수(n)로 나누면 얻을 수 있음

<평균 계산식>

  • 평균의 성질
    • 평균의 크기는 변수의 크기와 빈도 수에 의존한다
    • 평균 개개의 변수 값은 모르더라도 총계와 빈도 수만으로 평균을 계산할 수 있다.
    • 반대로 평균과 빈도 수만 알면 총계를 알 수 있다.
    • 평균은 변수들 중에서 극히 큰 값 혹은 작은 값에 의해 크게 영향을 받는다.

  2) 분산 

  • 분산은 데이터를 분석하고 해석하는데 있어 가장 빈번하게 사용되는 통계량으로 데이터가 평균을 중심으로 어느 정도 흩어져 있는가를 측정하는 값
  • n개의 측정된 값과 평균의 차이를 제곱해서 합한 값으로 구함
    • 분산의 크기가 클수록 자료의 흩어진 정도가 크다고 할 수 있으며, 측정에 따른 편차가 크다는 것을 의미
    • 분산이 작을수록 측정데이터의 측정신뢰성은 높다고 할 수 있음

<표준편차 계산식>

4. 통계적 가설 검증

  1) 가설검증

  • 모집단의 모수에 대한 가설을 설정하고 표본으로부터 조사한 결과에 따라 그 가설을 선택할 것인지를 통계적으로 결정하는 분석방법
  • 귀무가설 : 영가설 (Null Hypothesis), H₀
  • 대립가설 : 연구가설(Altemative Hypothesis) H₁
  • 귀무가설을 기각함으로써 대립가설을 채택하기 위해 의도로 실사함

  2) 가설검증 절차

  • 검증하고자 하는 연구목적 확인 =>
    귀무가설과 연구가설 설정 =>
    적합한 통계적 기법과 부합되는 검증 통계량 선택 =>
    유의수준(p-value) 알파(𝝰)값 결정 => 
    표본의 크기를 결정하고 데이터 수집한 후 검증통계에 활용할 임계값 계산 =>
    귀무가설 : 검증통계량의 표본분포를 이용하여 검증통계와 연관된 확률 결정 =>
    위의수준과 검증통계에서 산출된 확률을 비교하여 기각역에 위치하는지, 채택역에 위치하는지 결정

  3) 가설검증통계의 유형

  • 검증 통계 기법
    • 평균기법, 상관관계분석, 비율검증, 평준의 차이검증, 비율의 차의검증, 분산분석, 회귀분석, 카이스퀘어 독립성 검증, 적합성 검증, 판별분석 등

  4) t-검증

  • 두 집단 간의 평균 차이 여부를 검증하는 방법
  • t-검증의 구분 : 단일표본 t-검증, 독립표본t-검증 , 대응표본 t-검증
  • t-검증 활용사례
    • 두 회사 가전제품 간의 선호도 차이 검증
    • 두 회사 다이어트 제품의 효과 차이 검증
    • 일본과 한국의 초등학생 IQ차이 검증 등
  • 비율척도 및 등간척도 데이터 검증

  5) F-검증

  • 3개 이상의 집단들에 대한 평균을 비교하여 한 개 이상 집단 간에 차이가 있는지를 검증하는 방법
  • 집단을 구분하는 인자의 수에 따른 분산분석의 유형 : 일원배치 분산분석, 이원배치 분산분석, 다원배치 분산분석
  • F-검증 활용 사례
    • 20대, 30대, 40대, 50대 연령별 생활만족도 차이 검증
    • 대도시, 중도시, 소도시 간의 1인당 노인복지 만족도 차이검증
    • 서울, 대구, 인천, 부산 지역의 주민 평균소득 차이 검증 등
  • 비율척도 및 등간척도 데이터 검증(ANOVA분석이라고도 함)

5. X² 검정

  • 범주형 변수 간의 독립성이나 적합성을 검증하는 방법
  • x²검정의 구분 : 2 * 2 분할표 검정, 2 * m 분할표 검정, n * m 분할표 검정
  • x²검증 활용 사례
    • 성별 스마트폰 인지도 차이검증
    • 학년별 축제 참여여부 차이 검증
    • 학년별 취미경향 차이검증
    • 지역별 선호 정당 차이검증
    • 가족의 규모와 세탁기 크기 독립성 검증
    • 소비자들의 자동차 색상에 대한 선호도 적합성 검증
  • 명목척도 및 서열척도 데이터 검증

6. 상관관계 분석

  1) 상관관계 분석의 개념

  • 특정한 변수 X와 또 다른 변수 Y사이에 존재하는 상호관련성을 분석하는 기법
  • 측정철도에 따라 다르게 분석하는 기법
  • 칼 피어슨의 피어슨 상관계수, 스피어만의 서열상관, 멭달의 타우계수 등이 있음
  • 연관성을 파악하는 통계량
    • 상관계수(correlation coefficient)r
    • 결정계수(coefficient of determinant)r²

<상관계수 평가기준 - 1>

 

<상관계수 평가기준 - 2>

 

<상관관계 계산 식>

7. 요인분석

  • 자료의 감축(reduction)과 요약(summarization)을 위한 분석기법으로 실제로 존재하는 어떤 사회현상에 관한 다양한 변수들을 측정하여 분석할 때 직접 측정할 수 없는 일련의 개념 혹은 요인들을 확인하기 위한 분석방법
  • 다양한 변수들을 몇 개의 개념이나 요인으로 결합시켜서 측정변수들의 내용을 단순화 시켜 통찰력을 높이고자 할 때 사용
  • 요인분석의 개념
    • 요인분석을 실시하는 목적 : 데이터 축소, 자료요약, 불피룡한 자료 제거, 요인 구조 파악, 측정도구의 타당성 평가, 다중공선성 문제 해결
  • 요인분석의 절차
    • 요인분석 문제를 정의하고 요인분석을 하기 위한 변수의 확인 =>
    • 변수들의 상관관계행렬을 구성하고 요인분석방법의 선택 =>
    • 추출하고자 하는 요인의 수와 회전방법의 결정 =>
    • 요인의 회전(배리맥스, 쿼티맥스, 이쿼맥스, 직접 오블리민 등) =>
    • 회전된 요인의 설명 =>
    • 목적에 근거하여 요인점수 계산 =>
    • 요인분석 모델의 적합성 결정

8. 회귀분석

  1) 단순회귀분석

  • 사회현상이나 자연현상에서 존재하는 원인과 결과간의 인과성(causality)을 규명하는 분석방법
  • 단순회귀분석
    • 독립변수와 종속변수가 각 1개씩인 분석기법

<단순회귀분석방정식>

  • 다중회귀분석
    • 독립변수가 2개 이상인 분석기법

<다중회귀분석>

 

반응형

댓글