본문 바로가기
자격증/ADsP

데이터 분석 기획의 이해

by ahnne_ 2021. 2. 21.
반응형

1. 분석기획의 특징

  • 분석기획 : 과제 정의 -> 결과 도출 및 관리를 위한 사전에 계획
  • 데이터 사이언티스트의 역량  : 수학/통계학적 지식 및 IT기술과 도매인 지식 필요

2. 분석 대상 과 방법

  • 분석은 분석 대상과 분석 방법에 따라 4가지로 나뉜다
  • 분석대상을 알지만 분석 방법을 모르는 경우 : 솔루션
  • 분석대상을 알고 방법도 아는경우 : 통찰
  • 분석대상을 모르고 방법도 모르는 경우 : 발견
  • 분석대상은 모르지만 방법은 아는경우 : 최적화

3. 목표 시점 별 분석 기획 방안

  • 목표 시점 별 : 당면 과제를 빠르게 해결하는 과제 중심적 접근방식, 지속저깅ㄴ 분석 내재화를 위한 자익적인 마스터 플랜 방식
  • 분석기획 : 문제해결을 위한 단기적인 접근방식, 분석과정 정의를 위한 중장기적인 마스터 플랜 접근방식

4. 분석 기획 시 고려사항

  • 가용 데이터
    • 분석을 위한 데이터의 확보가 우선적, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적 필요
  • 적절한 활용방안과 유즈케이스
  • 장애요소들에 대한 사전 계획 수립
    • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리 고려

4. 분석 방법론 개요

  • 데이터 분석을 위해 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필요
  • 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
  • 폭포수 모델 : 순차적으로 진행 하는 방법, 이전단계 완료 후 다음단계 진행 문제 발생 시 피드백 과정 수행
  • 프로토타입 모델 : 점진적 시스템 개발, 고객의 요구를 이해 및 분석하기 위해 일부분을 우선 개발하고 개선 작업
  • 나선형 모델 : 반복을 통해 점진적으로 개발, 관리 체계를 효과적으로 갖추지 못하면 복잡도 상승 
  • 방법론 구성 : 단계 => 테스트 => 스탭 
    • 단계(단계별 완료 보고서) : 최상위 계층, 프로세스 그룹을 통하여 완성된 단계별 산출물 생성, 각 단계는 기주선으로 설정, 버전관리 등을 통해 통제
    • 태스크(보고서) : 단계를 구성하는 단위 활동으로 물리적 또는 논리적 단위로 품질검토의 항목
    • 스탭(보고서 구성요소) : WBK(Work Breakdown Structure)의 워크 패키지에 해당, 입력자료, 처리 및 도구, 출력자료로 구성

5. KDD분석 방법론

  • KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스 이다. 데이터 마이닝, 기계학습, 인공지능 패턴인식, 데이터 시각화 등에서 응용
  • 분석절차 : [data] = selelction(선택) => [target data] = preprocessing(전처리)=> [preprocessed data] = transformation(변환) => [transformed data] = data mining(마이닝) => [patterns] = interpretation/evaluation(결과 해석 및 평가) => [knowledge]
    • selection(선택)
      • 대상의 비즈니스 도매인에대한 이해와 프로젝트 목표설정, 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터 선택 단계
      • 목표 데이터를 구성
    • preprocessing(전처리)
      • 잡음, 이상, 결측치를 식별하고 제거 및 재처리 등 데이터 셋을 정제
      • 추가로 요구되는 데이터 셋이 필요한 경우 데이터 앞단계(selection, 선택) 단계 재수행
    • transformation(변환)
      • 정제된 데이터에 목적에 맞게 변수 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 마이닝 가능하도록 데이터 변경
      • 학습용 데이터, 검증용 데이터로 데이터 분리
    • data mining(마이닝)
      • 데이터 마이닝 기법을 선택, 적절한 알고리즘 적용
      • 필요에 따라 'preprocessing(전처리)', 'transformation(변환)'프로세스 추가 실행 가능
    • interpretation/evaluation(결과 해석 및 평가) 
      • 결과에 대한 해석과 평가, 분석 목적과 일치성 확인
      • 지식을 업무에 활용하기 위한 방안 마련

6. CRISP-DM 분석 방법론

  • CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개의 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다.
  • CRISP-DM의 4레벨 구조
    • Phases(단계) -> Generic Tasks(일반화 태스크) -> Specialized Tasks(세분화 태스크) -> Process Instances(프로세스 실행)
    • 최상위 레벨은 여러개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다. 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크로 구성된다.
    • 예를 들어, 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다
    • 마지막 레벨인 Process Instances(프로세스 실행)은 데이터마이닝을 위한 구체적인 실행을 포함한다.
  • CRISP-DM의 프로세스 : 6단계로 구성되며 각 단계 간 피드백을 통하여 단계별 완성도를 높인다
    • 프로세스 절차 : 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가
      • 업무이해 : 목적과 요구사항 이해 단계, 도매인 지식을 데이터 분석을 위한 문제 정의로 변경, 초기 프로젝트 계획 수립, 상황 파악, 마이닝 목표 설정
      • 데이터 이해 : 초기 데이터 수집, 데이터 기술분석, 데이터 속성 이해, 데이터 품질 확인, 데이터 탐색 및 인사이트 발견
      • 데이터 준비 : 분석에 적합한 데이터를 편성, 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, 데이터 포멧팅
      • 모델링 : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 모델 계획 설계, 모델 작성, 모델 평가, 과적합 문제를 확인
      • 평가 : 목적에 부합하는지 평가, 결과 평가, 모델링 과정 평가, 모델 적용성 평가
      • 전개 : 완성된 모델을 실 업무에 적용, 전개 계획 수립, 모니터링 유지보수, 종료보고서 작성

 

7. 빅데이터 분석 방법론

  • 빅데이터 분석의 계층적 프로세스
    • 단계(Phase) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성. 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리등을 통하여 통제가 이뤄짐
    • 테스크(Task) : 각 단계는 여러 개의 태스크로 구성된다. 각 태스크는 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토 항목이 됨
    • 스탭(Step) : WBS(Work Breakdown Structure)의 워크 패키지에 해당되고 입력 자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다.
  • 빅데이터 분석 방법론 5단계
    • 분석 기획
      • 비지니스 이해 및 범위 설정
        • 비지니스 이해 : 업무 매뉴얼, 자료 수집 및 비지니스 이해, 도매인 분석, 프로젝트 범위 정의서
        • 프로젝트 범위 설정 : 프로젝트 범위 정의서(Statement Of Work, SOW), 중장기 계획서, 지시서 등
      • 프로젝트 정의 및 계획 수립 
        • 데이터 분석 프로젝트 정의 : 프로젝트 정의서, 모델 운영 이미지 설계, 모델 평가, KPI, SOW
        • 프로젝트 수행 계획 수립 : SOW, WBK
      • 프로젝트 위험 계획 수립
        • 데이터 분석 위험 식별
        • 위험 계획 수립
    • 데이터 준비 
      • 필요 데이터 정의 
        • 데이터 정의 : 데이터 정의서, ERD, 시스템 설계서, 정형|비정형|반정형 데이터 정의, 내|외부 데이터 정의
        • 데이터 획득 방안 수립 : 데이터 획득 계획서, 데이터 수집하기 위한 방안, 법적 문제 고려, 상세한 데이터 획득
      • 데이터 스토어 설계
        • 정형 데이터 스토어 설계 : 데이터베이스 논리, 물리 설계, 데이터 매핑, RDBMS사용
        • 비정형 데이터 스토어 설계 : 하둡, NoSQL 등 이용, 비정형 또는 반정형 데이터 데이터 스토어 설계
      • 데이터 수집 및 정합성 점검
        • 데이터 수집 및 저장 : 크롤링 등 데이터 수집을 위한 ETL, 스크립트, API 등 이용
        • 데이터 정합성 점검 : 품질 점검, 정합성 확보 등의 보완 작업
    • 데이터 분석
      • 분석용 데이터 준비
        • 비지니스 룰 확인 : 프로젝트의 목표를 정확하게 인식, 데이터의 범위
        • 분석용 데이터 셋 준비 : 데이터 수집 단계에서 설계된 데이터 스토어로부터 필요한 데이터 추출, 셋 준비
      • 텍스트 분석
        • 테스트 데이터 확인 및 추출 : 데이터 스토어에서 추출, 비정형 데이터 스토어
        • 텍스트 데이터 분석 : 추출된 데이터를 분석하고 모델 구축, 키워드 도출, 용어사전, 시각화 도구 이용 
      • 탐색적 분석
        • 탐색적 데이터 분석 : 기초 통계량 산출, 통계 특성을 이해하고 모델링, EDA도구, 분포 확인 등
        • 데이터 시각화 : 시각화 도구 이용, 프로토타입 활용, 인포그래픽, 시각화 방법론 등
      • 모델링
        • 데이터 분할 : 모델의 과접학과 일반화를 위하여 분석용 데이터 셋을 훈련용과 테스트용으로 분할
        • 데이터 모델링 : 분류, 예측, 군집 등의 모델을 만들어 가동중인 운영시스템에 적용, 모델 테스트
        • 모델 적용 및 운영 방안 : 알고리즘 설명서 작성, 모니터링 방안 수립
      • 모델 평가 및 검증
        • 모델 평가 : 알고리즘 파악, 모델 검증을 위한 별도의 데이터 활용(평가용 데이터), 모델 품질관리 및 개선 작업, 모델 평가 보고서 
        • 모델 검증 : 실적용성을 검증, 모델링 검증 보고서, 품질 최종 검증, 모델 검증 보고서
      • 모델 적용 및 운영방안 수립
    • 시스템 구현 
      • 설계 및 구현
        • 시스템 분석 및 설계 : 응용시스템 구축, 정보시스템 개발 방법론을 통한 시스템 분석 및 설계서 작성
        • 시스템 구현 : IDE, 프로그래밍, 패키지를 통한 설계된 모델 구현
      • 시스템 테스트 및 운영
        • 시스템 테스트 : 시스템 검증, 시스템 품질 관리, 객관성과 완전성 확보, 시스템 테스트 결과 보고서
        • 시스템 운영 계획 : 교육, 운영계획 수립, 사용자 교육, 각종 매뉴얼
    • 평가 및 전개
      • 모델 발전계획 수립
        • 발전계획 수립, 발전 계획서
      • 프로젝트 평가 및 보고
        • 프로젝트 성과 평가 : 성과 평가서 작성, 각종 산출물 필요, 성과 평가서, 정량적 정성적 평가
        • 프로젝트 종료 : 지식자산화 작업, 지식 자산화, 프로젝트 최종 보고서

8. 분석 과제 발굴

  • 개요
    • 과거의 분석 환경은 분석대상(WHAT)을 알고 있는 상태이기 때문에 어떻게 분석을 하느냐에 관점인 TOP->DOWN방식(최적화->솔루션)의 문제 해결을 위한 접근의 분석이 많았다면, 최근에는 대규모의 다양데이터가 생성되고 복잡도가 올라가는 빅데이터 환경에서는 Botton->UP방식(발견->통찰력) 방식의 방향이 많이 되고 있다. 
  • 하향식 접근방법
    • 현황 분석을 통해 기회나 문제를 탐색하고 해당 문제를 정의, 해결방안을 탐색 한다.
    • 타당성평가를 거쳐 분석 과제를 도출 한다.
      • 문제 탐색 단계(1단계)
        • 문제 도출, 식별, 문제를 해결함으로써 발생하는 가치에 중점
        • 비즈니스 모델 기반 문제 탐색 : 기업 내|외부 환경을 포괄하고 있는 비즈니스 모델이라는 틀을 활용하여 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객, 규제와 감사, 지원 인프라 영역에 대한 기회를 추가 도출하는 작업 수행
          • 업무 : 제품, 서비스를 생산하기 위한 내부 프로세스 및 주요자원 관련 주제 도출, 예) 생산 공정 최적화, 재고량 최소화
          • 제품 : 생산 및 제공하는 제품|서비스를 개선하기 위한 관련 주제 도출, 예) 제품의 주요기능 개선, 서비스 모니터링
          • 고객 : 제품|서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 주제 도출, 예) 고객 call 대기 시간 최소화, 영업점 위치 최적화
          • 규제와 감사 : 제품 생산 및 전달과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출, 예) 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제시 예상되는 제품 추출 등
          • 지원 인프라 : 분석을 수행하는 시스템 영역 및 이를 운영|관리하는 인력의 관점에서 주제도출, 예) EDW최적화, 적정 운영 인력 도출 등

 

반응형

'자격증 > ADsP' 카테고리의 다른 글

[제1과목 데이터의 이해] 문제모음 2  (0) 2022.04.17
[제1과목 데이터의 이해] 문제모음 1  (0) 2022.04.16
데이터와 정보  (0) 2021.02.07

댓글