본문 바로가기
개발자 일기/빅데이터의 개념이해와 분석역량강화

15.데이터 시각화

by ahnne_ 2021. 1. 28.
반응형

1. 데이터시각화

  1) 개념

  • 러셀(Russell Ackoff, 1989)의 연구 : 데이터를 지식화하기 위한 과정이 시각화이다.
  • 데이터 분석 결과를 사용자가 쉽게 이해할 수 있도록 시각적 수단을 통해 제시하는 것
  • 시각화란 같은 범주 안에서 많은 양의 데이터에 의미를 부여함으로써 공간에 배치된 숫자의 패턴을 인지하게 만든 것
  • 다른 학문과 융합하여 다양한 정보 전달이나 상황 분석을 위한 시각적 도구로 메시지 전달을 위한 시각적 표현으로 많이 사용됨

  2) 특성

  • 인간의 정보 처리 능력을 확장시켜 정보를 직관적으로 이해
  • 많은 데이터를 동시에 차별적으로 제시
  • 다른 방식으로 어려운 지각적 추론 가능
  • 흥미를 유발하고, 주목성이 높아지며 인간의 경험을 풍부하게 함
  • 문자보다 친근하게 정보 전달, 다양한 계층 사람들에게 쉽게 접근
  • 데이터 간 관계, 차이를 명확히 드러내며, 이면의 의미, 뜻, 이야기 (narrative)를 만듦
  • 데이터를 입체적, 거시적/미시적 표현이 가능하고 위계를 부여

2. 데이터 시각화의 절차

  1) 원리

  • 각각의 음식은 고유한 맛과 향이 있다. => 하나의 시각화는 그 데이터 셋에 표현하는 유일한 특성들만을 표현
  • 확실한 일품요리를 차려라! => 가능한 한 소중한 정보만으로 최소화
  • 손님이 원하는 식사를 제공하라. => 청중이 누구이며, 시각화에 접근하는 이들의 최종 목적은 무엇인가?

  2) 프로세스

  • 데이터 시각화의 단계
    • 1단계 : 데이터의 획득 (획득)
    • 2단계 : 데이터 구조화 및 분류 (구조화)
    • 3단계 : 관심 데이터 추출 (추출)
    • 4단계 : 통계적인 방법 또는 데이터마이닝 기법 적용 (마이닝)
    • 5단계 : 바 그래프, 리스트 또는 트리 등의 기본적 시각 모델 선택 (시각화)
    • 6단계 : 보다 명확하게, 매력적 표현으로 개선 (재정의)
    • 7단계 : 데이터 변경 또는 보여지는 특질을 조작하는 방법 추가 (상호작용)

<데이터 시각화 과정>

3. 데이터 시각화 방법 및 관련 기술

  1) 데이터의 표현

  • 데이터의 형식

데이터 형식

구체적 내용

단변수 데이터

단일의 수, 숫자의 집합

이변수 데이터

산점도 (Scatter Plot)

시계열로써 하나의 축이 시간, 다른 축 이시간의기능을나타내는것

삼변수 데이터

산점도 매트릭스

3차원의 특징을 지니고 있는 객체에 대한 데이터를 동일한 공간에서 2차원 으로 제시

다변수 데이터

좌표플롯

평형좌표플롯,스타플롯,산점도 매트릭스, 링크드 히스토그램, 모자이크 플롯, 아이콘

 

  • 시각적 표현

특성

구체적 내용

크기

면적이나 도형 모양의 확대/축소를 이용, 사용자가 직관적 구별이 가능하므로 가장 많이 쓰임

색상

데이터 셋이 많을 때 규칙성과 특이성을 구분해내는데 효과적임

위치

지도나 가상의 장소화 데이터를 연결하여 나타냄으로써 관찰자가 자신의 정황을 시각화에 투영하여 해석함

네트워크

데이터 사이에 관계를 표현하며 각 데이터들을 노드로 연결하는 것과 같음
사회적 관계를 시각화하거나 방대한 양의 데이터들 사이의관계를그룹지어서보여줄때유용함

시간

전통적으로 많은 정보디자인에서 쓰였던 방법으로 시간순서에 따라서 데이터를 나열하는 방법

다중표현기법

앞에 기술한 여러 방법의 표현적 기법을 혼합 사용하는 방법

 

  • 관계의 인코딩

인코딩의 형식

구체적 내용

두가지실체를가장간단하게제시할수있는방법은두 가지해당실체의표현사이에직선을그려넣는일

지도와 다이어그램

벤다이어그램, 인포크리스탈, 클러스터맵

트리표시

노드와 링크 형태의 관계에 적용되며, 콘트리, 하이퍼볼릭 브라우저, 수형도 등으로 표현

2. 시각화 방법과 도구

  • 시각화 기술

시각화 기술

내용

기하학적 기술

기하학적 변형과 자료의 투영을 위한 시각화

아이콘 기반 기술

상징적인 아이콘을 통한 정보의 유용성 시각화

화소 지향적 기술

각속성의질은하나의픽셀색에의해표현됨 속성의 질적 범위는 고정된 컬러맵에 의해 맵핑되며, 각 속성의 질은 분리된 편집창에 표현됨

위계적 기술

편집창을 통한 위계 패턴을 사용한 정보의 시각화 기술

그래프 기술

명확하고 빠른 의미를 전달하기 위해 그래프를 사용한 시각화 기술

하이브리드 기술

시각화의 표현성을 극대화하기 위하여 하나 또는 여러 창에 다양한 기술을 통합한 시각화 기술

왜곡 기술

방대한 양의 정보 표현을 위한 화상의 일그러짐 기술을 사용한 시각화 기술

동적 인터랙션 기술

좀더효율적인정보탐색을위해동적또는상호작용을 이용하는 시각화 기술

 

  • 시각화 방법과 도구

종류

도구

내용

차트와 통계

• 마이크로소프트 엑셀 •구글 스프레드시트
• 매니아이즈
• 타블로 소프트웨어

시각화를 위한 모든 기능과 도구를 내장한 도구

프로그래밍

• Processing
• D3.js
• Flash/Actionscript • 파이선(Python)
•R

데이터의 양이 방대해 짐에 따라 데이터 활용 범위도 확대되고 소프트웨어의 지원범위를 벗어나는 기능이 필요할 때 시각화에 유용한 방법

지도

 

• 구글/야후/ 마이크로소프트 지도
• ArcGis

매우 직관적인 시각화 방법 공간데이터 시각화에 유리

기타 그래픽

일러스트레이션
잉크스케이프
• Gephi

좀 더 매끈하게 만들어주는 일러스트레이션 등과 같은 방법

 

3. 데이터 시각화 기술

  • 일반적인 데이터 시각화 기술

종류

내용

시간 시각화

• 구분: 분절형과 연속형
•분절형데이터:특정시점또는특정시간의구간값을 막대그래프, 누적막대그래프, 점그래프 등으로 표현

분포 시각화

•구분: 전체 분포와 시간에 따른 분포
• 전체 분포: 파이차트, 도넛차트, 누적막대그래프,  인터랙티브 누적영역그래프로 표현
• 시간 변화에 따른 분포: 누적연속그래프, 누적영역그래프, 선그래프 등으로 표현

관계 시각화

• 구분: 상관관계, 분포, 비교 •내용:각기다른변수사이에서관계를찾는기술
• 상관관계: 스캐터플롯, 스캐터플롯, 행렬, 버블차트  등으로 표현

비교 시각화

• 히트맵, 체르노프 페이스, 스타차트, 평행좌표그래프, 다차원척도법, 아웃라이어 찾기 등으로 표현

인포그래픽스

• 인포메이션과 그래픽의 합성어
• 차트, 지도, 다이어그램, 로고, 일러스트레이션등을 활용

 

4. 시각적 결과물의 이해와 해석

  1) 시간 시각화의 이해

  • 경제활동과 관련된 시계열 => 국내총생산(GDP), 소비자물가지수, 수출액, 주가지수, 환율, 금리 등
  • 물리적 활동과 관련된 시계열 => 일일강수량,기온,태양의흑점,연간지진의발생건수등
  • 회사의 경영활동과 관련된 시계열 => 상품의 판매량, 상품 광고와 판매량 등
  • 인구 관련 시계열 => 총인구, 농가수 등
  • 품질관리 등 생산관리와 관련된 시계열
  • 통신 공학 또는 공학과 관련된 시계열 => (0,1)-확률과정, 음성
  • 사회생활과 관련된 시계열 => 교통사고건수,범죄발생수

<시계열 데이터의 시각화 사례>

   2) 분포 시각화의 이해

  • 분포데이터 구분 => 샘플 측정 범위에서의 분류
  • 분포데이터 특성 : 최대, 최소, 전체 분포로 나눔
  • 사용예
    • 전체의 부분을 나타내기 때문에 데이터의 양이나 크기가 어떻게 분포되어 있는지에 대한 정보를 얻기 위해 사용함

<분포 시각화 사례>

  3) 관계 시각화의 이해

  • 사용 예 : 어떠한 항목이 다른 항목에 어떤 영향을 주는지 알기 위해 사용
  • Scatter Plot : 변수간의관계를설명하기위한차트
  • Histogram : 측정값을 몇 개의 구간으로 나누어 표현한 차트
  • Bubble Chart : 스캣터플롯+버블의 크기 세가지정보에 대해 2차원으로 표시한 차트

<관계 시각화 사례>

  4) 비교 시각화의 이해

  • 사용 예 : 다양한 변수의 특징을 한 번에 비교하여 전체적인 정보 표현이 가능함
  • 히트맵 : 색상의 명암으로 값의 크기 표현한 차트
  • 체르노프 페이스 : 다차원 통계 데이터를 얼굴로 이미지화한 차트
  • 스타차트 : 평가항목간균형을한눈에알아볼수있는차트

<비교 시각화의 이해>

 

반응형

댓글