1. 데이터시각화
1) 개념
- 러셀(Russell Ackoff, 1989)의 연구 : 데이터를 지식화하기 위한 과정이 시각화이다.
- 데이터 분석 결과를 사용자가 쉽게 이해할 수 있도록 시각적 수단을 통해 제시하는 것
- 시각화란 같은 범주 안에서 많은 양의 데이터에 의미를 부여함으로써 공간에 배치된 숫자의 패턴을 인지하게 만든 것
- 다른 학문과 융합하여 다양한 정보 전달이나 상황 분석을 위한 시각적 도구로 메시지 전달을 위한 시각적 표현으로 많이 사용됨
2) 특성
- 인간의 정보 처리 능력을 확장시켜 정보를 직관적으로 이해
- 많은 데이터를 동시에 차별적으로 제시
- 다른 방식으로 어려운 지각적 추론 가능
- 흥미를 유발하고, 주목성이 높아지며 인간의 경험을 풍부하게 함
- 문자보다 친근하게 정보 전달, 다양한 계층 사람들에게 쉽게 접근
- 데이터 간 관계, 차이를 명확히 드러내며, 이면의 의미, 뜻, 이야기 (narrative)를 만듦
- 데이터를 입체적, 거시적/미시적 표현이 가능하고 위계를 부여
2. 데이터 시각화의 절차
1) 원리
- 각각의 음식은 고유한 맛과 향이 있다. => 하나의 시각화는 그 데이터 셋에 표현하는 유일한 특성들만을 표현
- 확실한 일품요리를 차려라! => 가능한 한 소중한 정보만으로 최소화
- 손님이 원하는 식사를 제공하라. => 청중이 누구이며, 시각화에 접근하는 이들의 최종 목적은 무엇인가?
2) 프로세스
- 데이터 시각화의 단계
- 1단계 : 데이터의 획득 (획득)
- 2단계 : 데이터 구조화 및 분류 (구조화)
- 3단계 : 관심 데이터 추출 (추출)
- 4단계 : 통계적인 방법 또는 데이터마이닝 기법 적용 (마이닝)
- 5단계 : 바 그래프, 리스트 또는 트리 등의 기본적 시각 모델 선택 (시각화)
- 6단계 : 보다 명확하게, 매력적 표현으로 개선 (재정의)
- 7단계 : 데이터 변경 또는 보여지는 특질을 조작하는 방법 추가 (상호작용)
3. 데이터 시각화 방법 및 관련 기술
1) 데이터의 표현
- 데이터의 형식
데이터 형식 |
구체적 내용 |
|
단변수 데이터 |
단일의 수, 숫자의 집합 |
|
이변수 데이터 |
산점도 (Scatter Plot) |
시계열로써 하나의 축이 시간, 다른 축 이시간의기능을나타내는것 |
삼변수 데이터 |
산점도 매트릭스 |
3차원의 특징을 지니고 있는 객체에 대한 데이터를 동일한 공간에서 2차원 으로 제시 |
다변수 데이터 |
좌표플롯 |
평형좌표플롯,스타플롯,산점도 매트릭스, 링크드 히스토그램, 모자이크 플롯, 아이콘 |
- 시각적 표현
특성 |
구체적 내용 |
크기 |
면적이나 도형 모양의 확대/축소를 이용, 사용자가 직관적 구별이 가능하므로 가장 많이 쓰임 |
색상 |
데이터 셋이 많을 때 규칙성과 특이성을 구분해내는데 효과적임 |
위치 |
지도나 가상의 장소화 데이터를 연결하여 나타냄으로써 관찰자가 자신의 정황을 시각화에 투영하여 해석함 |
네트워크 |
데이터 사이에 관계를 표현하며 각 데이터들을 노드로 연결하는 것과 같음 |
시간 |
전통적으로 많은 정보디자인에서 쓰였던 방법으로 시간순서에 따라서 데이터를 나열하는 방법 |
다중표현기법 |
앞에 기술한 여러 방법의 표현적 기법을 혼합 사용하는 방법 |
- 관계의 인코딩
인코딩의 형식 |
구체적 내용 |
선 |
두가지실체를가장간단하게제시할수있는방법은두 가지해당실체의표현사이에직선을그려넣는일 |
지도와 다이어그램 |
벤다이어그램, 인포크리스탈, 클러스터맵 |
트리표시 |
노드와 링크 형태의 관계에 적용되며, 콘트리, 하이퍼볼릭 브라우저, 수형도 등으로 표현 |
2. 시각화 방법과 도구
- 시각화 기술
시각화 기술 |
내용 |
기하학적 기술 |
기하학적 변형과 자료의 투영을 위한 시각화 |
아이콘 기반 기술 |
상징적인 아이콘을 통한 정보의 유용성 시각화 |
화소 지향적 기술 |
각속성의질은하나의픽셀색에의해표현됨 속성의 질적 범위는 고정된 컬러맵에 의해 맵핑되며, 각 속성의 질은 분리된 편집창에 표현됨 |
위계적 기술 |
편집창을 통한 위계 패턴을 사용한 정보의 시각화 기술 |
그래프 기술 |
명확하고 빠른 의미를 전달하기 위해 그래프를 사용한 시각화 기술 |
하이브리드 기술 |
시각화의 표현성을 극대화하기 위하여 하나 또는 여러 창에 다양한 기술을 통합한 시각화 기술 |
왜곡 기술 |
방대한 양의 정보 표현을 위한 화상의 일그러짐 기술을 사용한 시각화 기술 |
동적 인터랙션 기술 |
좀더효율적인정보탐색을위해동적또는상호작용을 이용하는 시각화 기술 |
- 시각화 방법과 도구
종류 |
도구 |
내용 |
차트와 통계 |
• 마이크로소프트 엑셀 •구글 스프레드시트 |
시각화를 위한 모든 기능과 도구를 내장한 도구 |
프로그래밍 |
• Processing |
데이터의 양이 방대해 짐에 따라 데이터 활용 범위도 확대되고 소프트웨어의 지원범위를 벗어나는 기능이 필요할 때 시각화에 유용한 방법 |
지도
|
• 구글/야후/ 마이크로소프트 지도 |
매우 직관적인 시각화 방법 공간데이터 시각화에 유리 |
기타 그래픽 |
• 일러스트레이션 |
좀 더 매끈하게 만들어주는 일러스트레이션 등과 같은 방법 |
3. 데이터 시각화 기술
- 일반적인 데이터 시각화 기술
종류 |
내용 |
시간 시각화 |
• 구분: 분절형과 연속형 |
분포 시각화 |
•구분: 전체 분포와 시간에 따른 분포 |
관계 시각화 |
• 구분: 상관관계, 분포, 비교 •내용:각기다른변수사이에서관계를찾는기술 |
비교 시각화 |
• 히트맵, 체르노프 페이스, 스타차트, 평행좌표그래프, 다차원척도법, 아웃라이어 찾기 등으로 표현 |
인포그래픽스 |
• 인포메이션과 그래픽의 합성어 |
4. 시각적 결과물의 이해와 해석
1) 시간 시각화의 이해
- 경제활동과 관련된 시계열 => 국내총생산(GDP), 소비자물가지수, 수출액, 주가지수, 환율, 금리 등
- 물리적 활동과 관련된 시계열 => 일일강수량,기온,태양의흑점,연간지진의발생건수등
- 회사의 경영활동과 관련된 시계열 => 상품의 판매량, 상품 광고와 판매량 등
- 인구 관련 시계열 => 총인구, 농가수 등
- 품질관리 등 생산관리와 관련된 시계열
- 통신 공학 또는 공학과 관련된 시계열 => (0,1)-확률과정, 음성
- 사회생활과 관련된 시계열 => 교통사고건수,범죄발생수
2) 분포 시각화의 이해
- 분포데이터 구분 => 샘플 측정 범위에서의 분류
- 분포데이터 특성 : 최대, 최소, 전체 분포로 나눔
- 사용예
- 전체의 부분을 나타내기 때문에 데이터의 양이나 크기가 어떻게 분포되어 있는지에 대한 정보를 얻기 위해 사용함
3) 관계 시각화의 이해
- 사용 예 : 어떠한 항목이 다른 항목에 어떤 영향을 주는지 알기 위해 사용
- Scatter Plot : 변수간의관계를설명하기위한차트
- Histogram : 측정값을 몇 개의 구간으로 나누어 표현한 차트
- Bubble Chart : 스캣터플롯+버블의 크기 세가지정보에 대해 2차원으로 표시한 차트
4) 비교 시각화의 이해
- 사용 예 : 다양한 변수의 특징을 한 번에 비교하여 전체적인 정보 표현이 가능함
- 히트맵 : 색상의 명암으로 값의 크기 표현한 차트
- 체르노프 페이스 : 다차원 통계 데이터를 얼굴로 이미지화한 차트
- 스타차트 : 평가항목간균형을한눈에알아볼수있는차트
'개발자 일기 > 빅데이터의 개념이해와 분석역량강화' 카테고리의 다른 글
16. 빅데이터 플랫폼과 관리 (0) | 2021.01.28 |
---|---|
14. 비정형(텍스트)마이닝의 개요 (0) | 2021.01.26 |
12. 통계의 개념 및 통계량 (0) | 2021.01.21 |
댓글