본문 바로가기
Study/tableau 및 데이터 시각화

tableau(3)

by 왕방개 2024. 2. 2.

1,분포시각화

1)Scatter chart (산점도, 산포도, 원 그래프)

 

2)BoxPlot Chart

=>개요

분포에 통계적 맥락을 추가한 차트

=>의사별 대기시간을 산포도로 만들고, 박스 플롯을 추가

데이터는 Hospital Visits.csv 파일 이용

마크 유형을 원(Scatter)을 선택

Department Type을 행 선반에 배치

산점도는 근본적으로 숫자 필드여야됩니다. 

 

2개의 날짜 차이를 필드로 생성 :

Time_diff 계산식- DATEDIFF('day',[Date of Admit],[Date of Discharge])'

Time_diff 필드를 열 선반에 배치하고 세부 메뉴를 선택해서 평균으로 측정값을 변경

Doctor 필드를 세부 정보 카드에 배치

 

여기까지 수행하면 가로 방향으로 시간의 분포를 알아볼 수 있습니다.

[분석] 탭에서 박스 플롯을 뷰영역으로 드래그

=>IQR: 3/4 지점에서 1/4 지점의 값을 뺸 값으로 이상치를 판단하는 방법 중 하나로 IQR에 +-1.5 를 곱한 범위 외의 값을 이상치로 판단합니다.

 

2.Heatmap Chart

1)개요

=>테이블 형식으로 데이터 수치 상의 차이를 색상으로 구분하는 차트

=>열과 행에 날짜를 배치하는 경우가 많습니다

날짜 형식의 월 이나 일 또는 요일을 배치해서 다른 날짜와 비교하고 추세도 알아보고자 할 때 많이 사용합니다.

 

=>태블로는 사각형 차트입니다.

 

2)실습

=>Superstore_Sample.xlsx 파일의 데이터를 이용

=>주문 날짜를 열과 행 선반에 배치하고 열 선반의 데이터는 불연속형의 요일을 선택하고 행 선반의 데이터는 불연속형의 월을 선택

=>색상 카드에 [매출]필드를 표시

 

3JOIN

=>태블로에서는 여러개의 데이터를 조인해서 사용할 수 있습니다.

겹치는 컬럼이 있다면 계속 조인이 가능합니다.하지만 조인이 되지 않은 데이터는 쓸 수 없습니다.

=>실습

-Car for Table.xlsx 파일의 데이터 이용

모든시트를 사용할 수 있도록 조인

 

4.Filter

=>데이터의 일부분을 제거하고 조건에 맞는 데이터만 추출하는 기능

 

1)데이터 원본 필터

=>원본 데이터에 필터를 적용

=>데이터를 불러오는 단계에서 필터링 되기 떄문에 대용량 데이터를 불러올 때 유용

=>데이터 원본 창의 오른쪽 상단의 [필터]-[추가]를 눌러서 원하는 데이터만 선택하면 됩니다.

=type 에서 truck 을 제외

2)워크시트 페이지 필터

=> 필터 이동 및 재생을 통해 워크ㅣ트 뷰를 동적으로 보이게 하는 기능을 구현하고자 할 때 사용

=>Type별 매출액을 이용한 막대 그래프를 생성

-계산된 필드 기능을 이용해서 매출액 필드 생성

[Price]*[Quantity]

 

-행 선반에 Type필드를 배치

-열 선반에 매출액 필드를 배치

-Type을 색상으로 설정

-매출액을 레이블로 설정

-주문일자(Order Date)을 페이지에 배치하고 연속형의 월로 수정

-페이지에 배치하면 오른쪽에 애니메이션 관련 메뉴가 추가됩니다.

기록표시 위 재생버튼은 누르면 재생

=>워크시트 필터 기능 

-행 선반에 Model 배치

-열 선반에 매출액 배치

-색상과 레이블에 매출액 배치

-내림차순으로 데이터 정렬

-색상에 '빨간색' 10단계로 변경

 

5.필드와 뷰 기능

1)필드 변환

=>필드의 종류를 변경하는 것이 가능

=>범주형 데이터를 어떤 이유에서 숫자로 표현한 경우 이 데이터를 범주형으로 다시 되돌리고자 하는 경우 데이터를 선택하고 세부 메뉴를 눌러서 [불연속형으로 변환]을 선택해주면 됩니다.

 

2)별칭

=>범주형의 값을 화면에 출력할 때 다른 값으로 출력 가능

=>범주형의 데이터를 숫자로 표현하거나 다른 언어로 표현된 경우 별칭을 이용해서 화면에 출력할 때는 다른 이름으로 출력할 수 있습니다.

 3)계산된 필드 

=>기존의 데이터를 이용해서 새로운 데이터를 만들어내는 것

=>파생 필드라고도 합니다

=>IF 의 사용법과 CASE의 사용법 정도는 알아두는 것이 좋습니다

IF [조건] THEN 값

ELSEIF [조건] THEN 값

...

ELSE
END

 

CASE

WHEN 값1 THEN 값2

...

END

4)그룹

=>그룹은 차원이나 측정값 필드 값을 그룹화 할때 사용하는 기능

일반적으로는 차원을 그룹화하는ㄴ데 활용

측정값도 그룹화 할 수 있는데 측정값은 일반적으로 범위를 이용하기 떄문에 그룹화하고자 하면 계산된 필드를 이용합니다.

 

=>필드를 선택하고 세부 메뉴를 눌러서 [만들기]-[그룹]을 선택하고 항목을 CTRL 키를 이용해서 선택한 후 하단의 [그룹]을 선택하면 됩니다.

5)집합

=>고정 집합과 동적 집합으로 분류

=>동적 집합이란 데이터가 변경되면 집합의 데이터가 자동으로 변경되는 집합

=>상위 몇 개 이런식으로 만들어지는 것이 집합

동적 집합은 필터를 이용해서도 비슷하게 만들 수 있습니다.

 

6)구간 차원

=>수치 데이터를 그룹화 할 때 사용하는 기능

=>수치 데이터를 가지고 히스토그램을 만들려고 할 때 주로 이용하는데 binning이라고도 합니다.

=>AGE 필드는 수치 데이터입니다.

AGE 필드의 값을 직접 이용하기도 하지만 연령대 같은 형태로 범주화해서 사용하기도 합니다.

계산된 필드를 이용해서 만들 수 있지만 여러 범주로 분할하는 경우 수식이 복잡해질 수 있습니다.

 

7)매개변수

=>사용자가 직접 변수를 활용해서 뷰를 필터링하는 기능

=>대부분의 경우 차원을 가지고 수행

=>생성 방법은 만들고자 하는 필드를 선택하고 마우스 오른쪽을 눌러서 [매개변수]을 선택해도 되고, 아니면 사이드 바의 상단을 클릭해서 만들어도 됩니다.

 

=>매개변수를 만들면 계산된 필드를 새로 만들어서 활용

IF [Order Date] >=[시작일] AND [Order Date] <=[종료일]
THEN 'Y' ELSE 'N' END

=>대시보드로 만들게 되면 원하는 매개변수를 선택하면 그에 따라 차트에 보여짐

 

8)분할 기능

=>하나의 필드가 2개이상의 데이터 조합인 경우 사용할 수 있는 기능

=>태블로에서는 분할과 사용자 지정 분할로 분할 기능이 나누어져 있습니다

분할은 태블로가 반복되는 패턴을 찾아서 분할해주는 것이고 사용자 지정 분할은 분할 기호를 사용자가 직접 지정하는 것입니다.

9)계층

=>여러 차원 필드의 값을 가지고 하나의 계층을 만들어주는 기능

 

 

10)데이터 유형 및 지리적 역할

=>데이터 유형 및 지리적 역할

데이터 유형:숫자/날자/문자열 변환

지리적 역할:문자열 중에서 국가/시도/카운티 등으로 지리적 역할로 변환하는 것

 

11)현재Store_ Addr 필드에 주소가 문자열로 만들어져 있는데 이를 가지고 지도를 출력

=>Store_addr 은 시&도 와 시가 합쳐져 있는 구조이므로 분할을 먼저 수행

Store_addr 을 선택하고 세부 메뉴를 누른 후 [변환] - [분할]을 선택

 

결과는 store_addr - 분할1 과 store_addr-분할2 라는 2개의 필드로 분할됩니다.

 

=> store_addr - 분할1 과 store_addr-분할2라는 필드를 하나의 필드로 만들고자 하는데 게층을 생성해서 생성

Shift 키를 이용해서 2개의 필드를 선택하고 [계층] - [계층 만들기]를 선택한 후 계층이름을 드래그(Store Addr 계층)

 

=>store_addr -분할1을 선택하고 세부 메뉴를 눌러서 지리적 역할을 시도로 선택

=>store_addr -분할2을 선택하고 세부 메뉴를 눌러서 지리적 역할을 시군구로 선택

=>store_addr(계층)필드를 색상 및 세부 정보 카드에 배치

 

 

6.분석 탭

1)요약

=>상수 및 평균 라인

측정값 필드의 상수 및 평균 요약 정보가 뷰에 표시

상수라인은 중간에 선을 삽입하는 기능

 

- 행 선반에 매출액  그리고 선반에 Order Date필드를 드래그

-분석 탭에서 상수 라인을 뷰로 드래그 한 후 월을 선택하고 날짜를 선택하면 그 날짜에 선이 그어집니다

선을 이용해서 구분하고자 할 떄 사용

-- 분석 탭에서 평균 라인을 뷰로 드래그 하면 평균에 해당하는 값에 선을 그어 줍니다

=>총계

테이블 형태로 데이터를 출력할 때 분류별 합계를 알고자 할 때 사용

대시보드를 만들 때 데이터를 제공하기 위해서 사용

-Brand 와Model을 행에 배치 Gender을 열에 배치

-매출액을 텍스트 선반에 배치:테이블 형태로 데이터값이 출력

-분석 탭에 총계를 뷰로 드래그하면 부분합계를 출력할 수 있는 메뉴가 보이고 이를 선택하면 부분합계가 출력됩니다

-[분석] 멘유의 [총계]를 이용해서 총계의 위치나 계산값을 평균이나 최대/최소값으로 변경이 가능 

2)모델

=>95% CI의 평균 및 중앙값: 95% CI(Confidence Interval-신뢰구간)로 평균과 중앙값을 뷰에 표시

 =>추세선은 회귀 분석을 통해서 회귀 계수와 절편을 구한 후 선을 만들어주는 기능입니다

추세선은 선형,로그, 지수,다항식,거듭제곱으로 만들 수 있는데 일반적으로 R^2(결정계수)이 가장 높은 것을 선택합니다.

p-value는 유의확률이라고 번역하는데 이 값을 가지고 판단할 때는 작은 값을 선택합니다. 

=>예측은 회귀 분석의 결과로 다음 데이터를 예측하는 기능입니다.

지수 평활법을 이용하는데 지수 평활법은 과거 관측치에 시간의 흐름에 따른 가중치를 계산하여 미래를 예측하는 것입니다.

=>클러스터는 그룹화 기능

일반적으로 2개의 숫자 데이터로 만들어진 산포도에서 거리를 기반으로 그룹화를 수행해주는 기능입니다

클러스터링의 개념은 비지도학습으로 레이블이 없는 데이터를 가지고 분류를 해내는 것입니다.

 

7.Gannt Chart

1)개요

=>시간의 경과 또는 어떤 활동에 대한 기간을 표시하는데 사용하는 차트

=>프로젝트 매니저가 프로젝트의 수행 기간을 표시하고자 하는 상황에 이용

=>대부분 프로젝트 계획 단계에서 일정관리을 위해 작성

=>태블로에서 사용하는 간트 차트의 개념은 프로젝트를 완료 한 후 작성하는 것

태블로에서 만드는 것은 간트 차트의 개념에는 맞지 않습니다.

 

'Study > tableau 및 데이터 시각화' 카테고리의 다른 글

Tableau(4)  (1) 2024.02.06
tableau(2)  (0) 2024.02.01
Tableau(1)-기초  (0) 2024.01.31