데이터 엔지니어

[Tableau] (Day 10) Tableau Prep Builder를 통한 데이터 정리 본문

데이터 엔지니어링(Data Engineering)/대시보드(Dashboard)

[Tableau] (Day 10) Tableau Prep Builder를 통한 데이터 정리

kingsmo 2020. 9. 6. 23:49

강의

오늘은 태블로 교육의 마지막입니다! 마지막 강의는 시각화나 분석이 아닌 tableau prep builder를 통한 데이터 정리를 하는 시간이였습니다. 흔히 말하는 데이터 전처리 과정입니다.

제가 데이터 엔지니어링을 하고 싶고 좋아하는 이유가 여기에 있는데 분석의 스킬이나 기술도 중요하지만, 저는 분석의 데이터 인프라를 서포트하고 기본적인 전처리는 하여 분석에 용이한 데이터를 제공하는 부분도 중요하다고 생각했기 때문입니다.

tableua prep같은 경우도 인프라적인 요소는 포함은 못하지만 여러 곳에 산재된 데이터를 하나의 데이터로 'JOIN' 이나 'UNION'을 통해 통합 시켜주고 잘못된 Column이나 데이터의 차이들을 쉽게 볼 수 있는 도구입니다.

 

자세한 내용은 아래링크 참조해주시고 과제를 통해 보여드리겠습니다!

링크: www.youtube.com/watch?v=wK_u_doknzU


과제

과제하기에 앞서 UNION과 JOIN 개념을 먼저 설명드리겠습니다.

 

UNION(유니온)

Union은 같은 구조를 가진 집합(테이블) 여러 개를 하나의 집합(테이블)으로 합치는 것을 말합니다.
여기서 말하는 같은 구조라 함은 동일한 필드 개수, 필드명, 필드의 데이터 타입을 의미합니다.

 

JOIN(조인)
Join 은 기준 필드를 가지고 조인 형태에 따라, 두 개 이상의 집합을 연결 또는 결합하여 데이터를 출력하는 것을 말합니다. 조인형태는 DB에서 처럼 inner join, outer join, left, rigth 다 가능합니다.


1. 안쪽 (Inner) 조인

아래와 같이 지역 filed를 기준으로 inner join을 하면 지역에 같은 값들끼리 옆으로 합쳐진 것을 볼 수 있습니다.

2. 왼쪽 (Left Outer) 조인

inner join에서 나오지 않았던 서울경기가 추가된 것을 확인할 수 있습니다. 오른쪽 테이블에선 없는 정보지만 left 테이블 기준으로 조인하였기 때문에 null과 함께 조인 된 것입니다!

3. 오른쪽 (Right Outer) 조인

left join에 반대로 생각하시면 됩니다. 서울경기가 포함된 행이 빠지고 right 테이블 기준으로 join 항목이 없어도 전부 포함됨을 볼 수 있습니다.

모든 join에 대해서는 설명하지 않았지만 기준 field(column)기준으로 (left / right), (inner / outer) 조인을 사용하면 어떤 데이터가 나올지 감이 잡히 셨을 겁니다. 이제 진짜 과제를 시작해 보도록 하겠습니다.

 

4개년 치 매출데이터 + 지역별 관리자 + 반품데이터 -> 하나의 데이터로 만들기

1. 영업 실적 201x년 4개년 데이터를 드래그로 파일을 올려줍니다.

2. 아래와 같이 데이터를 드래그해서 겹쳐놓으면 join을 할지 union을할 지 선택해주는데 저희 같은경우 4년치 데이터를 쭈루룩 보여줘야 하기 때문에 union으로 각 4개의 데이터를 하나의 union으로 묶어줍니다.

3. 유니온에 관리자 파일을 가져와 조인을 해줍니다.

4. 조인1을 살펴보면 아래와 같이 9,168개만 조인이 되고 1,832개는 포함되지 않은 것을 확인할 수 있습니다. 

4. 조인 다음에 정리단계를 추가해줍니다. 지역 필드에서 서울경기 값을 클릭하면 2018년 데이터에만 하이라이트 됨을 볼 수 있습니다. 서울경기와 수도권이 같은 데이터임을 확인하였고 ctrl키를 사용하여 두 필드를 겹쳐주면 하나의 필드가 됩니다.

5. 반품 데이터를 가져와 조인해 줍니다. 기본은 inner join입니다.

6. 하지만 위에서처럼 데이터를 하면 반품 없는 주문 데이터는 전부 날아가게 됩니다. 그렇게 되면 안되므로 주문테이블이 왼쪽이라 생각하고 left join을 합니다. (조인1의 왼쪽 빈 그림 클릭하면 됩니다.)

7. 마지막 단계에 정리 단계를 추가하여 중복 field들을 제거해줍니다.

8. 아래와 같이 정리를 전부 다 한후 출력메뉴를 통해 새로운 데이터로 만들어줍니다.

 

오늘은 data prep을 사용하는 법을 배웠네요. 개인적으로 재밌는 도구였던 것 같습니다. 저렇게 파이프라인 비슷하게 도식화하는 게 재밌네요 ㅎㅎ


드디어 마지막 과제가 끝났습니다! 대부분 태블로 사용법을 익히는 수업이였으나, 데이터를 만져보고 여러가지 시각화를 해보며 시각화에 대해 바라보는 시각이 더 넓어짐을 느꼈습니다. 태블로라는 도구를 잘 사용하여 대시보드의 사용 목적에만 달성하면 충분히 매력적인 도구라는 것을 느낀 10일간의 교육이였습니다. 다들 감사합니다~

Comments