반응형

1️⃣ 시각화 성공의 80%는 전처리에서 결정된다

공공데이터 시각화에서 가장 중요한 단계는 무엇일까요? 대부분 사람들은 차트 디자인, 색상, 도구 선택 등을 먼저 떠올리지만,
실제로 **시각화의 품질을 결정짓는 핵심은 '전처리'**입니다.
전처리는 수집한 데이터를 목적에 맞게 정리, 정제, 필터링, 변환하는 일련의 과정으로,
이 단계가 제대로 이루어져야만 정확하고 의미 있는 시각화가 가능합니다.

특히 공공데이터는 정부 부처나 지자체가 제공하는 원자료가 많아,

  • 불필요한 열이 포함되어 있거나
  • 표기 방식이 제각각이거나
  • 결측값(null)이나 오류값이 존재하거나
  • 텍스트와 숫자가 섞여있는 경우가 많습니다.

예를 들어, 서울시 버스 이용 통계를 시각화한다고 가정할 때,
‘2023.01’처럼 날짜가 문자열로 되어 있다면 꺾은선 그래프가 정상적으로 생성되지 않습니다.
또는 ‘합계’, ‘계’, ‘기타’ 등 분석에 불필요한 합산 행이 포함돼 있으면 왜곡된 시각화가 만들어지죠.
따라서 데이터를 시각화하기 전에 반드시 **‘정확한 형태로 변환하고 구조를 정리하는 작업’**이 필요합니다.

 

시각화를 위한 공공데이터 전처리, 꼭 알아야 할 포인트

 

2️⃣ 실무에서 자주 하는 공공데이터 전처리 항목 정리

공공데이터를 시각화할 때 가장 자주 하는 전처리 작업은 다음과 같습니다:

✅ ① 불필요한 열 삭제

  • 설명용 열, 코드열, 비고란 등 시각화에 필요 없는 열은 미리 제거
  • 예: “기관명”, “자료 기준일자” 등이 중복되거나 불필요할 경우 과감히 삭제

✅ ② 결측치 및 이상값 처리

  • NA, NULL, ‘-’, 공백 등은 시각화 도구에서 오류를 유발하므로
  • → “0”으로 채우거나, 행 자체를 제거하거나, 평균값으로 대체하는 방식으로 처리
  • 예: 월별 기온 평균이 누락된 행은 선그래프 단절 현상이 발생할 수 있음

✅ ③ 숫자 형식 통일

  • 쉼표(,) 제거, 소수점 자리 정리, 텍스트로 입력된 숫자 형변환 필요
  • 예: “1,250” → “1250”, “25%” → “0.25”로 변환

✅ ④ 날짜 포맷 정리

  • “2023년 1월”, “23.01”, “2023.01.01” 등 날짜 형식이 통일되지 않으면
  • 시계열 분석/시각화에서 축이 깨짐
  • → yyyy-mm-dd 형태로 일괄 변환

✅ ⑤ 필터링 및 그룹핑

  • 시각화에 필요한 특정 연도, 지역, 분류만 선택
  • 예: 2020~2023년 수도권 자료만 필터링하여 집중 시각화

이러한 작업은 Excel, Google Sheets, Python(pandas), 또는 Tableau Prep, Power Query 등의 도구로 간편하게 수행할 수 있으며,
초보자라면 엑셀에서 필터 → 정렬 → 수식 → 변환 과정을 반복하면서 데이터를 다듬는 습관을 들이는 것이 중요합니다.

 

3️⃣ 시각화 목적에 따라 전처리 방식도 달라진다

데이터 전처리는 단순히 ‘깨끗하게 만드는 것’이 아니라,
‘내가 무엇을 시각화할 것인가’를 먼저 정하고 거기에 맞게 데이터를 다듬는 일입니다.
즉, 시각화의 목적에 따라 전처리의 방향이 달라져야 합니다.

예를 들어 다음 두 가지 경우를 비교해봅시다:

▶ A. 지역별 비교 그래프를 만들고자 할 때

  • 동일한 단위, 동일한 기준으로 비교 가능한 열만 선택
  • 예: 지역별 인구수, 실업률 등 → 단위(명, %, 지수) 일치시켜야 함
  • 불필요한 합계/기타 지역은 제거

▶ B. 시간 흐름에 따른 추이를 보고자 할 때

  • 날짜 형식 통일 + 누락 구간 확인
  • 월/분기 단위로 그룹핑 → 시계열 형태로 배열
  • 예: “2020.01”, “2020.02”… 순서 정렬 필요

이처럼 전처리는 데이터를 어떻게 시각화할지 명확히 이해한 상태에서 접근해야 하며,
막연히 ‘다듬는 것’이 아니라 ‘목적에 맞는 구조를 설계하는 것’이라고 보는 것이 정확합니다.

전처리를 대충 넘기면, 차트에서 축이 엉키거나, 범례가 이상하게 출력되거나,
그래프가 해석 불가능한 형식으로 나오는 오류가 발생할 수 있으므로
“전처리는 시각화의 설계 단계”라고 반드시 인식해야 합니다.

 

4️⃣ 전처리를 도와주는 툴과 자동화 팁

공공데이터를 자주 다루는 블로거나 콘텐츠 제작자에게 전처리는 반복 작업이 될 수 있습니다.
이때는 자동화 가능한 전처리 도구나 템플릿을 활용하면 효율성이 극대화됩니다.

✅ 초보자에게 추천하는 도구

  • Excel / Google Sheets: 손쉬운 필터, 수식, 텍스트 나누기 기능
  • Tableau Prep: 시각적 인터페이스로 데이터 흐름 설계 가능
  • Power BI + Power Query: 복잡한 데이터 정제도 자동화 가능
  • OpenRefine: 대량의 데이터 클렌징에 적합한 무료 도구

✅ 자동화 팁

  • 반복 사용하는 파일에선 ‘정제용 템플릿’을 만들어 저장
    → 예: ‘날짜 형식 통일’, ‘NA 제거’, ‘필요열만 남기기’ 매크로 저장
  • 구글 시트의 앱스 스크립트, 파이썬(pandas) 스크립트로 반복 작업 자동화
  • 시각화 도구 연결 전 ‘전처리 완료 파일(.csv)’ 저장 원칙

전처리가 완성도 있게 마무리되면, 이후 시각화 작업은 훨씬 빠르고 정확해지며
콘텐츠의 신뢰성과 전문성까지 한층 높아집니다.

반응형