반응형

1️⃣ 시각화 전에 꼭 짚어야 할 ‘데이터 구조’란?

공공데이터 시각화를 시작할 때 많은 초보자들이 ‘그래프를 어떻게 만들까?’에만 집중합니다.
하지만 그보다 앞서 반드시 선행되어야 하는 단계가 있습니다.
바로, 자료의 구조를 먼저 파악하는 것입니다.
자료 구조란, 데이터를 구성하고 있는 **행(row), 열(column), 변수(variable), 항목(category)**의 관계와
해당 데이터가 어떤 단위로 기록되어 있는지, 어떤 형식인지를 이해하는 과정입니다.
예를 들어, 같은 “인구 수” 데이터라 하더라도
‘연도별’, ‘시도별’, ‘연령대별’로 분류되어 있다면 이 데이터는 다층적 구조를 가집니다.
이걸 무시한 채 단순히 그래프를 그리면, 정보의 흐름이 왜곡되거나
잘못된 비교가 포함된 오류 시각화로 이어질 수 있습니다.
즉, 데이터를 읽지 않고는 시각화도 없다는 말처럼,
시각화를 시작하기 전에는 반드시 자료 구조를 먼저 분석하고,
전체 구성 맥락을 이해하는 과정이 필요합니다.

공공데이터 시각화 전 자료 구조를 먼저 이해해야 하는 이유

 

2️⃣ 공공데이터는 ‘정형’이지만 항상 ‘정리된’ 것은 아니다

공공데이터는 일반적으로 정형 데이터, 즉 표(table) 형식으로 제공됩니다.
하지만 실제로 열어보면 값이 누락되었거나설명 행이 중간에 끼어 있거나,
단위가 통일되지 않은 등 정리되지 않은 데이터가 매우 많습니다.
예를 들어, 환경부의 대기오염 통계를 보면
1열에는 지역, 2열에는 측정소 이름, 3열부터는 PM10 수치가 있는데,
일부 측정소는 데이터가 아예 빠져 있거나, ‘-’로 처리돼 있기도 합니다.
또는 교육부의 학교별 통계처럼, 표 상단에 설명 행이 두세 줄 섞여 있어서
분석 가능한 데이터만 추출하려면 구조 이해가 필수입니다.
이처럼 정형 데이터라 해도 시각화를 위한 ‘정제 전 처리’는 반드시 필요하며,
이를 가능하게 하는 전제 조건이 바로 자료 구조에 대한 사전 이해입니다.
구조를 모르면 어떤 열을 기준으로 비교할지,
어떤 값을 시각화 대상에서 제외할지 판단하기 어렵습니다.
 

3️⃣ 분석 목적에 따라 구조 이해 방식도 달라진다

자료 구조를 이해한다는 것은 단순히 데이터를 ‘읽는 것’이 아닙니다.
‘무엇을 보여줄지’에 따라 구조를 다르게 해석해야 한다는 뜻이기도 합니다.
같은 데이터라도 비교 중심인지, 흐름 중심인지, 상관관계 중심인지에 따라
시각화를 위한 접근 방식도 달라집니다.
예를 들어 지역별 인구 수 데이터를 보고 ‘2024년 기준 인구 TOP5’를 보여주려면
1년치 데이터만 추출하면 됩니다.
반면 인구 변화 추이를 보여주려면 연도별 행 구조를 고려해야 하고,
남녀 성비 변화를 보려면 성별 항목이 어떤 열에 위치해 있는지를 먼저 파악해야 합니다.
즉, 구조를 이해하면 데이터의 분석 방향을 결정할 수 있고,
자연스럽게 어떤 시각화 유형이 적절한지도 판단할 수 있게 됩니다.
엑셀, 구글시트, 파이썬 등 어떤 툴을 사용하든지
구조에 기반하지 않은 시각화는 의도 전달이 불가능합니다.
 

4️⃣ 시각화 작업의 70%는 ‘자료 구조 정리’다

전문가들은 말합니다.
좋은 시각화는 데이터 구조 분석에서 시작된다.”
실제로 시각화 작업의 대부분은 차트를 만드는 것이 아니라,
자료를 보고 쓸 수 있는 상태로 가공하는 시간에 소모됩니다.
가장 흔한 실패 사례는 구조를 제대로 보지 않고 바로 차트를 그리는 경우입니다.
이럴 땐 막대그래프를 만들었는데 값이 이상하게 나오거나,
범례가 겹치고, 축이 꼬이고, 시각화가 데이터와 전혀 다른 방향으로 왜곡되곤 합니다.
결국 다시 처음부터 데이터를 확인해야 하는 상황이 반복되죠.
📌 그래서 시각화 전에는 반드시 다음 질문을 해보세요:

  • 이 데이터는 어떤 단위를 기준으로 정리되어 있나?
  • 각 열은 무엇을 의미하고, 어떤 관계가 있나?
  • 누락값이나 오류값은 어떤 식으로 표현되어 있나?
  • 시각화하고자 하는 내용과 일치하는 구조인가?

이러한 점검만으로도 잘못된 시각화, 정보 왜곡, 시간 낭비를 막을 수 있으며
자료 구조 이해만 제대로 되어 있어도, 시각화의 완성도는 급격히 올라갑니다.
 

반응형