반응형

1️⃣ 정형 vs 비정형 데이터, 그 차이를 먼저 이해하자

공공데이터를 시각화하기에 앞서 반드시 이해해야 할 개념이 바로 데이터의 유형,
즉 ‘정형 데이터’와 ‘비정형 데이터’입니다.

**정형 데이터(Structured Data)**란 엑셀처럼 행과 열로 깔끔하게 정리된 데이터를 의미합니다.
숫자, 날짜, 카테고리 등의 값이 표 형태로 구성돼 있어 데이터 분석 및 시각화에 가장 적합합니다.

반면 **비정형 데이터(Unstructured Data)**는 일정한 구조가 없는 데이터입니다.
텍스트, 이미지, 영상, 음성, PDF, 문서 파일 등 자유로운 형태로 존재하기 때문에
바로 시각화에 사용하기에는 어려움이 많고, 전처리와 해석 과정이 반드시 필요합니다.

예를 들어 “서울시 일별 기온”은 정형 데이터입니다.
하지만 “SNS에서 언급된 지역별 관광지 키워드”는 비정형 데이터로 분류되며,
텍스트 마이닝과 같은 전처리 과정을 거쳐야만 시각화가 가능합니다.

 

시각화에 강한 공공데이터 유형은? 정형 vs 비정형 비교 분석
시각화에 강한 공공데이터 유형은? 정형 vs 비정형 비교 분석

2️⃣ 시각화에 최적화된 정형 데이터의 특징

정형 데이터는 시각화에 있어 가장 기본적이면서도 효율적인 형태입니다.
대부분의 공공데이터 포털이나 통계청 자료가 이 정형 데이터 형식을 따릅니다.
정형 데이터가 시각화에 유리한 이유는 다음과 같습니다:

  • 숫자 기반이기 때문에 시계열, 막대, 꺾은선, 파이차트 등 다양한 차트 형태에 바로 적용 가능
  • 필드 간 연관 분석이 쉬워 대시보드 구성이 유리
  • 복수의 데이터셋을 비교하거나 합치는 ‘조인’ 작업도 간단

대표적인 정형 공공데이터 예시는 다음과 같습니다:

  • 지역별 인구 수
  • 월별 교통사고 발생 건수
  • 연도별 산업 생산지표
  • 지자체별 복지 예산 현황
  • 교육기관 수 및 학생 수

이러한 데이터는 Datawrapper, Tableau, 구글 시트 등 대부분의 시각화 도구에서 바로 인식되며,
시각화 제작자가 디자인에만 집중할 수 있게 해주는 이상적인 자료입니다.

 

3️⃣ 비정형 데이터도 시각화가 가능할까?

비정형 데이터는 처음부터 시각화에 적합하진 않지만,
적절한 가공과 해석을 거친다면 정형 데이터 못지않은 시각화 가치를 가질 수 있습니다.
대표적인 방법이 다음과 같습니다:

  • 텍스트 데이터 → 형태소 분석 → 워드클라우드, 키워드 빈도 차트
  • 리뷰/설문 데이터 → 긍·부정 분석 → 감성 그래프
  • 이미지 데이터 → 범주 태깅 → 비율형 차트 구성

예를 들어, “국민신문고 민원 텍스트” 데이터를 활용해
월별 주요 키워드의 변화 추이를 꺾은선그래프로 표현하거나,
비정형적인 ‘리뷰 데이터’를 긍정/부정으로 분류해 막대그래프로 시각화하는 것도 가능합니다.

이러한 작업은 보통 Python, R 같은 프로그래밍 언어나
‘텍스트마이닝 도구(예: KoNLPy, Orange)’를 활용한 후
정형 데이터로 변환한 뒤 시각화 툴로 넘겨주는 방식으로 진행됩니다.

 

4️⃣ 어떤 유형을 선택해야 할까? 시각화 목적에 따라 달라진다

정형과 비정형 중 어떤 데이터를 사용할지는 시각화의 목적에 따라 달라집니다.
다음은 선택 기준을 정리한 표입니다:

시각화 목적적합한 데이터 유형예시
수치 비교, 지역별 차이 정형 데이터 예산, 인구, 환경 통계
텍스트 기반 감성 전달 비정형 데이터 민원, 뉴스, SNS
트렌드 분석 둘 다 기온 변화 + 뉴스 키워드
스토리텔링 콘텐츠 비정형 후 가공 공공기관 보고서, 언론 기사
보고서용 데이터 시각화 정형 지표 기반 통계 자료
 

정형 데이터는 블로그나 리포트용 콘텐츠로 바로 활용할 수 있다는 장점이 있으며,
비정형 데이터는 콘텐츠의 독창성과 차별화를 줄 수 있는 포인트로 활용됩니다.
특히 최근에는 정형+비정형 데이터를 함께 활용한 복합형 시각화 콘텐츠가 주목받고 있어
초보자라면 정형 데이터를 중심으로 연습하고,
차차 비정형 데이터 시각화로 확장해 나가는 전략이 좋습니다.

반응형