1️⃣ 비정형 데이터란 무엇인가? 공공데이터에도 많다
우리가 흔히 ‘데이터 시각화’라고 하면 수치와 표로 이루어진 정형 데이터를 먼저 떠올립니다.
하지만 실제 공공데이터의 상당수는 비정형 데이터로 존재하며,
이는 숫자 외의 텍스트, 이미지, 위치, 오디오, 영상, 자유 서술형 응답 등 구조화되지 않은 정보를 말합니다.
예를 들어, 국민신문고 민원 내용, 정책 설문조사의 서술형 응답, 뉴스 기사, SNS 댓글, 정책 홍보 콘텐츠 등은
숫자가 아닌 언어와 이미지로 구성된 비정형 데이터입니다.
이러한 데이터는 수치처럼 엑셀에 표로 정리하기 어렵기 때문에,
시각화를 통해 정보를 인사이트 중심으로 재구성해야 합니다.
이 글에서는 수치화가 어려운 공공데이터를 ‘어떻게 시각화할 수 있을지’,
텍스트 중심 비정형 데이터를 어떤 도구로, 어떤 구조로 시각화할 수 있는지에 대해 설명합니다.
2️⃣ 텍스트 기반 비정형 데이터의 대표 시각화 방법
비정형 데이터 중 가장 대표적인 것은 **자유 텍스트(Free Text)**입니다.
이는 시민 설문, 민원 접수 내용, 정책 건의 사항 등에서 자주 발견되며,
의미 있는 단어를 시각적으로 추출하고 정리하는 것이 핵심입니다.
여기에는 다음과 같은 방법이 활용됩니다:
✅ ① 워드클라우드(Word Cloud)
- 가장 많이 등장하는 단어일수록 크게 표시되는 시각화 기법
- 국민이 어떤 이슈에 관심을 가졌는지 한눈에 파악 가능
- 예: 2024년 청년 정책 건의사항을 워드클라우드로 시각화 → “취업”, “주거”, “자격증”, “등록금” 등이 부각
👉 활용 툴: WordArt.com, MonkeyLearn WordCloud
✅ ② 키워드 네트워크 분석
- 단어들 간의 연관성/동시 등장 빈도를 시각적 망(network)으로 표현
- 예: “환경 + 탄소 + 기업 + 벌금” 같이 정책 연결고리를 시각화
👉 활용 툴: Gephi, InfraNodus
✅ ③ 감성 분석 시각화
- 텍스트를 긍정/부정/중립으로 분류하여 시각화
- 민원 내용 또는 SNS 여론 분석에 적합
- 바차트 또는 열지도(Heatmap) 형태로 표현 가능
👉 활용 툴: Python의 TextBlob, KoNLPy + 시각화는 Datawrapper
텍스트 기반의 시각화는 단어 빈도만 보는 것에서 끝나지 않고,
맥락과 흐름까지 보여줄 수 있는 구조로 발전시켜야 실질적인 인사이트를 제공합니다.
3️⃣ 이미지, 위치, 멀티미디어 데이터의 시각화 전략
텍스트 외에도 사진, 영상, 위치 데이터 등도 대표적인 비정형 데이터입니다.
특히 공공데이터에서 이런 비정형 정보는 시민참여형 콘텐츠에서 자주 등장합니다.
✅ ① 위치 정보 시각화 (Geo Data)
- 자유롭게 수집된 위치 텍스트를 지도 위에 시각화
- 예: “서울시 미세먼지 민원”을 지도 위에 핀 형태로 표시 → 지역별 불만 분포 시각화
👉 활용 툴: 카카오맵 커스텀 오버레이, Mapbox, Google MyMaps
✅ ② 이미지 시각화
- 이미지 메타데이터(촬영 위치, 날짜, 주제 태그)를 추출해 시간순·공간순 정렬
- 예: 시민이 제보한 불법 쓰레기 투기 이미지 → 날짜·위치별 갤러리 시각화
👉 활용 툴: Juxtapose, Canva 갤러리 구성
✅ ③ 영상/오디오 데이터 요약 시각화
- 영상의 주요 장면 또는 오디오의 감정 분석 결과를 타임라인 형태로 시각화
- 정책 홍보 영상의 시청 구간 분석, 민원 통화 음성 감정 분석 등에 활용
👉 활용 툴: Python 기반 Timeline.js, Adobe Express
이러한 비정형 콘텐츠를 시각화할 때 중요한 것은 “시청자가 한눈에 흐름과 구조를 파악할 수 있는 설계”입니다.
따라서 단순히 이미지/영상만 나열하는 것이 아니라, 분류 기준 + 시간 흐름 + 공간 배치가 함께 조화를 이뤄야 효과적입니다.
4️⃣ 비정형 데이터 시각화를 위한 도구와 실제 적용 사례
키워드: 공공데이터 시각화 도구, 실제 사례, 시각화 템플릿
비정형 데이터 시각화는 구조화된 데이터처럼 엑셀에 바로 넣을 수 없기 때문에,
시각화 툴 선택과 콘텐츠 설계가 중요합니다.
다음은 실전에서 활용하기 좋은 무료 도구와 사례입니다.
🛠 추천 도구 목록
- Text 분석 → 시각화: MonkeyLearn, Voyant Tools
- 이미지/위치 시각화: Google Data Studio + My Maps 연동
- 카드뉴스형 시각화: Canva, Piktochart
- 감정 분석 + 시각화: Python KoNLPy + Matplotlib / Seaborn
- 연관어 분석 시각화: InfraNodus, Gephi
🧩 실제 사례 예시
- 국민신문고 민원 키워드 시각화
→ “가장 많이 나온 단어: 안전, 층간소음, 교통”을 워드클라우드로 표현 - SNS에서 특정 정책에 대한 반응 분석
→ 감정 분석 + 시간별 댓글 수 바차트 - 사진 공모전 참가작 정리
→ 위치 정보 + 촬영 테마로 구성된 이미지 지도
이처럼 비정형 데이터는 수치처럼 계산되진 않지만,
시민의 감정, 경험, 인식 구조를 시각적으로 보여주는 강력한 콘텐츠 소스입니다.
데이터 자체보다 ‘무엇을 보여주고 싶은가’에 따라 시각화 설계 방향이 달라져야 합니다.