1️⃣ 공공데이터는 흩어져 있다: ‘통합’이 먼저다
공공데이터를 활용한 시각화를 하다 보면 자주 마주치는 문제가 있습니다.
바로 필요한 정보가 한 곳에 다 모여 있지 않다는 점입니다.
예를 들어 지역별 교통사고 건수는 도로교통공단에서,
인구 수는 통계청에서, 그리고 응급의료기관 수는 보건복지부에서 제공되기도 하죠.
이처럼 각기 다른 기관이나 포털에서 제공되는 데이터들을 함께 분석하려면,
가장 먼저 해야 할 일은 데이터의 통합 작업입니다.
단순히 파일을 붙이는 것이 아니라, **공통된 기준(예: 지역, 연도, 항목)**을 맞춰서
한 데이터셋으로 구성할 수 있도록 구조를 정리하는 과정이 필요합니다.
여러 출처의 데이터를 섞기 전에는,
각 데이터가 어떤 단위로 기록되었는지, 어떤 기준으로 분류되었는지부터 확인해야 합니다.
이 작업이 제대로 되어야만 정확한 비교와 결합이 가능하고,
뒤따르는 시각화 단계도 오류 없이 진행할 수 있습니다.

2️⃣ 통합 전 체크리스트: 단위, 분류, 기간
공공데이터 통합에서 가장 흔하게 실수하는 부분은 단위 불일치입니다.
어떤 데이터는 '천 명 단위', 어떤 데이터는 '명 단위'로 표시되며,
심지어 연령대나 지역 코드가 서로 다르게 분류되어 있는 경우도 많습니다.
예를 들어 인구 수 데이터를 연령대별로 분석하려고 할 때,
한 데이터는 ‘10대’, ‘20대’ 식으로 되어 있고
다른 데이터는 ‘0세’, ‘64세’, ‘65세 이상’처럼 되어 있다면
바로 결합해서 사용할 수 없습니다.
이때는 분석 목적에 맞게 기준을 통일해야 합니다.
이처럼 **통합의 핵심은 ‘정렬’이 아니라 ‘정합성 확보’**에 있습니다.
또한, 기간이 일치하지 않는 경우도 있습니다.
교통사고 데이터는 2022년 기준인데 인구 수는 2020년이면
직접적인 비교 시 왜곡이 생깁니다.
따라서 데이터를 결합하기 전에는 반드시
✔ 단위 통일
✔ 분류 기준 통일
✔ 통계 시점 일치
이 세 가지를 먼저 체크해야 합니다.
3️⃣ 엑셀만으로 가능한 통합 시각화 워크플로우
많은 사람들이 “다양한 공공데이터를 통합하려면 복잡한 툴이 필요하다”고 생각하지만,
실제로는 엑셀 또는 구글 스프레드시트만으로도 충분히 가능합니다.
특히 서로 다른 표에 있는 정보를 병합할 때는 VLOOKUP 함수나 INDEX-MATCH 조합이 매우 유용합니다.
예를 들어, 한 파일에는 지역별 인구 수가,
다른 파일에는 같은 지역의 소방서 개수가 있다고 할 때,
두 데이터를 하나로 합치기 위해서는 ‘지역명’을 기준으로 열을 병합하면 됩니다.
이때 엑셀의 VLOOKUP 함수를 활용하면 자동으로 값을 찾아와 연결할 수 있습니다.
이렇게 하나의 테이블로 정리된 뒤에는,
각 항목을 비교하거나 비율을 계산해 시각화로 바로 활용할 수 있습니다.
Google 스프레드시트를 사용할 경우 IMPORTRANGE 함수를 활용하면
서로 다른 시트나 문서에서 데이터 자동 연동도 가능합니다.
데이터 양이 많지 않다면 이 방법으로도
충분히 전문적인 시각화 기반을 만들 수 있습니다.
4️⃣ 통합 시각화의 핵심은 ‘스토리라인 설계’
단순히 데이터를 합쳤다고 해서 좋은 시각화가 완성되진 않습니다.
진짜 중요한 건, 통합된 데이터를 바탕으로 어떤 메시지를 전달할 것인가입니다.
결합형 시각화의 목적은 ‘정보량을 늘리는 것’이 아니라
상관관계, 비교, 추세 등 다각도로 해석 가능한 콘텐츠를 만드는 것입니다.
예를 들어, 지역별 인구와 범죄 발생 수를 결합해 보여주면
“인구가 많은 지역이 범죄도 많은가?”라는 질문에 답할 수 있는 자료가 됩니다.
또는 실업률과 공공기관 개수, 문화시설 수 등을 통합하면
지역 활력이나 복지 수준을 시각적으로 보여줄 수 있죠.
이처럼 통합된 데이터는 ‘단일 수치’가 아니라
의미 있는 해석과 맥락을 제공하는 도구가 됩니다.
결과적으로는 시각화를 통해
“그렇다면 이 지역은 어떤 점이 부족한가?”
“어느 연령대에서 가장 차이가 나는가?” 같은
더 깊은 질문으로 이어지게 만들 수 있습니다.