반응형

1️⃣ 숫자만 시각화한다고요? 텍스트에도 구조가 있습니다

공공데이터 하면 대부분 숫자로 구성된 정량 데이터를 떠올리기 쉽습니다.
하지만 요즘은 설문 결과, 민원 내용, 뉴스 기사, SNS 의견
‘텍스트 데이터’ 역시 중요한 분석 자원이 되고 있습니다.
이처럼 **정해진 형식 없이 자유롭게 쓰인 데이터를 ‘비정형 데이터’**라고 부르며,
이를 시각화하면 단순 수치 이상으로 사람들의 의견이나 흐름을 한눈에 파악할 수 있습니다.

예를 들어, 국민신문고의 민원 데이터를 활용해
‘가장 많이 등장한 단어’를 분석하면,
국민들이 어떤 이슈에 불만이 많은지 시각적으로 보여줄 수 있죠.
또한, 정부 보도자료나 정책 설명서에 반복 등장하는 단어를 분석하면
해당 부처의 관심사와 우선순위까지 파악 가능합니다.

이처럼 텍스트 기반 데이터는 숨어 있는 핵심 메시지를 시각적으로 드러내는 데 매우 효과적입니다.
단순한 표나 숫자 대신, 사람들의 생각, 흐름, 사회적 이슈까지 시각적으로 표현할 수 있다는 점에서
텍스트 데이터의 시각화는 공공데이터 분석에서 점점 더 중요해지고 있습니다.

텍스트 데이터의 키워드 분석과 시각화 방법
텍스트 데이터의 키워드 분석과 시각화 방법

 

2️⃣ 키워드 분석이란? 핵심어를 뽑아내는 첫 단계

텍스트 데이터를 시각화하려면 먼저 키워드 분석을 진행해야 합니다.
여기서 말하는 키워드 분석이란, 텍스트에 자주 등장하는 단어나 구절을 정리해
가장 핵심적인 단어를 파악하는 과정을 의미합니다.
이는 보통 다음과 같은 과정을 통해 이루어집니다.

  1. 불필요한 단어(조사, 접속사 등)를 제거
  2. 형태소 분석기로 명사, 동사 등 핵심어만 추출
  3. 같은 뜻의 단어는 통합(예: 코로나19=코로나)
  4. 등장 빈도수를 기준으로 정렬

이 작업은 Python의 KoNLPy, Okt, Mecab 같은 형태소 분석기나
무료 웹 도구(예: 네이버 뉴스 키워드 분석기, Voyant Tools)로도 가능합니다.
엑셀만으로도 텍스트를 정제하고 빈도 분석표를 만들어 차트화할 수 있으며,
간단한 수준에서는 COUNTIF 함수만으로도 키워드 수를 셀 수 있습니다.

이 과정을 거치면, 어떤 키워드가 중심에 있고,
그 단어들이 얼마나 자주 등장하는지
를 수치로 파악할 수 있어
다음 단계인 시각화가 훨씬 수월해집니다.

 

3️⃣ 텍스트를 이미지처럼 보여주는 시각화 방법 3가지

키워드 분석이 완료됐다면 이제는 이를 시각적으로 표현해야 합니다.
대표적인 방법은 다음과 같습니다:

① 워드클라우드

가장 흔하면서도 효과적인 방식입니다.
단어의 빈도에 따라 글자 크기나 색상을 달리해 배치하며,
‘한눈에 주요 키워드’를 파악할 수 있습니다.
무료 도구인 WordArt.com, MonkeyLearn, TagCrowd 등을 이용하면
파일 업로드만으로 손쉽게 시각화가 가능합니다.

② 키워드 히트맵

엑셀이나 구글시트에서 단어별 등장 횟수를 색상으로 시각화하는 방식입니다.
예를 들어 ‘불편’, ‘가격’, ‘대기시간’ 같은 단어가 얼마나 반복됐는지
강조 색상으로 보여줄 수 있어, 텍스트 분석 결과를 숫자로 정리하면서도 시각적으로 표현할 수 있습니다.

③ 네트워크 차트

‘어떤 단어가 함께 자주 등장했는가’를 보여주는 방식입니다.
예를 들어 ‘교통’과 ‘혼잡’, ‘서울’과 ‘지하철’이 자주 함께 등장한다면
이 단어들을 선으로 연결해 시각화하면, 키워드 간 관계도 파악할 수 있습니다.
Python의 NetworkX, Gephi, 또는 Flourish 플랫폼 등을 이용하면 구현 가능합니다.

이러한 시각화 방식은 정보 전달은 물론, 블로그나 카드뉴스에서도 시선을 끄는 콘텐츠로도 활용도가 높습니다.

 

4️⃣ 실전 적용 예시: 국민 불편 키워드 분석 리포트

예시로, 국민신문고 민원 데이터를 기반으로
‘2023년 한 해 동안 가장 많이 접수된 민원 키워드 TOP 20’을 분석해본다고 가정해봅시다.
엑셀에서 민원 내용을 수집한 후,
‘불편’, ‘대기’, ‘소음’, ‘시설’, ‘혼잡’, ‘환불’ 등 명사를 추출하고
등장 횟수를 기준으로 정렬한 뒤, 워드클라우드로 시각화합니다.

결과적으로 ‘소음’, ‘불편’, ‘시설’이 크게 나타났다면
“공공시설 관련 불편 민원이 다수를 차지했다”는 사회적 인사이트까지 도출 가능하죠.
여기에 지역별 분석을 추가하면 “어느 지역에서 어떤 키워드가 가장 많았는지”
히트맵 차트로 표현할 수 있고,
시간대별로 키워드 분포를 나누면 트렌드까지 추적할 수 있습니다.

이처럼 텍스트 데이터 시각화는 수치로 표현하기 어려운 사람들의 감정, 관심사, 이슈
한눈에 보여주는 데 강력한 도구입니다.
공공데이터에 한정하지 않고, 블로그 댓글, 포털 기사, 카페 게시글 등에서도 활용 가능하여
실제 콘텐츠 제작 현장에서도 매우 유용하게 쓰일 수 있습니다.

반응형