인터넷 댓글

우세하던 고민정, 빅데이터는 낙관 못해 [총선 빅데이터-서울 광진을] 임주언 기자 입력 2020.04.13. 04:04 댓글 1158개 음성 기사 듣기 번역 설정

목사골 최 2020. 4. 13. 08:28

우세하던 고민정, 빅데이터는 낙관 못해 [총선 빅데이터-서울 광진을]


임주언 기자 입력 2020.04.13. 04:04

사진=연합뉴스

서울의 대표 격전지인 광진을 고민정 더불어민주당 후보와 오세훈 미래통합당 후보에 대한 SNS 빅데이터 민심은 투표일이 가까워질수록 오리무중에 빠져들고 있다. 정치 신인, 현 정부 대변인 출신 프리미엄 덕에 부정 언급이 적었던 고 후보와 관련된 부정 감성이 최근 증가 추세인 탓이다. 최근 여론조사는 고 후보가 오 후보와의 격차를 벌리고 있는 것으로 나왔지만, 디지털 민심 빅데이터 추이에선 낙관하긴 이르다는 분석이다.

고 후보와 오 후보가 언급된 소셜 빅데이터(지난달 20일부터 지난 9일까지 기준) 감성 분석 결과 고 후보에 대한 긍정 감성 비율은 33.4%로 오 후보(26.9%)를 살짝 앞질렀다. 같은 기간 부정 감성 비율도 고 후보(24.7%)가 오 후보에 비해 11.8%포인트 낮았다. 전체 감성 평가 점수 상으로는 고 후보가 소폭 유리한 상황이다.

주목할 부분은 고 후보에 대한 부정 감성 비율 추이다. 기성 정치인이 아니었던 고 후보의 경우 초반에는 부정적 평가가 많지 않았다. 지난달 20일부터 이달 5일까지 부정 비율이 30%를 넘었던 날은 이틀뿐이었다. 하지만 선거운동이 진행되면서 부정 감성 비율이 증가세를 보였다. ‘대통령의 입’ 역할만 했던 고 후보를 유권자들이 본격적으로 정치인으로 인식하면서 부정감성이 늘어난 것으로 해석된다.

지난 5일 밤 방영된 TV토론회가 영향을 미쳤을 가능성도 있다. 이 날 두 후보는 서로를 공격하는데 주력했다. 오 후보는 현 정부를 비판하고, 고 후보의 학력 기재 문제를 제기했다. 고 후보는 오 후보의 금품 제공 의혹과 무상급식 문제를 주무기로 삼았다. ‘네거티브전’ 이후 양쪽 모두 부정감성 비율이 치솟았지만, 상대적으로 초반 여론이 좋았던 신인 고 후보 측에 불리할 수 있다고 전문가들은 분석한다.

이는 기존 여론조사와는 조금 다른 양상이다. MBC가 (주)코리아리서치인터내셔널에 의뢰해 지난 6~7일 서울 광진을 선거구 거주 유권자 504명을 대상으로 조사한 결과 고 후보는 50.9%,로 오 후보(40.1%)를 크게 앞섰다. 3주전 MBC 조사에서 1.9%포인트 차이였던 두 후보 간 격차가 오차범위 밖으로 벌어진 것이다. 그러나 디지털 민심 빅데이터 분석에서는 두 후보 모두 부정 감성이 증가하는 가운데 고 후보의 부정평가가 유의미하게 늘어나는 초접전 지역으로 분석됐다.

연관어 분석에서는 광진을 선거구가 현 정권에 대한 중간평가 성격을 띤다는 점이 다시 확인됐다. 고 후보의 상위 50개 연관어에는 ‘임종석’ ‘추미애’ ‘문 대통령’ 등 문재인 대통령 관련 인물들이 많았다. 정치 신인인 고 후보 지지층이 ‘문재인 마케팅’에 반응한 결과로 해석된다. 오 후보의 경우 ‘정치인’ ‘선거관리’가 눈에 띄었다. 정치경력이 상대적으로 긴 오 후보에게 기성 정치인의 이미지가 작용한 것으로 보인다.

어떻게 분석했나

국민일보는 경기대 빅데이터센터(센터장 장석진) 김택환 교수팀과 공동으로 지난달 20일부터 지난 9일까지 SNS상에 올라온 주요 격전지 6곳 후보자에 대한 유권자 평가글 52만여 건을 텍스트 마이닝(text mining) 기법으로 추출해 분석했다. 트위터, 블로그, 인스타그램 등을 대상으로 ‘감성 연관어 분석’ 방식을 적용했다. 글에 나타난 긍·부정 감정 평가 알고리즘을 만들어 점수화한 것으로 2012년 미국 대선에서는 오바마 캠프가 여론 파악을 위해 활용했었다. 유권자가 설문에 답하는 여론조사와는 달리 SNS 상에 드러난 유권자 감정을 직접 분석, 디지털 민심을 유추하는 기법이다. 조사는 웹데이터 수집 전문회사 리스틀리와 빅데이터 분석 업체 언노운데이터에 의뢰했다.

텍스트 마이닝 기법으로 추출한 감성 빅데이터 분석에서는 부정 감성 연관어 비중이 당락 예측의 가장 중요한 기준이 된다. ‘싫다’ ‘나쁘다’ 같은 부정 표현이 ‘좋아요’ 같은 긍정 표현보다 감정 표출 면에서 적극적이기 때문이다.

데이터 분석업체는 긍정 부정의 감성어 비중이 하루 이틀 요동치고 원래자리로 돌아오는 현상은 당락에 큰 의미가 없다고 보고 있다. 후보자에 대한 감정이 굳어지는 추세가 중요하기 때문이다. 그래서 이슈가 터진 뒤 곧 사라지는 키워드들은 표준편차값을 통해 제거했다.

지난 20대 총선 데이터를 기반으로 모델링을 했을 때도 일시적 요동은 당락에 큰 영향을 미치지 못한 것으로 분석됐다. 다만 유권자 감정에 영향을 미치는 이슈 발생 이후 추세가 움직이면 분석가치가 높다. 선거일에 임박해 긍정 비율이 급증할 경우 실제 당선에도 긍정적인 영향을 미치는 것으로 예측된다. 한 후보에 대한 부정적 감성이 늘어나는 추세라고 해도, 상대편 후보가 비슷하게 늘어가고 있으면 상쇄된다.

임주언 기자 eon@kmib.co.kr