방사선의학, 이것만 알려주마

본문글자크기
기사의 제목, 출처, 작성일 정보 안내
제40화 과학기술 분야 대통령 연설문 분석한국원자력의학원 김희진, 김정영 공저2022-07-07

  2022년 5월 23일, 한국 축구계에 새로운 역사가 써졌다. 전세계 축구선수들이 꿈꾸는 잉글랜드 프로축구 프리미어 리그(EPL; English Premier League)에서 손흥민이 아시아인 최초로 시즌 득점왕의 자리에 오른 것이다. 손흥민은 EPL 21-22시즌 23골을 기록하며 리버풀 소속 모하메드 살라 선수와 공동 득점왕에 올랐는데, 패널티 킥 없이 순수 득점으로 20골 이상 넣은 선수는 EPL 역사 상 개러스 베일과 손흥민 뿐 이라고 한다.

  1969년 한국인 최초 해외리그 진출을 시작으로 1979년 분데스리가에 입단해 전설이 된 차붐 차범근, 한국인 프리미어리거 1호 해외축구 아버지 박지성 그리고 2022년 EPL 득점왕에 등극한 손흥민까지, 한국 체육계와 축구 관계자들의 50여 년간 노력, 그리고 국민들의 꾸준한 성원과 관심이 일궈낸 결실이라고 본다.




<분데스리가 전설 차붐 차범근, 한국인 프리미어리거 1호 해버지 박지성,

그리고 EPL ‘21-’22시즌 득점왕 손흥민 >

 

  전 세계로 뻗어나가는 오늘날 한국축구처럼 우리나라 과학기술 분야의 발전사와 위상도 그 궤를 같이하고 있다. 1960년대부터 정부 투자와 해외지원을 받아 과학인재 양성 및 기술발전에 힘썼던 우리나라는 2021년 6월 스위스 국제경영개발원(International Institute for Management Development; IMD)에서 발표한 [IMD 세계 경쟁력 연감(The IMD World Competitiveness Yearbook)] 종합평가에서 23위를 차지했다. 이 중 과학 인프라 부문은 미국에 이은 2위로 역대 가장 높은 순위를 기록했다. 60여 년간 이어져온 과학기술 정책과 지원, 과학기술 분야 종사자들의 피·땀·눈물이 섞인 결실이 아닐 수 없다. 그렇다면 우리나라 과학기술 정책 흐름은 어떻게 이어져 왔을까?

  방사성의약품 관련 전문지식으로 조금은 지치셨을 거 같은 독자들을 위해 이번호에서는 지난 20년간 취임했던 대통령들의 과학의 날 연설문을 텍스트 마이닝 기법을 적용해 각 정부 별 과학기술 정책 트렌드를 분석해 보았다. 방사선의학 분야가 과학기술 정책 기조를 전부 따라 갈 수는 없지만, 결국 과학기술 분야 중 하나이기에 방사선의학 웹진에서 국가 과학기술 정책의 거대한 흐름을 살펴보는 것도 그 나름 의미가 있다 본다.

 

 

 

  텍스트 마이닝(Text Mining)은 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는 기법이다. 많은 정보들이 온라인 뉴스기사, 기술문서, 도서, 메시지, 소셜 네트워킹 서비스(SNS)등과 같은 텍스트 형식으로 저장되는데, 이렇게 공개된 텍스트 정보에서 특정 주제와 관련된 부분을 뽑아 의미를 분석하고 고품질 정보를 도출하기 위한 방법으로 텍스트 마이닝 기법이 활용된다.

  텍스트 마이닝 기반 기술은 크게 대용량 데이터를 저장하고 처리하는 빅데이터 기술, 은 언어학 통계학 기계 학습 등을 기반으로 한 자연어처리(NLP; Natural Language Processing)기술 두 가지로 나뉜다. 이 두 기술을 바탕으로 빈도분석, 군집분석, 감성분석, 연관분석 등의 통계적 기법들을 적용할 수 있다.

 

 

 

  과학의 날 대통령 연설문은 대통령 기록관(https://www.pa.go.kr)을 통해 다운로드 받았다. 분석대상으로 선정한 대통령은 노무현, 이명박, 박근혜, 문재인 이며, 문재인 전 대통령의 경우 과학의 날에 대통령 연설을 진행하지 않은 관계로 국무총리 연설문으로 대체하였다. 다운로드 받은 연설문들은 전처리 작업과 명사 단위로 토큰화 작업을 거쳐 기본적인 빈도분석을 진행하였다.

 


< 과학의 날 대통령 연설문 텍스트 마이닝 빈도분석 결과 >

 

  빈도분석 결과는 ‘과학’, ‘기술’, ‘여러분’, ‘우리’와 같은 과학의 날 연설문에서 언급 빈도가 압도적으로 높은 단어들과 ‘해서’, ‘위하다’, ‘들이’ 등과 같이 의미를 알 수 없는 불용어들을 제거한 뒤, 대통령 연설문 별로 빈도가 높은 상위 20개 단어를 추출하였다.

  위 빈도분석 결과를 보면 공통적으로 언급되는 키워드들도 있는 반면, 각 대통령 연설문 마다 다른 대통령 연설문에 언급되지 않은 키워드들이 존재하는 것을 알 수 있다. 그러나 빈도분석 만으로는 이러한 차이가 잘 드러나지 않기 때문에 TF-IDF 를 통해 각 연설문 간 차이를 알아보았다.

 

 

 

  특정 문서에서는 많이 사용되었지만 다른 문서에는 적게 사용된 단어를 알고 싶을 때 오즈비(odds ratio)개념이 이용된다. 그러나 오즈비는 두 조건의 확률을 이용해 계산하므로 여러 문서들의 단어 비교 시 에는 TF-IDF(Term Frequency–Inverse Document Frequency)를 이용하게 된다. 이 개념을 적용하면 흔하지 않은 단어이면서 특정 문서에서 자주 사용되는 단어 일수록 값이 커지기 때문에 각 문서마다 중요한 단어가 무엇인지 파악할 수 있다.




< 과학의 날 대통령 연설문 tf-idf 분석 결과 >

 

  각 대통령 연설문 별 tf-idf 분석결과를 비교해 보자. 먼저 노무현 전 대통령의 경우 ‘입국’, ‘지방’, ‘기초과학’이 3순위를 차지했으며 이밖에 ‘동북아’, ‘선진국’, ‘국제’, ‘번영’ 등의 키워드가 다른 대통령 연설문에 비해 많이 등장한 것으로 나타났다. 이명박 전 대통령은 ‘녹색’, ‘사랑’, ‘자원·시대’가 많이 언급되었으며 박근혜 전 대통령은 ‘정보통신’, ‘창조경제·경제’, ‘창업·벤처’이외에 ‘선도’, ‘벤처기업’, ‘아이디어’와 같은 단어들을 많이 언급했다. 문재인 전 대통령은 ‘정보·정보통신’, ‘의원님’, ‘예산’이 3위권을 차지했으며 ‘과학기술유공자’, ‘국민’, ‘기초연구’ 등과 같은 단어들이 강조된 것으로 나타났다.

 

 

 

  TF-IDF는 세 개 이상의 문서를 비교하기 가장 쉬운 방법 중 하나지만, 어떤 단어가 특정 문서에서 특히 많이 사용되더라도 모든 문서에서 사용되면 발견할 수 없는 단점이 있다. 이런 단점을 극복할 수 있는 방법이 가중 로그 오즈(Weighted log odds)이다. 이 방법은 단어 등장 확률에 가중치를 적용하기 때문에 어떤 단어가 모든 문서에 사용되더라도 특정 문서에 많이 적용되면 발견할 수 있으며, 오즈비와 달리 셋 이상의 문서를 비교할 때도 이용할 수 있다.



< 과학의 날 대통령 연설문 가중 로그 오즈 분석 결과 >

 

  tf-idf 분석결과와 가중 로그 오즈 분석 결과를 비교했을 때 큰 차이는 없지만 박근혜 전 대통령을 제외한 나머지 대통령 연설문에서는 tf-idf 결과와 가중 로그 오즈 분석 결과가 차이를 보였다. 노무현 전 대통령의 경우 ‘협력’과 ‘합리’가 의미 있는 단어로 나타났고, 이명박 전 대통령 연설문에서는 ‘학생’과 ‘중요’가 부각되었다. 문재인 전 대통령의 경우 ‘인류’, ‘성취’, ‘사상’ 등이 가중 로그 오즈가 높게 나타났다.

 

  이 같은 결과는 각 대통령 집권 시절에 내새웠던 주요 정책 및 정책 키워드와 맞닿아 있다. 노무현 전 대통령의 경우 행정수도 이전 추진과 동북아중심국가 국정주제가 과학의 날 연설문에 반영되어 있으며 이명박 전 대통령은 자원외교와 4대강과 관련된 단어인 ‘녹색’, ‘자원’이 과학의 날 연설문에 나타났다. 박근혜 전 대통령의 경우 국정비전 이었던 ‘국민행복, 희망의 새 시대’와 연관된 단어는 나타나지 않았지만 국정목표 인 ‘창조경제’는 주요 단어로 등장했다. 마지막으로 문재인 전 대통령 연설문에서는 ‘미래창조과학부’가 ‘과학기술정보통신부’로 부처명이 변경된 만큼 ‘정보통신부’ 단어가 비중 있게 등장했다. 그리고 특이사항으로는 종교 관련 단어인 ‘욥기’가 등장하며, 과학의 날과 정보통신의 날을 동시에 기념하며 연설했기에 ‘정보’, ‘방송통신’, ‘방송’ 과 같은 단어들도 많이 사용되었다.

 

  이처럼 노무현 전 대통령부터 문재인 전 대통령 집권기에 해당되는 과학의 날 연설문을 아주 간단한 텍스트 마이닝 기법을 통해 분석해보았다. 보다 심도 있는 결과 도출을 위해서는 과학/기술 관련 대통령 연설문들을 추가적으로 확보해 분석대상을 늘리고, 토픽 모델링과 같은 보다 고급 분석기법을 적용해야 하지만, 과학기술 정부정책이라는 거시적인 흐름을 웹진에 간단히 소개하는 차원에서 대통령 연설문을 분석해 본 것이니 가벼운 마음으로 봐주시길 바란다. ■ (다음 회에 계속 됩니다.)

 

1) 2021 IMD 세계경쟁력 분석, KISTEP 통계브리프, 2021
2) https://terms.naver.com/entry.naver?docld=6210334&cid=42346&categoryld=42346

 

 

 

  • 덧글달기
    덧글달기
       IP : 18.118.200.86

    등록