R을 이용한 연설문 분류분석

R을 이용한 연설문 분류분석

8월 27, 2014Datamining

R을 이용한 연설문 분류분석

지난 2012년 미국대선의 후보였던 Obama, Romney 후보!  이 두 후보들의 연설 데이터를 살펴보고, 적정량의 연설 데이터를 학습한 분류 모델을 만들어 자동적으로 연설문을 분류분석 해보고자 합니다.  일단 분류가 되려면 두 후보의 연설문을 나눌 무언가가 있어야 할텐데요.  일단 연설문 데이터부터 분석해보겠습니다.

데이터 분석하기

일단, 대선당시의 연설문들을 모아보았습니다.

  •  연설문 데이터SET : ‘Obama’ – 104개, ‘Romney’ –  31개

이렇게 모은 데이터들로 각각의 후보별로 내재된 패턴들을 알기 위해 분석작업을 거칩니다.  문서의 경우는, 문장에서 명사가 핵심 단어이기 때문에 명사들을 이용해 패턴을 파악합니다.  그러기 위해 먼저 문서들에 있는 불용어를 제거한 후 명사들만 추출합니다.


추출되기전

추출된 후

 


 

 

 

 


 

 

오바마

롬니

 

 

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.

다음의 HTML 태그와 속성을 사용할 수 있습니다: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">