Skip to content

댓글 데이터를 활용한 분석

2017년 6월 7일

소셜 미디어 댓글에는 컨텐츠에 대한 구독자들의 반응을 찾아볼 수 있는 구체적인 정보들이 숨어있다. 댓글 분석 기술의 연구 분야로 Short Text Analysis는 최근 많은 연구가 진행되는 연구 분야 중 하나 이다. 최근 웹에서 생성되는 텍스트 중 높은 비율로 댓글과 같은 Short Text가 차지하고 있기 때문이며, 실제 서비스에 적용되는 사례가 많기 때문이다.

Short Text 분석은 기존에 사용하던 단어 빈도수 기반의 분석 기술로는 깊은 인사이트를 찾기 힘들다.

검색엔진 기반의 분석 기술들은 단어의 발생 빈도와 문서 간의 유사성을 활용해 키워드의 중요성 및 연관성을 추론한 후 해당 텍스트를 시각화 하거나 검색 어플리케이션을 활용해 결과값을 출력한다. 이 방법을 사용하기 위해서는 다음과 같은 가정이 필요하다

  • 문서 간의 연관성을 구할 수 있으며 연관성이 충분히 Reliable 해야 한다.
  • 중요한 키워드는 텍스트상에 반복적으로 많이 발생해야 한다.
  • 문맥과 고려하지 않고 분석을 하더라도 충분해야 한다.

만일 비교사학습(Unstructured Machine Learning) 방법을 사용한 클러스터링 기술을 사용한다 하더라도 유사한 문제가 발생할 수 있다. 결국 클러스터링 기법을 사용하기 위해서도 데이터의 양이 매우 중요해지기 때문이다.

Short Text의 특징을 정리하면 다음과 같다.

  • 단어들의 발생 빈도가 Sparcity 하다.
    • Sparcity함은 짧은 텍스트간의 연관도를 추론하기 어렵게 한다.
  • 분석 텍스트의 문맥을 파악하기 힘들다.
    • Short Text 자체적으로 문맥을 유추할 수 없다.
  • 분석 타겟 데이터만으로 텍스트를 이해하기 어렵다.
    • Short Text에 포함된 텍스트는 해당 도메인과 연결된 의미로 사용되는 단어들이 많아 그 자체적으로 의미성을 부여하기 어렵다.

Short Text를 분석하는 최신 연구

  • 지식베이스 활용
    • 짧은 텍스트에 관한 정보를 잘 만들어진 기존 지식기반의 데이터를 학습해 미리 이해할 수 있도록 한다.
  • Distributed Representation
    • 문서 빅데이터를 활용해 단어의 의미(Sematic)를 보유한 벡터로 표현할 수 있도록 학습한다.

Short Text 분석 관련 어플리케이션과 어플리케이션의 해결방법

  • 챗봇 – 사용자의 짧은 요청을 이해하는 솔루션
    • 사용자의 지난 요청을 함께 분석해 문맥을 유추한다.
    • 사용자에게 요청방법을 가이드한다.
  • 분류기
    • 사용자의 텍스트를 사전 학습한 데이터를 활용해, 분류 결과를 출력한다.
    • 도메인 별로 별도의 학습데이터를 활용한다.

 

그렇다면 댓글을 분석하기 위해서는 다음과 같은 부분이 필요하다.

  • 도메인에 대한 이해
  • 사전 학습데이터 구축
  • 어플리케이션에 적합한 기술의 조합

결국 댓글 분석은 분석 기법의 문제라기 보다 도메인별 데이터, 그리고 어플리케이션에 적합한 학습 모델 구축이 중요한 시사점이 되는 것이다.

Advertisements

From → Data Analysis

댓글 남기기

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: