wisdiom 아니고 wisdom

텍스트(Text) 탐색 본문

👩‍🎓✍/BigData 분석기사

텍스트(Text) 탐색

글로랴 2021. 3. 11. 22:07

비정형 데이터 - 텍스트, Text

(1) 텍스트 탐색 방법

분석 목적 설정 및 데이터 수집 - 데이터 전처리 및 변환 - 텍스트 분류 - 텍스트 군집 - 텍스트 요약 - 분석 결과 시각화 및 활용

 

(2) 데이터 전처리

비정형 데이터를 정형 데이터로 변환하는 작업

 

  • Text 레벨 전처리 : 크롤링 등으로 데이터 추출 후 HTML, 태그나 XML 문법 제거
  • Sentence 레벨 전처리 : 마침표, 문장 부호를 사용하여 문장 구분
  • Token 레벨 전처리
    • 문장 토큰화 / 파싱 : 텍스트의 단어, 어절 분리
    • 불용어 제거 : 의미없는 단어 제거
    • 어간(Stemming) 추출 : 단어들에서 공통 음절을 뽑아 내는 작업

 

(3) 데이터 변환

  • 1) 문서를 연속형의 실수 벡터로 표현할 수 있도록 변환
    • Bag of Words 방식 : 단어 출현 빈도로 문서를 표현
    • TF-IDF 방식 : 단어들의 중요도로 문서를 표현
  • 2) 차원 축소 작업
    • Feature Extraction
    • Feature Selection

 

(4) TF-IDF 기법 ⭐

TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 '특정 문서' 내에서 얼마나 중요한 것인지를 추출하는 기법

 

  • TF x 1/DF
    • TF : 어떤 범위 내의 문서에 등장하는 특정 단어 빈도수
    • DF : 특정 단어가 일정한 범위의 문서들 간에 자주 사용되는 개수

 

(5) 텍스트 분류

임의의 텍스트를 미리 정의된 카테고리 또는 클래스로 분류하는 기술.

이때, 입력 정보와 각 카테고리의 유사도를 고려하여 가장 적합한 분류를 선정

 

  • 주제 분류
  • 감성분석
  • 언어인지
  • 의도 분석

 

(6) 텍스트 군집

텍스트의 특성을 분석하여 그 내용 또는 형태가 유사한 텍스트들을 군집하는 기술.

즉, 하나의 텍스트 집합을 데이터 간의 유사도에 근거하여 여러 개의 부분 집합(cluster)으로 분할하는 기술

 

 

(7) 텍스트 요약

태상 텍스트가 가진 주요 의미를 유지하면서 텍스트 길이를 효과적으로 줄여 사용자들에게 짧고 간결하게 주요 정보를 제공하기 위한 기술

 

  • 추출 요약 : 주요 문장을 추출
  • 생성 요약 : 주요 정보를 기반으로 새로운 문장 생성
반응형

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

18. 추론 통계  (0) 2021.03.11
17. 기술 통계  (0) 2021.03.11
16. 고급 데이터 탐색  (0) 2021.03.11
15. 데이터 탐색  (0) 2021.03.11
14. 변수(Feature) 선택  (0) 2021.03.10
Comments