brunch

You can make anything
by writing

C.S.Lewis

by 라인하트 Jun 27. 2021

텍스트 마이닝(4/6) - 텍스트 입력

텍스트 입력하기

    텍스트 데이터를 직관적으로 이해할 수 있는 워드 클라우드를 설명하였고, 텍스트 데이터를 클러스터링과 분류를 하는 과정도 설명하였습니다. 텍스트를 데이터 입력할 수 있다면 기본적인 분류가 가능합니다. 



오렌지 프로그램으로 텍스트 입력하기 


1. 캔버스에서 기본구조  그리기

   오렌지 프로그램의 캔버스에 Import Documents 위젯을 놓습니다. 더블 클릭하여 입력할 문서가 있는 디렉토리를 선택합니다. 마이크로소프트 오피스 문서는 모두 읽을 수 있습니다. 빠른 처리를 위해 크기가 작은 워드 파일을 이용합니다.  


    코퍼스 뷰어 위젯은 입력된 텍스트를 볼 수 있습니다. 코퍼스 뷰어 위젯에서 4개의 텍스트 파일을 확인할 수 있습니다. 텍스트 파일이 하나의 학습 예제이고, 피처는 파일 이름(Name), 파일 경로(Path), 파일 내용(Content)입니다.  


   

2. 텍스트 클러스터링 (Text Clustering)

    4개의 파일을 기준으로 텍스트 클러스터링을 시도합니다. 지난 글에서 상세히 설명하였으므로 간단하게 위젯을 연결한 그림과 결과만 표시합니다. 


3. 텍스트 분류 (Text Classification)

   텍스트를 분류하기 위해서 글을 분류해야 합니다. 오렌지 프로그램은 디렉토리 단위로 카테고리를 분류합니다. 4개의 파일을 A 디렉토리와 B 디렉토리로 분류합니다. A디렉토리와 B 디렉토리를 Target으로 설정하고, 다른 텍스트 파일을 분류를 할 수 있습니다. 

 


 지난 글 보기






오렌지 프로그램 다운로드



매거진의 이전글 오렌지로 배우는 텍스트 마이닝(3/6) - 텍스트 분류
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari