포함하고 있는 단어들만으로 사이트의 성향 맞춰보기?
TED 사이트(ted.com)에 등록된 톡들은 영문으로 번역된 스크립트들을 포함하고 있습니다. 가장 최근에 등록된 톡들로부터 이 스크립트들을 가지고 와서 그들 속에 포함된 단어들을 많이 언급된 순서로 줄 세워 보았습니다. 즉, 검색엔진의 'BOT'들이 하는 행동을 똑같이 하는 작은 BOT 스크립트를 만들어 TED사이트의 최신 게시물 200개를 훑었고 200개의 게시물이 가지고 있는 단어들 중 가장 많이 사용된 단어 100개를 추출해 보았습니다.
거두절미하고 가장 많이 언급된 단어는
입니다.
헌데, 이에 관해서 문제가 좀 있습니다. 아시다피시 'like'는 동사의 역할뿐 아니라 전치사, 형용사의 역할을 하며 그들의 의미를 표현하기 위해 쓰이기도 합니다. 그래서 동사로 쓰인 것과 그렇지 않은 표현으로 쓰인 것에 대해 다시 분류할 필요가 있을 겁니다. 하지만, 그것까지는 능력이 되지 않고 귀찮아서 하지 않았습니다. 혹시, 가능한 방법이 있다면 피드백 부탁드립니다^_^
그렇다면, 'like'다음으로 가장 많이 사용된 단어들은 무엇이었을까요? 아래는 사용빈도에 따라 단어들을 엑셀에 줄 세워 놓은 화면입니다.
네,
입니다.
이 작은 프로젝트는 'TED'에서 최근에 가장 많이 언급된 단어로부터 지금의 트렌드나 인사이트를 얻어낼 수 있지 않을까 하는 목적에서 시작되었습니다. 하지만, 막상 줄 서 있는 단어들을 보고 나니 그들이 그렇게 줄을 서 있는 이유를 아래와 같이 해석할 수 있었고 원래의 목적 달성은 좀 멀어져 버렸습니다.
+ 가장 상단에 자리한 's'는 아마 '소유격'을 표현하기 위해 사용되었을 것이고 그래서 어떤 의미를 얻을 수 없다.
+ 'n't' 나 '--', '' ' 는 대충 보아도 알 수 있는 것처럼 부정의 표현에서, 스크립트의 문장을 꾸미기 위한 표현에서, 인용의 표현에서 사용된 부호일 것이다. (부호를 걸러내기 위한 작업을 해 두었으나 걸러지지 않더군요. 사용된 'BOT'코드는 아래에 링크해 두었습니다. 혹, 대안이 있으신 분의 피드백 부탁드립니다^_^)
+ 'like'는 '좋아하다'는 동사의 역할과 '~같은', '~와 유사한'의 의미로 표현된다. TED의 톡들은 많은 '예'나 '가정' 혹은, '인용'을 포함한다. 그때마다 사용된 단어로 추측할 수 있다. 그렇기에 특별한 의미로 생각하기에는 무리가 있어 보인다.
+ 'people'과 'one'도 어쩌면 마찬가지다. '사람들은 이렇게 생각합니다.', '인류는 지금까지...', '누군가는 이렇게, 저렇게...' 등의 표현이 많다. 그때마다 사용된 단어로 추측되고 그렇기에, 특별한 의미로 생각하기에는 무리가 있다.
+ 're'는 'you're', 'we're'에서 얻어진 'are'의 줄임말일 것이다. ('review', 'rewind'에서 쪼개져 나올 수 없고 이런 단어들은 별도로 추출됩니다)
+ 'would'도 ''d'와 함께 생각이나 경험 등을 빌려 표현할 때 많이 쓰였을 것으로 판단된다.
+ 'world'는 'people'만큼 TED의 특성상 인류와 세계적인 이슈, 문제 등을 고민하는 데 있어 언급할 수 있는 단어이기에 상위 랭킹에 자리 잡았을 것으로 판단된다. 가령, '세상은 아직도~', '세상은 곧~', '앞으로 세상은~', '세상에는 ~한 문제들이~' 등의 표현에서 말이다.
- 혹시나 싶어 언급해 둡니다. 위의 모든 항목들은 이 글을 작성하고 있는 사람의 개인적인 생각과 판단입니다. 글의 내용은 TED 그리고 그와 관련한 어떤 단체의 의도와도 상관이 없음을 알려 드립니똬하핫. -
결론은, 위와 같은 단어들이 사용된 빈도의 순서를 보았을 때, 'TED'는 '인류(people)'와 '세상(world)'의 이슈를 계속해서 언급(like)하고 있는 것 같습니다. 강연자 본인의 경험이나 주위의 경험 그리고 현상을 언급(would)하고 있으며 그것이 누군가(one)와 우리들(us)의 문제(problem)이고, 알아야(know) 할 문제임을 계속해서 설득, 표현하고 있다고 볼 수 있는 것 같습니다.
(네, 모든 표현이 '~는 것 같습니다'로 표현되고 있음을 주지해 주십시오^_^;)
특정 키워드가 불쑥 나와서 지금의 TED에서 가장 핫-한 이슈를 바로 볼 수 있을 것이라 생각한 것은 잘못이었던 것 같습니다. 하지만, 이참에 특정분야에 한정된 카테고리나 사이트를 붙잡아 볼까 생각 중입니다. 가령, 'techcrunch' 나 'zdnet' 등에서는 정말로 뭔가를 뽑아낼 수 있을 것 같기도 합기도 100일 기도 합니다.
아래는 코드 작성 중에 시험해본 '실시간 키워드 수집' 화면입니다. 구글 스프레드 시트에 실시간으로 수집된 키워드가 쓰이고 있는 장면입니다. (속도가 너무 느려 아래의 방법은 후에 사용하지 않았습니다.)
*. 수집을 위해 작성하고 사용된 파이썬 코드는 아래 경로에 있습니다. 수집한 결과를 곧바로 구글 스프레드시트에 쓰도록 작성했습니다. 이에, 아래 코드를 그냥 실행하면 동작하지 않습니다. 구글 스프레드 시트를 사용하기 위한 전초작업을 진행하셔야 하며 그 작업과 관련해서는 아래 2번, 3번의 내용을 참고 부탁드립니다.
1. 작성한 'BOT' 파이썬 코드의 위치 - http://airpage.org/xe/language_data/20654
2. 구글 스프레드 시트를 파이썬에서 사용하기 위한 방법 - http://airpage.org/xe/language_data/20575
3. 구글 스프레드 시트를 파이썬에서 사용할 수 있는 패키지 - https://github.com/burnash/gspread
4. 구글 스프레드 시트를 파이썬에서 사용하기 위한 인증 작업 - http://gspread.readthedocs.org/en/latest/oauth2.html
*. 수집한 결과는 아래의 구글 스프레드 시트에 공유해 두었습니다.
https://docs.google.com/spreadsheets/d/1pQcZCKhM2a5CfeP5Fa04TdINdHyfj8OXJZicfpy3Y0Y/edit?usp=sharing