brunch

You can make anything
by writing

C.S.Lewis

by 채과장 Jan 03. 2024

나만의 비즈니스 영어표현 창고 만들기

Business English Database 구축 프로젝트

오래간만에 글을 올립니다.

2024년 제 글을 읽어주시는 분들 새해 복 많이 받으시길 바랍니다.


간만에 글을 쓰는데 어떤 글을 쓰면 좋을 까 고민하다가 그 동안 다뤄보지 않았던 아이템에 대해 써볼까 합니다.


저는 22년 말에 저만의 Business English 표현의 DB를 만들면 어떨까 생각하다가 그 생각을 행동으로 옮겨보고 23년 한 해동안 사용했습니다.


결과는 대만족이었고, 어떻게 사용하는지 잠깐 동영상으로 보여드리겠습니다.



아니면 유튜브 채널에서도 보실 수 있어요


물론 chatGPT라는 게임 체인저가 나타나면서 모든 걸 AI로 할 수 있지 않을까 생각이 들기도 하지만 이 chatGPT가 실제 있었던 사람들의 대화를 검색해서 바로 보여주지는 않습니다.


Bing과 통합이 되면서 이제 가능할 것 같기도 합니다… 무서운 chatGPT, AI 녀석들.


그렇다면 어떻게 미국 사람들의 실제 비즈니스 상황에서의 문장을 가져올 수 있을까요?

다국적 기업에서 미국사람들과 Zoom 회의를 한다면(Zoom 영상을 녹화가 허락이 된다는 가정하에서), 그 영상을 기록해서 transcribing 하면 됩니다.


다른 방법은 없을까요? 있습니다.


미국의 상장기업들은 분기별로 실적보고(earning conference call)을 진행합니다

45분에서 1시간 정도 시간이 소요되는 이 컨퍼런스 콜에서 경영진들은 실적과 다음분기에 대한 전망을 설명하고, 그 후 애널리스트들과 Q&A 세션을 가지게 되는데 이 때 텍스트들이 Business English 표현들의 보고라고 보시면 됩니다.


물론 이 대화에 나온 표현들은 어려운 표현입니다.

최대한의 캐쥬얼한 표현은 자제되어 있는 formal 한 표현들이지요.

회사에서 공식적인 커뮤니케이션을 하는 것이니까요. 


회사에서 공식적으로 투자유치나 사업제휴, 전략제휴, Financing, 실적보고 등 공식적인 일정에 사용해야 할 표현들이 궁금할 때, 여기에 나온 표현들은 도움이 될 수 밖에 없습니다.


그러면 어떻게 이 database를 구축하느냐? 가 제목인데 소개가 너무 늦었네요


먼저 이 db 구축을 위해서는 프로그래밍 지식이 있으면 편합니다. python을 할 줄 안다면 너무 편하구요.

프로그래밍이 처음이라면 조금 어려우실 수도 있습니다.


어느 정도 지식이 있고 인내심이 있으시다면 chatGPT와 함께 rapid api라는 곳에서 seeking alpha api를 이용해서 각 기업들의 transcript를 다운받을 수 있습니다.


먼저 저는 인터넷에서 일단 NASDAQ에서 인더스트리별로 정리된 기업들의 ticker들을 정리했습니다.


이런 식으로요. 저는 최대한 모든 기업들의-인더스트리를 가리지 않고- transcript를 다 수집하고 싶었습니다.


그리고 https://rapidapi.com/apidojo/api/seeking-alpha 곳으로 가서 회원가입을 하셔야 합니다.

이제 api를 이용해서 기업들의 conference call transcript를 정리할 수 있는 함수를 python으로 만듭니다.


밑의 그림에는 포함되어 있진 않지만 여러분의 api_key가 밑의 함수에 들어갈 수 있도록 위에서 API_KEY = " "로 만들어 주셔야 합니다.



위의 함수들을 이용해서 이제 csv 파일에 있는 기업들의 리스트들을 ticker를 따라 돌면서 인더스트리별로 필요한 파일을 다운받는 코드를 작성하셔야 합니다.



저기 위에서 (ticker, 1, 1548801373, 1577658973) 의 뒷부분의 숫자 2개는 연도입니다. unix timestamp converter 를 참조하시면 됩니다.


그러면 원하는 연도만 다운받으실 수 있습니다.


참고로 말씀 드리면 이 api는 유료입니다.

https://rapidapi.com/apidojo/api/seeking-alpha/pricing


저는 여기서 pro를 2달 동안 사용했던 것으로 기억합니다.

그래서 2020년 ~ 2022년 3년 간의 위 표시된 모든 인더스트리의 transcript 데이터를 2달 동안 다운 받았습니다. Monthly plan이라서요.


2022년 데이터가 가장 적어서 2달 동안 가능했던 거 같아요. 아마 많은 기업들의 2022년 회기연도가 2022년에 끝나지 않아서 그랬던 것으로 보입니다.


만약 특정 인더스트리만 원한다면 pro 플랜 안에서 3~5개년도 수집도 충분할 것 같습니다.


이제 함수를 실행하고 나온 json 데이터들이 한 곳의 폴더에 모이면 이 json 파일에서 텍스트만 parsing 하고 합쳐주시는 파일을 새로 만들고 실행하면 됩니다.


먼저 parser를 만드시고,

그 다음에 합치는 거죠


그러면 내가 원하는 인더스트리의 특정 연도의 기업들의 트랜스크립트만 수집한 텍스트 파일이 등장하게 됩니다.


저는 이걸 얻고나서 그 때 당시 많이 기뻤습니다! 이런거에 기쁜 사람은 많지 않겠지만...


여기까지 오셨으면 다 8부 능선을 넘어섰습니다.

남은 부분은 너무 쉬어요.


https://www.laurenceanthony.net/software/antconc/  

로 가셔서 각자의 운영체제에 해당하는 링크를 눌러서 antconc를 다운받으시면 됩니다.


antconc는 A freeware corpus analysis toolkit for concordancing and text analysis: 코퍼스 분석을 해주는 freeware입니다.


홈페이지에는 기업에서 사용했을 때의 license는 별도로 언급하지는 않습니다. 하지만 직접 홈페이지에 들어가셔서 한 번 보시면 좋을 것 같습니다.


이 프로그램을 다운받고 설치 후, 파일에서 open corpus manager를 열고 난 후,


corpus source에서 raw file를 선택하고, 텍스트 파일을 add하고 create 하면 db 파일이 만들어 집니다.

db 파일이 생성된 후, 다시 corpus manager로 가서

database 파일을 선택하면, 저같은 경우엔 my_corpus_3.db 를 선택하고 choose를 눌렀습니다. 사진에는 reference corpus로 되어있는데, target corpus로 바꾸고 난 후 db를 선택하시면 됩니다.


그러면 이런 식으로 나의 비즈니스 영어 db가 구축됩니다.


윗 부분은 'foray'라는 단어로 검색을 했을 때 나타나는 결과입니다.

뒷 부분에 into가 계속 나온 걸 볼 수 있죠. 그래서 collocate 이랑 n-gram 서치를 해보시면


 처럼 나타나는 걸 알 수 있습니다.


foray into: ~로 진출 / 요렇게 쓰이는 표현입니다.

그리고 KWIC에서 해당 문장을 더블 클릭하면 원문을 다 읽을 수 있게 이동합니다.


더욱 자세한 사용을 원하시면 'antconc 사용법'으로 유튜브에서 검색하시면 파라메터를 좀 더 세팅해볼 수 있습니다. 


저같은 경우 p-value를 0.01 이하로 낮춰놨습니다.


사실 chatGPT가 나오기 전에는 정말 이 database가 유용했습니다.

하지만 chatGPT가 나오면서 저도 사용빈도가 예전보다는 낮아졌지만 대신 이런 점에서는 여전히 잘 쓰고 있습니다.


새로운 생소한 표현이나 단어를 사용해서 내가 문장을 만들어보고 싶은데 이게 얼마나 자주 쓰이는 표현인지 궁금할 때가 있습니다. 


무엇을 자세히 알아내다 라는 비슷한 의미의 표현인 'parse out' 과 'tease apart' 이 있습니다.

Parse out은 이미 친숙한 표현인데 tease apart는 생소해서 chatGPT에 물어보니 역시 sort of analyze 인 자세히 뜯어보다 정도로 해석할 여지가 있다고 합니다.


이럴 때 tease apart가 실제 대화에서 어떻게 사용되었는지 궁금하니 바로 확인해볼 수 있지요. 그러면 아래와 같은 문장이 나오게 됩니다.


And the lower acquisition really forced us to kind of tease apart what's going on.


하지만 두 개의 표현 중 무슨 표현이 더 자주 쓰이는 지 궁금합니다.



corpus 안에서는 parse out이 더 빈번히 쓰인 표현이라는 걸 알 수 있습니다. 정량적으로 바로 나와서 편한 것 같아요.


chatGPT로 문장을 만들어 주지는 않지만 바로바로 단어를 쳐서 이 단어가 어떻게 문장에서 활용되었는지는 즉시 알수 있어서 더 효율적입니다.


긴 글 읽어주셔서 감사합니다.

다음에는 제 corpus를 조금씩 분석해서 찾은 재미있는 내용으로 또 글을 올려볼께요


추가로 저 위의 python 을 사용해서 텍스트 파일을 만드는 부분이 진저리 난다면 Antconc 만 다운 받으시고 코퍼스 매니저에서 인터넷을 통해서 제공되는 영문 corpus를 사용하셔도 됩니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari