완벽한 논문을 위한 R 프로그래밍 분석
이번 프로젝트는 서울시 음식점 현황에 관한 것입니다. 먹거리 천국 서울에는 정말 다양한 음식점들이 있습니다. 그리고 경제가 어려워지면서 가장 뛰어들기 좋은 창업 아이템도 바로 요식업이죠. 가장 인기많은 요식업 업종은 무엇이며 코로나 이후로 창업자들의 선호는 어떻게 변했을까요?
사용된 자료는 지방행정인허가데이터개발에서 제공하는 인허가를 받은 서울시 일반음식점에 관한 데이터입니다.
본 자료는 굉장히 다양하게 활용할 수 있는 여지가 많아, 부족한 제 분석 경험에도 좋은 아이디어가 많이 떠올라 공유하고자 합니다. 이번 글에서는 R의 다양한 시각적 기능을 많이 활용하였으므로 큰 도움이 되길 희망합니다!
분석변수 상태는 아래와 같이 가공하였습니다. 기존 제공되는 open_date,close_date, status, name, address,type 외 각종 파생변수를 추가하였습니다.
open_date&close_date : 1945~20210731까지 한정함
status : 영업, 폐업 두 가지
type : 외국음식점(아시아), 뷔페, 까페, 중국식,패스트푸드,치킨,일식,한식,주점,회집,레스토랑(양식)
district: address에서 행정구만 추출하여 만듦
open_date_ac/bc&close_date_ac/bc: 202001을 기준으로 코로나 전후 비교를 위한 파생변수
<Packages>
library(dplyr)
library(ggplot2)
library(data.table) #read.csv의 대용량 error 발생으로, fread 사용 권장
library(tidyverse)
<목차>
1. 업종별로 가장 오래 영업중인 음식점
2. 업종별 개업 비율
2-1 코로나 전후, 요식업 창업 업종 선호도 변화
3. 전체 음식점의 영업과 폐업 비율
4. 업종별 폐업 비율
4-1 코로나 이후 창업 후 가장 높은 폐업율을 가진 업종은?
5. 개업과 폐업이 가장 많았던 연도
가장 기본적인 분석부터 시작합니다. 광복이래 가장 오래된 한식집은 어디일까요?
foodshop %>%
filter(!is.na(open_date), status == '영업') %>%
filter(type %in% c('까페','레스토랑','뷔페','외국음식전문점','일식','주점','중국식','치킨','패스트푸드','한식','회집')) %>% # 본글에서는 영문으로 사후 수정되었음
group_by(type) %>%
filter(open_date == min(open_date)) %>%
select(name, type, open_date, address) %>%
arrange(open_date)
코드를 보시면, 전체 데이터에서 오픈 일자에 결측치가 없는 '영업'중인 음식점들 중, 업종별로 가장 먼저 인허가를 받은 음식점들의 데이터를 추출합니다.
위 결과를 보시죠. 역시 서울 중심의 종로구 그 일대의 음식점들이 아주 오래전부터 영업하고 있다는 것을 알 수 있습니다. 또 한식의 혜심정도 찾아보니 많은 맛집 프로그램에 나온 것을 확인 할 수 있었습니다.
참고로 활용된 인허가 일자는 1945년 이후 기준으로 한정하였으므로, 그 전 인허가를 받은 음식점들이 존재한다는 점 교려해주시면 되겠습니다 :)
* 패스트푸드의 타입이 결측치로 처리되어 결과에는 안나왔지만, KFC 중앙대점이 19671010로 인허가 날짜가 가장 일렀습니다.
전체적으로 창업자들은 어떤 업종을 선호할까요? 개업한 음식점들의 업종별 비율을 살펴보겠습니다. 개업은 영업과 폐업 데이터에 영향을 주지 않는 단순 초기인허가 수치를 의미합니다.
foodshop %>%
filter(!is.na(open_date), !is.na(type), !is.na(district)) %>%
group_by(type) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
arrange(desc(n)) %>%
head(6) %>%
ggplot(aes(x = '', y = pct, fill = type))+
geom_bar(stat = 'identity', width = 0.5)
상위 6개 업종을 추출했습니다. 코드를 보시면, 결측치를 제외하고 업종별 전체 인허가 수를 구한 후 비율을 구했음을 알 수 있습니다. 추가로 누적 그래프도 함께 보시죠. 역시 대중적으로 가장 선호하는 업종은 한식입니다. 분식도 한식에 포함시켜 어느정도 영향이 있는 것 같습니다. 전체적으로 뭔가 예상가능한 순위 입니다. 치킨창업은 빼놓을 수 없습니다.
그럼 코로나 전후로, 가장 많은 선택을 받은 요식업 업종은 무엇일지 궁금합니다.
#코로나 전 선호 요식업 창업 업종
foodshop %>%
filter(!is.na(open_date_bc), !is.na(type), !is.na(district)) %>%
group_by(type) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
arrange(desc(pct))
#코로나 후 선호 요식업 창업 업종
foodshop %>%
filter(!is.na(open_date_ac), !is.na(type), !is.na(district)) %>%
group_by(type) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
arrange(desc(pct))
전체적으로 상위권인 한식, 양식, 치킨 등의 대표 요식업의 순위권 싸움은 없었습니다. 다만 비율을 이용해 선호도 추세의 관점으로 접근해야할 듯 합니다.
꺽은선 그래프를 이용해서 1990~현재까지의 요식업 창업 업종별 비율을 알아보겠습니다.
foodshop %>%
filter(!is.na(open_date), !is.na(type), !is.na(district)) %>%
group_by(open_year,type) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
arrange(desc(pct)) %>%
ggplot(aes(x= open_year, y=pct, colour=type, group=type)) +
geom_line() +
geom_point(size=1) +
ggtitle("서울시 업종별 창업 선호도 변화") +
theme(plot.title=element_text(size=15)) +
xlim(1990,2021)
한식의 비중이 상대적으로 너무 높다보니, 다른 데이터를 살펴 볼 수가 없습니다. filter로 한식을 제외하고 y값의 범주도 좀 줄여보겠습니다.
foodshop %>%
filter(!is.na(open_date), !is.na(type), !is.na(district), type !='korean') %>%
group_by(open_year,type) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
arrange(desc(pct)) %>%
ggplot(aes(x= open_year, y=pct, colour=type, group=type)) +
geom_line() +
geom_point(size=1) +
ggtitle("서울시 업종별 창업 선호도 변화(한식x)") +
theme(plot.title=element_text(size=15)) +
xlim(1990,2021) +
ylim(0,60)
굉장히 흥미로운 그림이 나온 것 같습니다!
먼저번의 한식 포함 그래프에서는 한식의 창업 선호도가 점차 감소해왔음을 알 수 있었습니다.
상단의 그래프는 어떤가요?
2020년 이후로 음식점 창업의 추세가 급격하게 바뀌었습니다. 대부분의 외국음식점 창업이 코로나 이전까지 감소하다가, 그 이후로 늘고 있습니다. 사람들이 해외여행을 못가기 때문에 그 수요를 노리고 많은 창업자들이 양식, 일식 중식 등 다양한 분야로 가게를 열고 있다는 것을 알 수 있습니다. 그 폭은 일식과 중식당이 가장 가파르게 늘고 있습니다. 최근 인스타그램에서 핫하다는 음식점들을 봐도 확실히 한식의 비중이 적다는 것을 우리는 알 수 있습니다. 대부분 외국 음식들 입니다. 집 주변에만 우후죽순으로 생기는 마라탕 가게들이 생각납니다.
카페의 경우, 2014년 최고점을 찍고 급격히 하락하여 현재까지도 약간의 상승폭을 보일 뿐, 그 수는 상대적으로 적습니다. 체감상 카페가 한식당 보다 많은 것 같은데 말이죠. 대부분 프랜차이즈 카페이기 때문에 본사에서도 공급수를 조절하고 있는 것 같습니다.
마지막으로 치킨 창업을 보겠습니다. 2000년대 초 엄청난 수로 치킨창업이 대세였습니다. 이때부터 졸업 후 치킨집 커리큘럼이 자리잡은게 아닐까 싶습니다. 치킨창업은 미친듯한 과포화 상태의 시장이기 때문에 그 개업 수는 자연히 매년 감소해 왔고 2020년 코로나 발발 이후 술집과 더불어 큰 폭으로 감소했습니다. 치킨 창업 역시 대부분 프랜차이즈 독점 시장이며, 개업한다고 해도 로얄티 비용과 각종 배달수수료, 인건비 등을 제외하면 남는 것이 없다는 사실은 이제 누구나 다 알고 있습니다.
각종 거리두기 정책이 예측불가능해졌고, 이에 가장 타격을 입는 요식업인 만큼, 많은 창업자들이 심사숙고하며 그들의 자산을 투자하고 있습니다. 모쪼록 경제상황이 나아져 다같이 웃고 떠들며 맥주 한 잔하는 즐거움이 곧 돌아오길 희망합니다 :)
한국은 아직까지 창업에 대해 부정적인 견해가 강합니다. 특히 그 분야가 요식업이라면 주변의 걱정어린 시선을 피할 수 없죠. 정말 성공하기 어려운걸까요? 데이터로 함께 보겠습니다.
코드는 아래와 같이 결측치를 제외, 인허가된 음식점들의 상태별 수치를 추출하여 누적막대 그래프로 비율을 나타냈습니다.
* 상태 = 영업 & 폐업
foodshop %>%
filter(!is.na(open_date), !is.na(type),!is.na(district)) %>%
group_by(status) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
ggplot(aes(x = '', y = pct, fill = status))+
geom_col(width = 0.5) +
scale_fill_manual(values=c("#3288BD","#D53E4F"))+
xlab('전체 인허가 수')
서울시 전체 음식점 가운데 약 75%가 문을 닫았고, 25%만이 여전히 영업중입니다. 단정할 순 없지만 확실히 생존하기 쉽지 않은 것 같습니다. 각종 자극적인 창업 비난 기사 제목들이 거짓이 아니였습니다. 앞서 기입했듯, 창업의 대부분은 한식 업종이었는데, 요새 사람들의 한식 소비량이 많지는 않은 것 같아 사장님들이 걱정됩니다.
그렇다면, 개업 후 폐업 비율이 가장 높은 업종은 무엇일까요? 한식 창업이 가장 많으니 한식일까요? 데이터가 아래와 같이 말해줍니다.
foodshop %>%
filter(!is.na(open_date), !is.na(type),!is.na(district)) %>%
group_by(type,status) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
arrange(desc(pct)) %>%
ggplot(aes(x= reorder(type,-pct), y = pct, fill = status))+
geom_col(position = 'fill') +
coord_flip()+
scale_fill_manual(values=c("#3288BD","#D53E4F"))
역시 결측치를 제외, 업종별로 나눈 후 또 영업&폐업별 음식점 수치 데이터를 추출하여 시각적으로 나타내봤습니다.
가장 폐업비율이 높았던 업종은 뷔페 분야입니다. 알다시피 몇년전만해도 한창 애슐리, 자연별곡 등 다양한 뷔페 브랜드들이 대거 등장했었습니다. 가격도 비싼편이 아니고 제공하는 음식들도 퀄리티가 나쁘지 않았기 때문에 많은 수요층이 있어야했는데, 사람들이 금방 흥미를 잃었고 치킨게임식 경영이다 보니 생존하기 쉽지 않았던 것 같습니다.
사실 전체적으로 폐업률은 골고루 높은 편입니다, 가장 생존률이 좋은 업종은 태국,인도 음식점이 포함된 asian 음식점 업종입니다. 저도 인도 커리 전문점을 즐겨 찾곤하는데 요새는 서울에서 정말 전문적인 각국의 해외음식들을 맛볼 수 있어 놀라운 수준입니다. 갈릭난의 달콤함이 생각납니다.
2020~2021년 기간 창업하여 폐업을 한 요식업 업종순위를 알아보겠습니다. 물론 코로나 영향 뿐 아니라, 다양한 사유로 폐업을 한 경우도 많겠지만, 코로나 기간 업정별로 폐업율을 분석하는 것 역시 유의미할 것으로 생각됩니다. 코드는 아래와 같이 2020~2021 개업한 가게들 중 업종별 수치를 구해 전체 가게 수에 대한 폐업 비율로 나타내었습니다.
foodshop %>%
filter(!is.na(open_date_ac),!is.na(type),!is.na(district)) %>%
group_by(type,status) %>%
summarise(n = n()) %>%
mutate(total = sum(n),
pct = round(n/total*100,1)) %>%
filter(status == '폐업') %>%
arrange(desc(pct)) %>%
ggplot(aes(x= reorder(type,pct), y = pct))+
geom_col()+
coord_flip() +
ggtitle('코로나 이후 폐업한 요식업 업종 순위')+
theme(plot.title=element_text(size=15))
가장 높은 폐업율은 가장 많이 창업하고 가장 많이 폐업한 한식이였습니다. 물론 2년의 기간이기 때문에 폐업 비율도 적고, 코로나 이후 개업으로 설정했기 때문에 결과 분석이 굉장히 한정적인 점 참고해주시길 바랍니다.
앞서 구한 전체 기간의 업종별 개업&폐업 비율은 과거 데이터의 영향이 컸습니다만, 이 2년 기간의 그래프는 현재 추세를 잘 나타내는 듯 합니다. 정직하게, 가장 많은 창업 업종이 가장 많이 폐업을 했습니다. 즉, 코로나 이후의 폐업은 특정한 업종에 집중되어 있지 않다는 결론을 내릴 수 있습니다. 거리두기 정책은 공정하게 적용이 되었습니다.
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=webkim&logNo=221759848939
서울만큼 카페가 많은 도시가 있을까요?
걷다보면 한 블럭에 두세개의 크고 작은 카페들이 있습니다. 수익이 잘 나는지는 모르겠지만, 그만큼 대중적인 창업 업종이라고 할 수 있겠습니다.
모든 것에 유행이 존재하듯, 카페 창업이 엄청난 붐을 일으켰던 시기가 있습니다. 통계적으로 2010~2014년 사이 비약적으로 증가했음을 알 수 있었습니다. 기사를 좀 찾아보니, 지금은 거의 없어진 카페베네의 매장수 최고치도 2014년 912개까지 증설했다고 하니 이때부터 한국 창업시장에 큰 영향을 끼쳐왔다고 할 수 있겠습니다.
물론 폐업은 개업 후 2~3년 뒤인 2015~2018년사이에 가장 많이 발생했습니다. 생존이 역시 쉽지 않은 것 같습니다.
그럼 전체 업종의 연도별 개업 트렌드도 같이 알아보겠습니다. 프로세스는 아래와 같이 네 단계로 나눠 진행했습니다. 먼저 개업&폐업 각각의 수치를 추출하여 새로운 객체를 만들어 준 후, 통합 선 그래프 작성을 위해 연도를 기준으로 lefe_join하여 제작하였습니다. 선 그래프는 세 가지 방법 중 하나를 고르시면 됩니다. 결과는 세 번째 옵션을 사용했습니다.
open_trend <- foodshop %>%
filter(!is.na(open_date), !is.na(district)) %>%
group_by(open_year) %>%
summarise(open_n = n())
close_trend <- foodshop %>%
filter(!is.na(close_date), !is.na(district)) %>%
group_by(close_year) %>%
summarise(close_n = n())
open_close_trend<- left_join(open_trend1, close_trend1, by = 'year')
#option1
ggplot()+
geom_line(data = open_close_trend, aes(year, open_n)) +
geom_line(data = open_close_trend, aes(year, close_n), color = 'red')+
xlab('연도')+
ylab('개수')
#option2
ggplot(data = open_close_trend)+
geom_line(aes(x = year, y = open_n))+
geom_line(aes(x = year, y = close_n, color = 'red'))+
xlab('연도')+
ylab('개수')
#option3
library('tidyverse')
open_close_trend_long<- left_join(open_trend1, close_trend1, by = 'year') %>%
pivot_longer(-year, names_to='open_close', values_to='cnt') %>%
ggplot( aes(x= year, y = cnt, col = open_close)) +
geom_line()
데이터에 의하면, 창업이 많았던 연도는 1990년대 후반~ 2000년대 초 입니다. 당시 한국 IMF 금융위기로 다수의 실직자가 발생하였으며 이들 대부분이 요식업 창업에 뛰어들었지 않았나 추측합니다. 물론 폐업 역시 2000년대 초에 가장 많이 발생하였습니다. 특별한 전문지식이 없어도 상대적으로 허들이 낮은 요식업 창업과 인터넷의 발달로 다수의 성공신화들을 접하는 것이 큰 요인이된 것 같습니다. 어떤 업종이든 모방을 통한 단기적 수익보다는, 자신만의 아이템을 연구하여 장기적 성장을 기대해야할 것 같습니다. 역시 코로나 발발 이후 전체적인 개업수는 큰폭 감소했습니다.