머신러닝을 이용한 손글씨 스타일 분석과 시각화
최근 싱가폴 언론사인 스트레이트 타임즈와 작업한 데이터 시각화 및 스토리텔링 아티클 ‘Why Handwriting Matters'이 나와서 소개합니다.
세대별로 손글씨(handwriting) 스타일은 어떻게 다를까요? 이 질문에 대한 답을 얻기 위해서 6살부터 69살까지 다양한 연령의 손글씨 샘플 90개를 분석해 보았습니다. 세대별로 샘플을 아래와 같이 구분해 보았습니다. 어떤 패턴이 보이나요?
머신러닝을 이용하여 각 알파벳을 쓰는 특성을 분석한 결과, 3개의 대표적인 손글씨 스타일을 발견할 수 있었습니다. 크게는 필기체(Cursive)와 인쇄체(Print)로 나뉘고, 인쇄체는 휘갈겨 쓴 듯한 모양의 낙서체(Scribbly print)와 둥글둥글한 형태의 버블체(Bubbly print)로 구분되었습니다.
재미있는 사실은 버블체(Bubbly print)는 그 모양에서 유추할 수 있듯이 대부분 GenZ 혹은 Gen Alpha가 사용하는 스타일이었고, 필기체(Cursive)는 Gen X 혹은 Boomer가 주로 사용하는 것을 알 수 있었습니다.
OCR(Optical Character Recognition)은 사진이나 이미지 속 글자들을 진짜 텍스트로 바꾸어주는 기술을 말하는데요. OCR을 이용해서 버블체의 글씨를 인식했을때, 그 정확도가 아래와 같이 높았습니다. 대부분 Perfect match 인 것을 확인할 수 있습니다.
반면 필기체는 OCR을 사용한 텍스트 인식 정확도가 매우 낮습니다. 인식되지 않는(Unreconizable) 경우가 대부분입니다. 오래된 문서는 대부분 필기체로 쓰여있는데, 때문에 역사 기록물과 같은 문서들의 내용을 기록해야 하는 경우 OCR 기술을 사용하기 어렵다고 합니다.
세대별 손글씨 스타일이 어떻게 다른지, 대표적인 손글씨 스타일이 무엇이 있는지 살펴보았습니다. 이를 바탕으로 손글씨 스타일을 분석하는 측정기를 만들어보았어요. 다음 페이지 (https://str.sg/viz-handwriting)에 방문해서 본인의 손글씨 스타일을 확인해 보세요!
https://str.sg/viz-handwriting
https://str.sg/viz-handwriting-explainer