GPT-5.4로 OCR 워크플로 구축하기

외국 약품 성분을 한국어로 알려주는 AI 앱 만들기

by 최재철
19506_20668_031.jpg

1. GPT-5.4의 등장, 무엇이 달라졌을까요?

1-1. 드디어 나왔습니다! GPT-5.4가 출시되었습니다

지난 2026년 3월 5일, AI 업계에 정말 흥미로운 소식이 전해졌습니다. OpenAI가 자사의 최신 플래그십 모델인 GPT-5.4를 공식 출시한 것입니다. 모델 업그레이드가 발표될 때마다 개발자 커뮤니티가 들썩이는 것은 이미 익숙한 풍경이 되었지만, 이번 GPT-5.4는 그 기대감이 유독 컸습니다. 단순히 숫자가 올라간 버전 업이 아니라, 이미지 이해 능력, 복잡한 추론, 긴 문맥 처리, 구조화된 출력 등 실제 서비스를 만드는 데 필요한 핵심 기능들이 한꺼번에 크게 향상되었기 때문입니다.

이 모델이 출시되었다는 소식을 처음 접했을 때 많은 개발자들이 즉시 궁금해한 것은 단 하나였습니다. "내가 만들고 싶었던 그 서비스, 이제 만들 수 있을까?" 그리고 그 대답은 놀랍게도 "네, 그것도 매우 빠르게"였습니다.

이전에는 이미지에서 텍스트를 읽는 OCR 기능, 읽은 내용을 번역하는 번역 기능, 번역 결과를 분석해서 요약하는 기능을 각각 다른 도구로 구현해야 했습니다. 서로 다른 API를 연결하고, 데이터 형식을 맞추고, 오류 처리를 각각 해 주어야 했죠. 그 과정이 복잡했기 때문에 아이디어는 있어도 구현하기까지 많은 시간이 걸렸습니다.

하지만 GPT-5.4가 등장하면서 이 흐름이 바뀌었습니다. 이미지를 보여 주면서 "이 이미지에서 텍스트를 읽고, 어떤 언어인지 알아내고, 한국어로 번역하고, 중요한 성분을 정리해 줘"라고 한 번에 요청할 수 있게 되었습니다. 그리고 모델은 이 복잡한 요청을 실제로 꽤 잘 해냅니다. 이제 개발자는 여러 도구를 연결하는 복잡한 배관 공사 대신, 사용자 경험과 앱 설계에 집중할 수 있게 되었습니다.


1-2. 지금 AI는 어디까지 왔을까요?

GPT-5.4 출시를 제대로 이해하려면, 지금 AI 기술이 어디까지 왔는지를 먼저 살펴볼 필요가 있습니다. 불과 2~3년 전만 해도 AI 챗봇은 "대화 상대"에 가까웠습니다. 질문을 하면 그럴듯한 답변을 돌려주는 수준이었고, 이미지를 보거나 복잡한 문서를 분석하는 능력은 제한적이었습니다.

그런데 지금은 다릅니다. 현재 AI 모델들은 다음과 같은 일들을 실제로 해냅니다.

• 이미지 안의 텍스트를 읽고 의미를 해석하기 (멀티모달 이해)

• 긴 문서 전체를 읽고 핵심 내용을 구조화하여 정리하기

• 프로그래밍 코드를 작성하고 오류를 찾아 수정하기

• 여러 단계의 복잡한 지시를 순서대로 처리하기

• 결과를 JSON 같은 정해진 형식으로 반환하기


이런 변화는 단순히 "AI가 더 똑똑해졌다"는 수준이 아닙니다. AI가 개발 도구로서 실질적으로 활용 가능한 단계에 접어들었다는 의미입니다. 예전에는 머신러닝/딥러닝 전문가가 아니면 AI를 응용 서비스에 접목시키기 어려웠지만, 이제는 API 호출 방법과 좋은 프롬프트 설계법만 알아도 강력한 AI 기반 서비스를 만들 수 있습니다.

특히 GPT-5.4가 지원하는 Responses API는 개발자가 이미지와 텍스트를 하나의 요청에 담아 보낼 수 있게 해 줍니다. 그리고 그 결과를 JSON 형식으로 받아서 앱의 UI에 바로 연결할 수 있습니다. 이전 세대 API들이 각각의 기능을 따로 호출해야 했던 것과 비교하면 개발 과정이 훨씬 단순해졌습니다.


2. GPT-5.4란 무엇인가요?

2-1. 정의

GPT-5.4는 OpenAI가 2026년에 공개한 최신 AI LLM 모델입니다.

스마트폰으로 비유하자면 삼성의 갤럭시 S 시리즈의 최신폰 이나 애플의 iPhone Pro 의 최신라인업입니다.


OpenAI 공식 문서에 따르면 GPT-5.4는 복잡한 추론, 코딩, 전문 워크플로에 적합한 모델로 소개됩니다.

저자가 생각하는 핵심 키워드는 세 가지입니다.

• 복잡한 추론: 여러 단계를 거쳐야 하는 문제를 논리적으로 해결하는 능력

• 코딩 지원: 프로그래밍 코드를 작성하고 디버깅하는 능력

• 전문 워크플로: 실제 업무에서 활용할 수 있는 복잡한 작업 흐름을 처리하는 능력


2-2. GPT-5.4의 주요 기능 살펴보기

GPT-5.4가 이전 모델들과 다른 점을 구체적으로 살펴보겠습니다.

처음 AI API를 접하는 분들도 이해하기 쉽게 각 기능을 설명해 드리겠습니다.


① 이미지 입력 지원 (멀티모달)

GPT-5.4는 텍스트뿐 아니라 이미지도 입력으로 받을 수 있습니다. 이를 "멀티모달(Multimodal)"이라고 부릅니다. "모달(Modal)"은 정보의 형태를 의미하며, 텍스트, 이미지, 오디오 등이 각각 하나의 모달입니다. 멀티모달은 이 여러 가지 형태의 정보를 함께 처리할 수 있다는 뜻입니다.


② 긴 컨텍스트 윈도

"컨텍스트 윈도(Context Window)"란 모델이 한 번에 처리할 수 있는 텍스트의 양을 의미합니다. 책으로 비유하자면 모델이 한 번에 읽을 수 있는 페이지 수라고 생각하시면 됩니다. GPT-5.4는 이 컨텍스트 윈도가 매우 길어서, 긴 문서나 여러 이미지, 이전 대화 내용을 모두 참고하면서 작업할 수 있습니다.

예를 들어 약품 설명서가 여러 페이지에 걸쳐 있어도, 전체 내용을 한 번에 분석해서 핵심만 정리해 달라고 요청할 수 있습니다.

구체적으로 책 8~10권 / 위키 문서 100~300개 / 이미지 50~200장 를 한방에 처리할 수 있는 수준입니다.


③ Responses API

Responses API는 GPT-5.4를 사용하기 위한 OpenAI의 통합 인터페이스입니다. 이전에는 텍스트 생성, 이미지 처리, 도구 호출 등을 각각 다른 API 방식으로 호출해야 했습니다. 하지만 Responses API는 이 모든 것을 하나의 일관된 방식으로 처리할 수 있게 해 줍니다.

개발자 입장에서는 배워야 할 것이 줄어들고, 코드도 더 깔끔해지는 장점이 있습니다.


예를 들어, 통상 OCR 앱 만들려면 다음과 같은 절차를 따릅니다.

1. 이미지 처리 API 호출

2. 텍스트 추출

3. 번역 API 호출

4. 분석 모델 호출

5. 결과 조합

이전에 API 5~6개 조합해서 처리했다면, 지금은 하나의 API로 모든 기능 처리 가능하다라는 것입니다 .

GPT-5에서 시작 → GPT-5.4에서 제대로 성숙되었습니다.

다시말해, GPT-5에서 개념이 도입 되었다면, GPT-5.4에서 실전 usable 수준으로 올라왔습니다.


(참고) GPT-5.4의 Responses API와 함께 사용할 때 성능이 더 좋아짐


④ 구조화된 출력

GPT-5.4는 결과를 JSON처럼 정해진 형식으로 반환할 수 있습니다. JSON은 데이터를 키-값 쌍으로 구조화하는 형식으로, 프로그램에서 다루기 매우 쉽습니다.

예를 들어 "성분명: 아세트아미노펜, 용도: 해열 진통, 주의사항: 하루 최대 8정"처럼 데이터가 분리된 형태로 오면, 앱 화면에 항목별로 나눠서 보여주기가 훨씬 편합니다.


⑤ 함수 호출 (Function Calling)

모델이 외부 함수나 API를 호출하는 능력입니다. 예를 들어 "이 약의 정확한 복용 정보를 의약품 데이터베이스에서 찾아줘"라고 하면, 모델이 직접 데이터베이스 조회 함수를 호출해서 결과를 가져올 수 있습니다. 이 기능을 활용하면 AI와 외부 시스템을 더욱 유기적으로 연결할 수 있습니다.

화면 캡처 2026-03-26 134540.png

2-3. 이 모델을 잘 활용하려면?

GPT-5.4는 강력하지만, 잘 활용하려면 몇 가지 원칙을 알아야 합니다. 좋은 모델이라고 해서 아무 방식으로 질문해도 항상 좋은 결과가 나오지는 않습니다.

OpenAI 공식 Prompt Guidance 문서는 복합적인 작업에서 다음을 권장합니다.

• 막연하게 요청하지 말고, 단계별로 명확하게 지시할 것

• 결과 형식을 미리 정해서 모델이 일관된 형태로 반환하게 할 것

• 이미지 작업에서는 이미지 해상도 처리 방식을 명시적으로 설정할 것

• 모델이 모르는 것은 추측하지 말고 명시적으로 표시하게 할 것


이 원칙들은 이 글 전반에 걸쳐 실제 코드와 프롬프트 예제를 통해 구체적으로 보여드리겠습니다.


3. 프롬프트 설계: 같은 모델, 다른 결과

3-1. 프롬프트가 왜 중요한가요?

이런 질문을 많이 받습니다. "어차피 최신 모델이잖아요. 대충 써도 잘 되지 않나요?" 실제로 GPT-5.4는 정말 강력해서, 간단한 질문에는 대충 써도 어느 정도 그럴듯한 결과를 냅니다. 문제는 안정성입니다.

여러분이 만든 앱을 실제 사용자들이 쓴다고 생각해 보세요. 어떤 사용자는 선명한 사진을 올리지만, 어떤 사용자는 흔들린 사진을 올립니다. 어떤 약품은 영어로 되어 있고, 어떤 약품은 일본어, 독일어, 프랑스어가 뒤섞여 있습니다. 이런 다양한 상황에서도 앱이 일관된 형식으로, 안전하게 결과를 돌려주려면 프롬프트 설계가 탄탄해야 합니다.

OpenAI는 이런 상황을 위해 "프롬프트 퍼스낼리티(Prompt Personality)"라는 개념을 제안합니다.

모델에게 어떤 역할과 태도로 작동해야 하는지 명확하게 정의해 주는 것입니다. 이것은 단순한 말투 설정이 아니라, 모델이 정보를 어떻게 처리하고 표현해야 하는지를 제어하는 전략입니다.


3-2. 프롬프트 퍼스낼리티의 종류

OpenAI Cookbook 문서에는 여러 가지 프롬프트 퍼스낼리티가 소개됩니다. 각각의 특성을 이해하면 상황에 맞는 프롬프트를 설계하는 데 도움이 됩니다.


▶ Professional (전문가형)

의사, 변호사, 엔지니어 같은 전문가처럼 정확하고 신뢰할 수 있는 방식으로 정보를 전달합니다. 전문 용어를 사용하며, 불확실한 부분을 솔직하게 인정합니다. 의료 정보나 법률 정보처럼 정확성이 중요한 분야에 적합합니다.

▶ Efficient (효율형)

군더더기 없이 핵심만 전달합니다. 불필요한 서론이나 설명을 생략하고, 정해진 형식에 맞게 간결하게 출력합니다. JSON이나 표 형태의 구조화된 출력에 특히 유용합니다.

▶ Fact-Based (사실 중심형)

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
최재철작가님의 멤버십을 시작해 보세요!

(전) SK(주)C&C R&D AI개발부서 파트장, BC카드, 하나카드, 롯데카드를 거쳐 20여년차 IT개발자입니다. 그간의 경험을 쉽게 공유드립니다.

225 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 3개의 멤버십 콘텐츠 발행
  • 총 23개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글LLM-Inference 관련해서