인공지능 프롬프팅, 이제는 멀티모달이 정답

[이용호의 생활 속의 인공지능]

Dec 25. 2023

[멀티모달을 이용한 프롬프팅, DALL-E3에서 이용호 그림]

챗gpt가 세상에 등장한지 1년이 조금 넘어서는 현재 챗gpt뿐만 아니라 구글의 Bard, 마이크로소프트의 Bing, 네이버의 Cue, 뤼튼 등 다양한 생성형 AI 플랫폼들이 전 세계인 사용자들을 위해서 매우 바쁘게 돌아가고 있다. 지난 7월 초 프롬프트에 대해 칼럼을 쓴 적이 있고 이어서 이메일과 제안서 작성 시 올바른 프롬프팅에 대해서도 다룬 적이 있다. 그 글들을 지금 읽어봐도 큰 맥락에서는 지금도 유용한 방법이기에 오류가 있다고 할 수는 없다.

다만 급박하게 변하는 생성형 AI 시장에서 6개월 전에 비해 많은 기능들이 새로운 기능들이 많이 들어 왔는데 이들 대부분은 "멀티모달"이라는 단어로 통합될 수 있다. 대표적인 기능들을 몇 가지 나열해보면 이미지 첨부 기능, PDF, 엑셀, 파워포인트 같은 문서 첨부 기능과 마이크를 사용하여 챗봇과 대화하는 기능 등이 있다. 이렇게 멀티모달 기능이 강화된 시점에서 프롬프팅도 이전과는 다르게 새로운 조명이 필요가 있다는 판단에 이번 칼럼을 준비했다. 특히 이번에는 멀티모달 측면에 집중하여 글을 전개해 볼 예정이다.

먼저 이미지 생성을 할 챗gpt의 프롬프팅에 대해 알아보자. 이미지를 생성하려면, 챗gpt의 그림그리기 툴인 DALL-E3에게 매우 구체적이고 명확한 설명을 제공해야 한다. 보통 이미지의 세부 사항, 색상, 배경, 주제 등을 포함시키는 게 좋다. 인물을 그릴 때는 다양한 인물의 특성(인종, 국적, 성별 등)을 고려하여 설명을 작성해야한다. 특정한 예술적 스타일이나 장르, 예를 들어 인상주의, 극사실주의, 추상화, 마블 스타일 등을 지정하여 이미지의 전반적인 느낌을 가이드할 수도 있다.

이미지 생성에서 내가 직접 촬영하거나 그리기 원하는 그림과 유사한 이미지가 있다면 이것을 첨부하여 그리기를 요청할 수 있다. “첨부 이미지를 참조하여 ~~” 라고 프롬프팅을 하면 된다. 그러면 챗gpt는 첨부 이미지의 특성을 파악하여 가장 유사하게 그림을 그려준다, 단 주의할 점은 인물 사진을 첨부할 경우 초상권문제로 거부당할 수 있다. 이를 피해가기 위해서는 실사가 아닌 마블, 웹툰, 혹은 여러 가지 미술 기법으로 그려 달라고 하면 거부하지 않고 그려준다.

그리고 필요에 따라 1024x1024, 1792x1024 같은 이미지 해상도나 16:9, 1:1, 9:16 같은 이미지화면 비율를 선택 할 수 있으며 이미 생성된 이미지에 대한 피드백을 기반으로 수정 요청을 할 수 있다. 하지만 저작권이 있는 캐릭터나 실제 인물의 모습을 그대로 사용하는 것은 피해야 하고, 폭력적이거나 불쾌한 내용, 정치적 민감성이 있는 주제는 피해야 한다.

2023년 4월부터 챗gpt에서는 특정 유형의 첨부 파일을 처리하는 기능이 있어 지원 가능한 작업 범위와 상호 작용이 향상되었다. 첨부할 수 있는 파일 유형으로는 텍스트 파일(예:.txt, .docx ), 이미지(예: .jpg, .png), PDF, 스프레드시트(예: .xls, .csv), 코드 파일(다양한 프로그래밍 언어) 등이 있다.

파일 첨부를 통해 프롬프팅을 할 때의 장점은 긴 문서나 데이터 세트와 같이 수동으로 입력하기에는 너무 길거나 복잡한 콘텐츠에 대한 보다 심층적인 분석이 가능하다. 특히 대용량 데이터나 텍스트를 처리할 때 파일을 첨부하면 시간과 노력을 절약할 수 있다. 파일을 직접 업로드하면 복잡한 데이터나 텍스트를 수동으로 입력하거나 복사하여 붙여 넣을 때 발생할 수 있는 오류를 줄일 수도 있다.

파일을 제공하면 챗gpt에 더 많은 맥락이 제공되어 특히 데이터 분석이나 문서 검토와 같은 작업에서 더욱 정확하고 관련성이 높은 응답이 가능해진다. 이미지 파일을 사용하면 텍스트만으로는 불가능한 이미지 설명, 개체 식별, 예술적 분석 제공 등의 시각적 작업이 가능해지기도 한다. 코드 분석 및 디버깅을 할 때 모델이 실제 코드 구조를 처리하고 이해할 수 있으므로 코드 파일을 업로드하면 보다 효과적인 디버깅, 코드 검토 및 프로그래밍에 대한 평가를 얻을 수 있다.

챗gpt는 스프레드시트와 데이터 파일을 통해 데이터 작업을 지원하고 계산을 수행하며 통찰력 또는 시각화를 생성할 수 있다. 문서 접근성 측면에서 PDF 및 기타 문서 형식의 경우 이 기능은 텍스트 추출, 콘텐츠 요약 또는 콘텐츠를 보다 접근하기 쉬운 형식으로 변환하여 접근성을 제공하는 데 특히 유용할 수 있다.

제한사항 및 고려사항으로는 개인 정보 보호 및 데이터 보안은 중요한 고려 사항이므로 민감한 개인 정보를 업로드할 때 주의해야 하고 AI 플랫폼 성능에 따라 업로드할 수 있는 파일의 크기 및 형식에 제한이 있을 수 있다. 챗gpt의 경우 2023년 12월 현재 파일을 10개까지 한꺼번에 올릴 수 있다. 하지만 파일 업로드 결과를 내놓기까지 시간 지연이나 결과 도출 실패를 자주 접하게 되는 것은 흔한 일이니 참조할 필요가 있다.

이번에는 휴대폰에서 마이크를 사용하여 음성으로 챗봇과 소통할 수 있는 편의성에 대해 이야기 해보자. 이것은 특히 자동차를 직접 운전하며 이동하면서 버튼 하나로 조작이 이루어지므로 매우 편리해서 나도 자주 이용하는 기능이다. 단순한 정보제공 뿐만 아니라 조수석에 앉아 함께 가는 동반자처럼 친절하게 대화를 해주므로 운전의 즐거움이 배가되기도 한다. 특히 원하는 외국어로 대화도 가능하기에 외국어를 공부하는 사용자들에게는 회화공부에도 많은 도움이 된다.

마이크 아이콘은 챗gpt 입력창 오른쪽에 위치한다. 이 아이콘을 누르면 Connecting(연결 중) -> Listening(청취 중) 의 차례로 넘어간다, 청취 중 상태에서 말을 하면 된다. 이 기능을 사용하기 전에 챗gpt의 설정창의 Speech 메뉴에서 Voice(목소리)를 여러 명의 남성과 여성 목소리 중 선택을 하고 Main Language (주 언어)를 선택할 수 있다. 언어 선택을 한국어로 할 수 있지만 내 경험으로는 ‘Auto-Detect(자동감지)로 그냥 놔두고 사용할 것을 권장한다. 왜냐하면 챗봇은 디폴트로 영어로 말을 하지만 “앞으로 대화는 한국어(또는 원하는 언어)로 하고 싶어”라고 말하면 이후에는 한국어나 원하는 언어로 계속 말을 해주기 때문이다.

이 음성 챗봇을 잘 사용하려면 질문이나 명령을 분명하고 자연스럽게 말해야 한다. 빠르게 말하거나 불분명하게 발음하면 인식 오류를 경험하게 된다. 정확한 인식을 위해 반복적인 연습을 통해서 챗봇과 친해질 필요가 있다. 큰 배경 소음은 음성 인식 정확도를 떨어뜨릴 수 있으므로 정확한 음성 인식을 위해 조용한 환경에서 사용하는 것을 추천한다. 라디오나 음악 사운드는 끄고 대화하는 것이 좋다. 또한 질문이나 명령을 간결하고 명확하게 하라. 너무 긴 문장이나 복잡한 지시사항은 인식 오류의 원인이 될 수 있다.

가끔 챗봇이 너무 길게 설명해서 중간에 멈추게 하고 싶다면 왼쪽 아래 멈춤 버튼을 누르면 다시 사용자가 이야기 할 수 있는 청취 중 모드로 변경이 된다. 그리고 음성 채팅을 멈추고 키보드 입력 모드로 전환하려면 화면 아래 중앙에 ‘Tap to cancel’ 상태일 때 X 버튼을 누르면 된다. 음성 인식이 정확하게 전달이 되지 않으면, 이를 통해 키보드를 사용하여 입력을 수정할 수 있게 해준다. 음성 챗봇과의 대화 내용은 전부 텍스트로 변환되어 실시간으로 저장되어 있다. 이 음성 채팅기능은 이동 중이거나 손이 자유롭지 않을 때 매우 유용하므로 자주 사용해 보길 권장한다.

위에서 이미지, 각종문서, 음성 등 멀티모달을 이용하여 챗gpt의 프롬프팅을 보다 풍성하고 유용하게 사용하는 방법들을 설명하였다. 멀티모달을 이용하면 단순히 텍스트로만 프롬프팅을 할 때와는 비교할 수 없을 만큼 만족스런 결과를 만들어 낼 수 있다. 내 주변에는 아직 인공지능을 알고만 있지 사용하지 않는 사람들이 더 많다. 나는 챗gpt가 세상에 나온 이후 지난 1년 동안 인공지능 관련 새로운 뉴스와 정보에 대해 계속 공부하면서 매주 칼럼을 써오고 있다. 인공지능 학습에서 제일 중요한 것은 사용의 습관화이다. 그동안 챗gpt와 다른 생성형 인공지능 플랫폼들을 사용하면서 느낀 점은 수시로, 발 빠르게, 예고없이 기능이 업그레이드된다는 것이다. 매일 식사를 하듯이 자주 들여다보지 않으면 새로운 기능을 놓치기 십상이다. 나는 주위 사람들에게 챗gpt 사용을 습과화 하라는 말을 자주한다. 한 번의 실천보다는 습관화가 더 중요하다.

| 작가 프로필

이용호 호몽 작가는 스마트 공장에서 주로 사용되는 ‘머신비전’ 전문회사인 ‘호연지재’를 경영하고 있으면서 다양한 분야에 관심이 많아 메타버스와 유튜브 인플루언서로 활동하고 있다. 특히 ‘머신비전’에서 인공지능 딥러닝에 의한 영상처리기술을 자주 적용하다보니 AI 분야에 대해서도 해박한 지식을 가지고 있다. 또한 SKT 메타버스 플랫폼인 이프랜드(ifland)에서 매주 월요일 오후 9시에 정기적으로 ‘호몽캠프’를 진행하고 있으며 93회 이상 진행된 밋업에는 작가, 강사, 가수, 연주가, 아티스트, 사업가 등 여러 분야의 전문가들이 초대되었고 최근에는 게스트를 초대하는 토크쇼 외에도 각 지역, 박물관, 유적지 답사 여행 등과 같은 다양한 컨텐츠로 호몽캠프를 이어가고 있다.

주요 강의 분야는 “챗gpt 시대 생활 속의 인공지능 발견하기”, “시니어와 MZ세대 간의 원활한 커뮤니케이션”, “시니어 세대 인플루언서 활동으로 인생 이모작”, “워라밸 시대 워크닉으로 행복한 인생 만들기” 등이 있으며, 저서로는 『나는 시니어 인플루언서다』가 있다.

keyword

작가의 이전글구글 제미나이(Gemini)와 챗gpt 전쟁의 승자는테슬라 옵티머스 젠2, 휴머노이드 세상을 열다작가의 다음글