brunch

You can make anything
by writing

C.S.Lewis

by 그로밋의 기술지능 Oct 01. 2023

chatGPT4가 이미지를 이해하기 시작했네요.

텍스트지능에서 시각지능으로



chatGPT4에서 이미지를 설명해주는 모습


추석 연휴가 한창인 9월30일(2023년)부터 

chatGPT4 에 이미지 업로드 기능이 생겼더군요.


개인적으로 Midjourney나 dall-E 같은 이미지 생성기능 보다 

고성능의 이미지의 이해기능을 더 기다려왔던 저 였기에 "드디어 올게 왔구나!" 싶어서

난해한 그림 한장을 올리고 대화창에 이것저것 질문을 던져보았습니다.

참고로 대화창 좌측에 보이는 작은 그림 아이콘을 누르면 이미지파일 업로드가 가능합니다.


우선 업로드한 그림의 원작자를 물어보았습니다. 

하지만 유명한 작품이 아니고 개인적인 정보여서 그런지 대답을 피하더군요.

프라이버시 보호 때문인듯 합니다..


두번째로 우측 벽에 걸린 모나리자 그림에 대한 질문을 던졌더니 잘 대답해줍니다. 

그림에 대한 간단한 상식도 알려주고요~

그림이 인터넷에 돌아다니는 그 사진이 아니므로 이건 확실히 이미지 분석능력이 우수하다는 반증이 됩니다.



물체분류와 카운팅에 대한 질문


이건 그림속 물체들에대한 분류(Classification)와 정량적인 계수(Counting)가 가능한지 질문해 본것입니다. 딥러닝은 object detection이 되므로 카운팅도 가능하죠.. 하지만 아래 질문처럼 측량이나 측정은 불가능하거나 정확도가 많이 떨어지더군요. 

예상했던 대로네요..



물체 분류 및 측량에 대한 질문



인물 포즈에 대한 질문


그림 속 인물의 포즈를 잘 이해하고 설명해 주는군요. 

인공지능으로 Pose Estimation 이 된다는 이야기지요.



패션 질문


인물에 대한 패션을 이해하는 능력도 가지고있네요~




마지막 질문


마지막으로 좀 어려운 질문을 던져보았습니다.

이건 사람도 답하기 어려운 질문인데요...

역시 잘 피해가네요.. ^^

질문을 너무 구체적으로(객관식으로) 한게 실수였을까요?


아무튼 이 정도 분석력이라면 회사업무나 실생활에 충분히 활용가능한 수준의 이미지 이해능력이라고 생각됩니다.  



GUI 코드 짜기


아마도 이런식으로 GUI창이나 웹페이지 이미지를 보여주고

javascript 나 python 등으로 작동하는 GUI 코드를 짜 달라고 하면 매우 잘 코딩해줄것이라고 생각됩니다.


참고로 아직은 유로사용자(chatGPT4 plus)에게만 지원되는 기능인거 같습니다.





작가의 이전글 생물학적 임피던스 매칭

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari