멀티모달 성능 비교

크리스마스 트리를 이용한

img1.daumcdn.jpg 오리지널 입력 이미지


인공지능 챗봇들의 멀티모달 성능을 비교해보기 위하여 다음과 같은 명령을 주고 결과물들을 비교해 보았습니다.


질문: "이 그림과 가능한 똑같은 그림을 파이썬으로 그래픽 코드를 작성하고 실행하여 만든 그림을 저장하도록 코드를 만들어."


참고로 멀티모달(Multimodal) 이라 함은 인공지능 챗봇이 입력한 텍스트 뿐 아니라 입력한 그림도 잘 이해하는 능력을 말합니다.





img1.daumcdn.png 머스크(X, 트위터)의 Grok 결과, 아직 갈길이 멀다 ...

균형은 잘 잡혀있네요...하지만 그래픽이... 아마도 코딩능력 부족??



img1.daumcdn-1.png Gemini 결과, 코딩은 잘하는거 같은데 그림이해능력이 부족? 아쉽다 ...

역시 멀티모달은 쉽지가 않네요 ~



img1.daumcdn-2.png chatGPT 결과 (GPT-5) , 명성에 비해 가장 쓰레기 성능을 보여주네요.

역시나 거품이 가장 많은 인공지능 챗봇이 아닌가 생각됩니다. 별조차 그려내지 못하네요...



img1.daumcdn-3.png MS Copilot 결과, 비슷하게 흉내는 냈는데 왜이리 혼란하게 그림을 그린건지...?

의욕은 좋은데... 너무 욕심을 낸거 아닐런지요? 역시 MS가 만든건 GUI가 참 구리네요 ...



img1.daumcdn-4.png Qwen-3 (MAX) 결과. 나름 구색은 다 갖추었네요... 하지만 그래픽 코딩의 질이 떨어지는 느낌?

그래도 글로벌 빅테크들에 비하면 양호하네요... 대단



img1.daumcdn-5.png Claude 결과(Sonnet4.5). 그래도 그중에 가장 완성도가 높고 균형잡혀 있네요... 역시 Anthropic ~



img1.daumcdn-6.png Perplexity 결과, 심플하지만 균형은 잡혀 있네요 ~

그림 이해도 어느정도는 해네는거 같아요.

img1.daumcdn-7.png HuggingChat 결과, 그래픽 코딩 능력이 부족해 보입니다.



img1.daumcdn-8.png Z.ai (GLM4.6) 결과. 나름 그림 이해와 코딩을 잘했네요... 트리를 반쪽만 그려주는 센스는 뭐지?



img1.daumcdn-10.png Quora 가 만든 Poe 챗봇의 결과. ㅋㅋㅋㅋㅋㅋㅋ


keyword
작가의 이전글컴퓨터 사양이 딸리면 S/W 실력이 는다?