중간 사이즈 모델인 sonnet으로 테스트한 결과 한국어 구사 능력은 준수했지만, 지시문을 이해하는 능력이 영어에 비해 부족했고, 한국의 고유 요소(사회문화가 반영된 밈)에 대해서는 자주 환각을 일으켰다.
그러나 '조선시대의 흑마술'과 같은 픽션은 구분하는 모습을 보였다.
https://twitter.com/alexalbert__/status/1764722513014329620
-> opus 에게 needle in haystack 실험 도중, 유저의 질문이 모델의 역량을 평가하는 의도를 가지고 있음을 인지한 사례
-> 훈련 데이터 오염 문제 아닌가, 하는 의심이 제일 먼저 들기는 함
https://twitter.com/DimitrisPapail/status/1764772298912075856
-> opus가 스스로를 gpt4라고 착각하는 사례
-> gpt4 정도의 역량을 갖추는데 gpt4로 생성한 합성데이터가 많은 도움이 됐지만, gpt4에 내재된 '잠재적 위험'도 있을 수 있다는 것을 의미. 데이터 오염이라고 부를 수 있을지는 모르겠음.
https://twitter.com/idavidrein/status/1764675668175094169
-> gpqa: 박사급 인력들이 인터넷을 이용해도 65~80%의 정답률을 보이는 문제들로 구성된 llm 벤치마크 ( https://arxiv.org/pdf/2311.12022.pdf )
-> 기존의 mmlu, gsm8k, humaneval과 같은 벤치마크들은 이미 포화(saturated, 점수들의 상향 평준화)되었기에 의미를 잃음
-> 해당 벤치마크는 sota 모델들도 60% 이하의 정답률을 보여 비교적 벤치마크로 사용될 여지가 남아있음
-> 0 shot: claude 3 opus 50% vs gpt4 35%
-> 데이터 오염의 위험은 여전히 있음
-> 벤치마크에 참여한 전문가의 수가 적어 향후 보완이 필요할 것으로 보임