AI Research Math 'Substandard', Language
AI 연구수학 ‘수준 이하’ 언어모델 ‘새 아이디어 불가’ 과학발전 저해
AI가 연구수준 수학 풀이에 ‘수준 이하’ 평가를 받았고 언어모델(LLM)의 한계에서 ‘새 아이디어 불가’로 나왔다.
공동 저자중 한 명은 “인공지능이 과학적 발전을 늦춘다”고 평가했다.
세계적 여러 수학자들이 공동 집필한 신간 논문 <First Proof>"에 대한 논의에서 저자들이 "상업용 인공지능 시스템이 이미 수학자들에게 유용한 도구로서 유용한 수준에 도달했음에도 불구하고, 전문가가 개입하지 않는 상태에서 연구 수준의 수학 문제를 스스로 해결하는 데 아직 어떤 위치에 있는지는 명확하지 않다"고 썼다.
저자 중에 헤이어러 박사는 "나는 수학이 사실 꽤 '안전하다'고 믿는다"라며, “챗봇의 핵심 기술인 대형 언어 모델(LLM)이 이제 조작된 문제를 해결하는 데 꽤 능숙해졌다”면서도, 하지만 "LLM이 진정으로 새로운 아이디어나 개념을 내놓은 그럴듯한 사례는 본 적이 없다"고 말했다.
현재 인공지능 회사들은 일부 수학자들이 '인위적'이거나 '제한적인' 문제라고 표현하는 문제를 인공지능 연구소가 인간의 도움 없이 작동할 때 얼마나 잘 작동하는지 평가하고 투자자들로부터 거대 자금을 끌어 들이는 벤치마킹하는 데 사용한다.
AI 회사들이 가끔 수학자들이 참여 초청을 해서 검증하고 이에 대해 문제당 약 5,000달러를 지급하는 것으로 알려졌다.
이번 논문에서 첫 번째 증명 프로젝트 저자들 중 누구도 인공지능 회사와 연관이 없다.
온라인에 <tgkolda/1stproof>으로 7일 올라 온 파일은 <Upload files to "2026-02-batch">이다.
저자들을 취재한 뉴욕타임스는 “이 논문은 최근 시작된 실험을 설명하며, 저자들이 미발표 연구에서 추출한 진짜 시험 문제를 수집하여 인공지능의 수학적 역량을 의미 있게 측정하려는 시도를 했다”면서 “저자들은 이번 조사가 수학 분야가 인공지능에 의해 '해결된다'는 과장된 이야기에 미묘한 차이를 보이면서, AI에 대한 과대광고의 결과를 축소해 차세대 학생들을 겁주거나 연구 자금 지원자들을 위축시키길 희망한다”고 7일 밝혔다.
저자에는 2014년 수학 분야에서 가장 권위 있는 상인 필즈 메달을 수상했고, 2021년에는 고액의 새로운 경지를 개척한 공로상을 수상한 헤이어러 박사는 스위스 로잔 연방공과대학과 임페리얼 칼리지 런던에서 강의하고 있다.
헤이어러 박사는 2017년 뉴 호라이즌스 수학상 수상자인 스탠퍼드 대학의 모하메드 아부자이드 교수를 포함한 여러 수학자들과 공동 집필한 논문 "First Proof"를 냈고, 공동 저자에는 하버드 대학교의 로렌 윌리엄스 교수, 그리고 샌프란시스코 베이 지역에서 컨설팅 회사인 MathSci.ai 를 운영하는 타마라 콜다 박사 등이 올라있다.
실험을 위해 다양한 수학 분야를 대표하는 저자들은 각자 자신들이 진행 중이지만 아직 출판하지 않은 연구에서 나온 ‘시험 질문’ 하나를 제출했다.
NYT는 “그들은 이미 답을 정했다”며 “이 솔루션들은 온라인으로 암호화되어 있으며 2월 13일에 공개될 예정이다”고 밝혔다.
공동의 시험 질문에 대해 국립공학아카데미 회원으로 선출된 몇 안 되는 수학자 중 한 명인 콜다 박사는 "여기서 목표는 한계를 이해하는 것이다“며 ”AI가 훈련 데이터와 온라인에서 찾은 기존 해법을 얼마나 넘어설 수 있을까요?"라고 NYT에 말했다.
공동 연구팀은 OpenAI의 ChatGPT-5.2 Pro와 구글의 Gemini 3.0 Deep Think에 대한 예비 테스트를 진행했다.
저자들은 한 번의 기회에 답을 내놓을 기회가 주어졌을 때에 대해, "공개적으로 이용 가능한 최고의 인공지능 시스템들도 우리의 많은 문제를 해결하기 어렵다"고 썼다.
NYT가 밝힌 논문의 서문은 제목부터가 이에 대한 설명을 제공한다.
"베이킹에서 첫 번째 발효 과정, 즉 대량 발효 과정은 반죽 전체를 한 덩어리로 발효시키고, 그것을 나누어 빵으로 모양을 만드는 중요한 단계이다."
NYT가 밝힌 연구 진행과 결과는 대략 다음과 같다.
취재기자는 저자들과 화상회의와 이메일로 대화를 진행했고, 명확성을 위해 요약 및 편집했다.
질문 <"First Proof" 방법은 다른 벤치마킹 노력과 비교했을 때 어떻게 새로운가?>
모하메드 아부자이드 교수: 가장 큰 새로움은 시험 문제들이 실제로 우리 자신의 연구에서 가져왔다는 점이다.
우리리가 관심 있는 것부터 시작한다. 그 공간 안에서 우리는 시험할 수 있는 질문을 만들려고 노력한다.
질문 <검증 가능한 질문은 무엇인가?>
저자 답변: 현재 인공지능 시스템에는 잘 알려진 한계가 있다. 우선, 그들은 시각적 추론에 매우 약해서 그런 질문을 피했다; 만약 우리의 목표가 대립적인 것이라면, 우리는 그림을 포함한 질문을 했을 것이다. 또한 기업들은 답변 품질이 일정 수준을 넘어 저하되기 때문에 한 번에 모델의 응답 길이를 제한하므로, 답변이 5페이지 이상 필요한 쿼리는 피하도록 했다.
질문 <논문은 "수학 연구가 무엇인지"를 명확히 하는 데 신중을 기하고 있다. 이건 무슨 의미인가?>
아부자이드 교수: 현대 연구에서 핵심 단계는 가장 큰 동기 부여 질문, 즉 문제를 접근해야 할 방향을 파악하는 것이다. 모든 종류의 예비 작업이 필요하며, 바로 여기서 수학적 창의성이 일어난다.
문제가 해결되면, 수학자들은 연구 기여의 중요성을 제기되는 질문들에 따라 평가하는 경향이 있다. 때때로 추측을 한 방향으로 해결하는 것이 실망스럽게 여겨지는데, 이는 새로운 질문이 생길 가능성을 차단하기 때문이다..
로렌 윌리엄스 교수: 느슨한 비유를 하나 해보겠다. 실험 과학에서는 연구의 구성 요소를 세 부분으로 나눌 수 있다. 첫째, 우리 분야에 대한 통찰을 제시하고자 하는 큰 질문을 제시한다. 둘째, 질문에 답할 실험을 설계하도록 한다. 셋째, 실험을 수행하고 결과를 분석하는 것이다.
나도 수학 연구를 평행 부분으로 나눌 수 있다: 첫째, 우리가 이 분야를 이끌기를 바라는 큰 질문을 제시한다. 둘째, 큰 질문을 더 작고 다루기 쉬운 문제들로 나누어 해결책을 찾는 틀을 개발하는 것이다 — 예를 들어 우리의 시험 문제처럼. 셋째, 이 작은 질문들에 대한 해답을 찾아 그것이 옳음을 증명하는 것이다.
세 가지 모두 필수적이다. 첫 번째 증명 프로젝트에서는 세 번째 요소에 집중했는데, 이는 가장 측정 가능하기 때문이다.
작고 명확한 질문으로 인공지능 모델을 쿼리한 후, 그 답변이 맞는지 평가할 수 있다. 만약 우리가 AI 모델에 큰 질문이나 프레임워크를 내달라고 한다면, 그 성능을 평가하는 것은 훨씬 더 어려워질 것이다.
질문 <인공지능 시스템은 "첫 번째 증명" 평가에서 어떻게 평가됐나?>
윌리엄스 교수: 내 문제에 대한 한 테스트에서 흥미로운 일련의 반응이 나왔다. 모델은 답을 내놓고 "좋아, 이것이 최종 해답이다“교 말했다.
그리고 나서 "잠깐, 그만, 이건 어때?"라고 말하며 답을 어떤 식으로든 수정했다.
이런 식으로 계속된다: "좋아, 이것이 최종 해답이다. 잠깐, 함정이 있어!" 그것은 무한 루프에 빠졌다.
또 다른 답변은 밀접하게 관련되었지만 다른 질문에 대한 답변을 주었다.
타마라 콜다 박사: 예비 결과는 실망스러웠다. 인공지능이 문제를 혼란스러워하며 답변의 일부 핵심 정보를 무시했고, 일관성도 없었다.
이후 문제 설명을 수정하고 인공지능에게 더 나은 기회를 주기 위해 좀 더 명확한 지침을 추가했다. 최종 결과가 어떻게 될지 지켜봐야겠다.
마틴 헤이어러 교수: 내가 일반적으로 느낀 점 중 하나는, 모델이 쉬운 부분에 대해 많은 세부 정보를 주는 경향이 있다는 점이다.
즉, "네, 좋아요, 조금 더 빨리 해보세요. 네가 하는 말 듣고 지루해." 그리고 논쟁의 핵심에 대한 세부 정보는 거의 제공되지 않을 것이다.
때로는 형편없는 학부생의 논문을 읽는 것과 같아요. 어디서부터 시작하고 어디로 가고 싶은지는 알지만, 어떻게 거기에 도달할지 잘 모르는 상태다.
그래서 그들은 여기저기 떠돌다가 어느 순간 "그리고 그러므로" 안에 머물며 기도한다.
질문 <고전적인 손짓 같은 말이다 — 엄격함이 부족하고 복잡함을 건너뛰는 것인가?>
헤이어러 교수: 네, 대충 설명하는 데 꽤 능숙하다.
질문 <그래서 감명받지 못했나?>
헤이어러 교수: 아니다, 그렇게 말하진 않겠다. 때로는 꽤 감탄하기도 했는데, 예를 들어 여러 알려진 논거들을 몇 가지 계산과 함께 연결하는 방식에 대해서, 그 부분을 제대로 해내는 데 정말 능숙했다,
질문 <당신의 꿈속 세계에서, 인공지능(AI)은 당신을 위해 무엇을 해주고 있을 것인가?>
헤이어러 교수: 현재 LLM의 출력은 신뢰하기 어렵다.
그들은 절대적인 자신감을 보여주지만, 그들의 답변이 맞는지 아닌지 스스로를 설득하는 데 많은 노력이 필요하다.
지적으로 고통스럽게 느껴진다. 다시 말하지만, 대학원생이 강한지 아니면 그냥 학사 수준이 좋은 건지 잘 모르는 것과 비슷하다.
이상적인 것은 신뢰할 수 있는 모델이다.
콜다 박사: AI는 동료나 협력자 같은 존재라고 홍보되지만, 나는 그게 사실이라고 생각하지 않는다.
나의 인간 동료들은 특별한 관점을 가지고 있으며, 나는 특히 서로 다른 관점을 토론할 때 즐긴다.
AI는 내가 시키는 관점을 가지고 있는데, 전혀 흥미롭지 않다!
내가 점점 더 걱정하는 것 중 하나는 인공지능이 의도치 않게 과학 진보를 늦출 수 있다는 점이다.
이론물리학자 막스 플랑크는 종종 "과학은 한 번에 한 번의 장례식을 발전시킨다"고 말한 것으로 알려져 있다.
내 관점이 꽤 틀릴 수도 있다는 점을 인지하고 있다.
하지만 내 의견이 인공지능 시스템에 새겨져 무한히 지속된다면, 새로운 과학적 아이디어의 발전에 방해가 될 것인가?
NYT 기사 제목은 <이 수학자들은 인공지능을 시험하고 있다>에 <대형 언어 모델은 연구 수준의 수학 문제를 푸는 데 어려움을 겪는다. 그들이 얼마나 형편없는지 평가하려면 인간이 필요하다> 부제목이다.
<AI 궤도 벗어나면 하던일 잊어버리고 집중못해 ‘투자거품 강화’, 2025년 12월 28일자>
<AI로 뇌 부패 챗봇 사용자 기억 ‘제로’ SNS 어린이 어휘력 '최악' 2025년 11월 10일자> 참조
kimjc00@hanmail.net
AI Research Math 'Substandard', Language Model 'Unable to Innovate', Hindering Scientific Progress
AI was rated "substandard" in solving research-level mathematics, and the limitations of its language model (LLM) resulted in "unable to come up with new ideas."
One of the co-authors commented, "AI is slowing down scientific progress." In a discussion of the new paper <First Proof> co-authored by several world-renowned mathematicians, the authors write, "Although commercial AI systems have already reached a level of utility that makes them useful tools for mathematicians, it is not yet clear where they stand in solving research-level mathematical problems on their own, without expert intervention."
Dr. Heyerer, one of the authors, stated, "I believe that mathematics is actually quite 'safe,'" and that "large language models (LLMs), the core technology behind chatbots, are now quite adept at solving rigged problems." However, he added, "I have not seen any plausible examples of LLMs generating truly novel ideas or concepts."
Currently, AI companies use what some mathematicians describe as 'artificial' or 'limited' problems as benchmarks to assess how well AI research labs perform without human assistance and to attract large amounts of funding from investors.
It is known that AI companies sometimes invite mathematicians to participate in verifications, paying them around $5,000 per problem.
None of the authors of the First Proof project in this paper have any affiliation with an AI company. It's not related.
The file uploaded online on the 7th as <tgkolda/1stproof> is <Upload files to "2026-02-batch">.
The New York Times, which covered the authors, said, "This paper describes a recently launched experiment, in which the authors collected real test problems from unpublished research to meaningfully measure the mathematical abilities of artificial intelligence." The authors said on the 7th, "The authors hope this survey will nuance the exaggerated narrative that math is 'solved' by AI, while downplaying the consequences of AI hype that could scare the next generation of students or discourage research funders."
The authors include Dr. Heyerer, who won the Fields Medal, the most prestigious award in mathematics, in 2014 and the prestigious Groundbreaking Prize in 2021. He teaches at the Ecole Polytechnique Fédérale de Lausanne in Switzerland and Imperial College London.
Dr. Heyerer is a professor at Stanford University and the winner of the 2017 New Horizons Prize in Mathematics.
He co-authored the paper "First Proof" with several mathematicians, including Professor Mohamed Abouzaid, Professor Lauren Williams of Harvard University, and Dr. Tamara Kolda, who runs MathSci.ai, a consulting firm in the San Francisco Bay Area.
For the experiment, the authors, representing various mathematical fields, each submitted a "test question" from their ongoing but unpublished research.
The New York Times reported that "they have already decided on the answer," adding that "the solutions are encrypted online and will be released on February 13th."
Regarding the joint test question, Dr. Kolda, one of the few mathematicians elected to the National Academy of Engineering, told the New York Times, "The goal here is to understand the limits: how far can the AI surpass existing solutions found in the training data and online?"
The joint research team conducted preliminary tests against OpenAI's ChatGPT-5.2 Pro and Google's Gemini 3.0 DeepThink.
The authors had a one-shot chance to come up with an answer. Given this, he wrote, "Even the best publicly available AI systems struggle to solve many of our problems."
The introduction to the paper, as reported by the New York Times, provides an explanation right from the title:
"In baking, the first fermentation, or bulk fermentation, is a crucial step in fermenting the entire dough as a single loaf, dividing it, and shaping it into bread."
The research process and results, as reported by the New York Times, are roughly as follows.
The reporter spoke with the authors via videoconference and email, and these have been condensed and edited for clarity.
Question: <How is the "First Proof" method novel compared to other benchmarking efforts?>
Professor Mohamed Abouzaid: The biggest novelty is that the test questions are actually taken from our own research.
We start with what interests us. Within that space, we try to formulate testable questions.
Question: <What are testable questions?>
Author's response: Current AI systems have well-known limitations. First, they are very weak at visual reasoning, so we avoided such questions; if our goal were adversarial, we would have included questions that included images. Furthermore, companies limit the length of the model's response at a time because the quality of the answer degrades beyond a certain point, so they avoid queries requiring more than five pages of answers.
Question: <The paper is careful to clarify "what mathematical research is." What does this mean?>
Professor Abouzaid: A key step in modern research is identifying the biggest motivating question—the direction in which to approach the problem. All sorts of preliminary work is necessary, and this is where mathematical creativity comes in.
Once a problem is solved, mathematicians tend to evaluate the significance of their research contribution based on the questions it raises. Sometimes, solving a conjecture in one direction can be frustrating, because it prevents the possibility of new questions.
Professor Lauren Williams: Let me use a loose analogy. In experimental science, research can be divided into three parts. First, we pose a big question that we hope will lead to insights into our field. Second, we design experiments to answer the question. Third, we conduct the experiments and analyze the results.
I could also divide mathematical research into parallel parts: First, we pose a big question that we hope will lead the field. Second, we break that big question down into smaller, more manageable problems. The first step is to develop a framework for finding solutions—like our test questions. Third, find answers to these smaller questions and prove them correct.
All three are essential. In the first proof project, we focused on the third element because it's the most measurable.
You can query an AI model with a small, clear question and then evaluate its answer. If we were to ask an AI model to provide a larger question or framework, evaluating its performance would be much more difficult.
Question: <How did the AI system perform in the "first proof" evaluation?>
Professor Williams: In one test of my problem, there was an interesting sequence of responses. The model would give an answer and say, "Okay, this is the final answer."
Then, it would say, "Wait a minute, stop. How about this?" and modify its answer in some way.
And so on: "Okay, this is the final answer." Wait, there's a trap!" It got stuck in an infinite loop.
Another answer was closely related, but answered a different question.
Dr. Tamara Kolda: The preliminary results were disappointing. The AI was confused by the problem, ignoring some key information in the answer, and it was inconsistent.
We've since revised the problem description and added more explicit instructions to give the AI a better chance. We'll have to wait and see what the final results are.
Professor Martin Heyerer: One thing I've noticed in general is that the model tends to give too much detail to the easy parts.
In other words, "Okay, great, try to do it a little faster." "I'm bored listening to you." And you'll rarely get into the details of the core argument.
Sometimes it's like reading a bad undergraduate paper. They know where to start and where they want to go, but they don't quite know how to get there.
So they wander around and at some point, they get stuck in the "and therefore" and pray.
Question <That's like a classic hand gesture—lack of rigor and skipping over complexity?>
Professor Heyerer: Yes, they're pretty good at explaining things in general terms.
Question <So you weren't impressed?>
Professor Heyerer: No, I wouldn't say that. Sometimes I've been quite impressed, for example, with the way they've connected several known arguments with a few calculations. They've been really good at getting that part right.
Question <In your dream world, what would artificial intelligence (AI) be doing for you?>
Professor Heyerer: The output of current LLMs is unreliable.
They seem absolutely confident, but it takes a lot of effort to convince yourself that their answers are correct.
Intellectually It feels painful. Again, it's like not knowing whether a graduate student is strong or just a good undergraduate.
The ideal is a trustworthy model.
Dr. Kolda: AI is often promoted as a colleague or collaborator, but I don't think that's true.
My human colleagues have unique perspectives, and I especially enjoy discussing different perspectives.
The AI has a perspective I dictate, and it's not interesting at all!
One of my growing concerns is that AI could unintentionally slow down scientific progress.
Theoretical physicist Max Planck is often quoted as saying, "Science advances one funeral at a time."
I recognize that my perspective could be quite wrong.
But if my opinions are imprinted on AI systems and persist indefinitely, will it hinder the development of new scientific ideas?
The New York Times article was titled, "These Mathematicians Are Putting Artificial Intelligence to the Test," with the subtitle, "Large Language Models Struggle at Research-Level Math Problems. It Takes Humans to Assess How Bad They Are."
See <AI Derails: Forgetting What You're Doing, Losing Focus, 'Reinforcing the Investment Bubble,' December 28, 2025>
<Chatbot User Brain Corrupted by AI Children with "Zero Memory" Have the Worst Vocabulary on Social Media (November 10, 2025>
AI, First Proof, LLM, Scientific Advancement, Substandard, Idea, Language Model, Research Mathematics, Gemini, Chatbot