디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI의 '생각하는 척' 들통났다... 애플 “AI, 복잡해지면 오히려 덜 생각해”

aimatters갤로그로 이동합니다. 2025.06.10 17:22:41
조회 12 추천 0 댓글 0
														

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity




최신 AI 추론 모델들, 복잡한 문제에서 완전히 무력화되다


오픈AI(OpenAI)의 o1/o3, 딥시크(DeepSeek)-R1, 클로드(Claude) 3.7 소네트 싱킹(Thinking), 제미나이(Gemini) 싱킹 등 대형 추론 모델(Large Reasoning Models, LRM)들이 등장하면서 AI 추론 능력의 혁신적 발전에 대한 기대가 높아지고 있다. 이들 모델은 긴 사고 과정(Chain-of-Thought)과 자기 성찰 메커니즘을 특징으로 하며, 다양한 추론 벤치마크에서 우수한 성과를 보여주고 있다. 하지만 애플(Apple) 연구진이 발표한 연구는 이러한 모델들의 근본적인 한계를 드러내고 있다.

애플 연구진은 통제 가능한 퍼즐 환경을 통해 문제 복잡성과 추론 능력의 관계를 체계적으로 분석했다. 그 결과 최첨단 추론 모델들도 특정 복잡성 임계점을 넘어서면 정확도가 완전히 붕괴되는 현상을 발견했다. 더욱 놀라운 것은 이들 모델이 복잡성이 증가할수록 초기에는 추론 노력을 늘리다가 임계점 근처에서는 오히려 추론 노력을 줄이는 역설적 행동을 보인다는 점이다.




기존 AI 평가 시험에 숨겨진 '부정행위' 의혹과 새로운 검증법


기존 추론 모델 평가가 주로 수학 문제와 코딩 벤치마크에 의존해왔다면, 이번 연구는 완전히 새로운 접근 방식을 제시했다. 연구진은 매쓰(MATH)-500과 아이메(AIME) 벤치마크에서 나타나는 문제점들을 지적했다. 특히 아이메24(AIME24)에서 아이메25(AIME25)로 넘어가면서 모델 성능이 오히려 저하되는 현상을 발견했는데, 실제 인간의 성능은 아이메25에서 더 높았다는 점에서 데이터 오염 가능성을 강하게 시사한다.

이에 대응해 연구진은 하노이 탑, 체커 점프, 강 건너기, 블록 월드 등 4가지 퍼즐 환경을 설계했다. 이들 환경은 복잡성을 세밀하게 조절할 수 있고, 기존 벤치마크에서 흔한 데이터 오염 문제를 피할 수 있으며, 명시적으로 제공된 규칙만을 요구해 알고리즘적 추론을 강조한다. 또한 시뮬레이터 기반의 엄격한 평가를 통해 정확한 해답 검증과 상세한 실패 분석이 가능하다는 장점을 가진다.




쉬운 문제는 일반 AI가, 어려운 문제는 둘 다 포기하는 충격적 결과


연구 결과 추론 모델과 일반 언어 모델 간의 성능 비교에서 세 가지 뚜렷한 구간이 나타났다. 첫 번째는 저복잡성 구간으로, 놀랍게도 일반 언어 모델이 추론 모델보다 더 높은 정확도와 토큰 효율성을 보였다. 이는 간단한 문제에서는 복잡한 사고 과정이 오히려 방해가 될 수 있음을 시사한다.

두 번째는 중간 복잡성 구간으로, 추론 모델의 장점이 명확히 드러나는 영역이다. 이 구간에서 추론 모델들은 긴 사고 과정을 통해 일반 모델보다 우수한 성능을 발휘했다. 하지만 세 번째 고복잡성 구간에서는 두 모델 유형 모두 완전한 성능 붕괴를 경험했다.

특히 주목할 점은 붕괴 지점 근처에서 추론 모델들이 충분한 토큰 예산이 있음에도 불구하고 추론 노력을 줄이기 시작한다는 것이다. 이는 현재 추론 모델들이 문제 복잡성에 따른 근본적인 확장 한계를 가지고 있음을 보여준다.




정답 공식까지 알려줘도 실행 못 하는 AI의 근본적 한계


연구진이 발견한 가장 놀라운 결과 중 하나는 추론 모델들의 정확한 연산 수행 능력의 한계다. 하노이 탑(Tower of Hanoi) 퍼즐에서 연구진이 완전한 해결 알고리즘을 프롬프트에 제공했음에도 모델들의 성능은 개선되지 않았다. 알고리즘을 새로 발견하고 설계하는 것이 주어진 알고리즘을 단순히 실행하는 것보다 훨씬 더 많은 계산을 요구함에도 불구하고 말이다.

이는 추론 모델들이 단순히 문제 해결 전략 발견에만 어려움을 겪는 것이 아니라, 논리적 단계를 일관되게 실행하는 검증 능력에서도 근본적인 한계를 가지고 있음을 보여준다. 클로드 3.7 소네트 싱킹 모델의 경우 하노이 탑에서는 100번째 이동까지 정확한 해를 제시할 수 있었지만, 강 건너기(River Crossing) 퍼즐에서는 4번째 이동부터 오류를 범했다.




간단한 문제에선 '과도한 고민', 퍼즐 종류별로 천차만별인 성능


연구진은 추론 모델들의 내부 사고 과정을 상세히 분석하여 복잡성에 따른 흥미로운 패턴을 발견했다. 간단한 문제에서는 모델들이 초기에 정답을 찾고도 계속해서 잘못된 대안을 탐색하는 '과도한 사고(overthinking)' 현상을 보였다. 이는 컴퓨팅 자원의 낭비로 이어진다.

중간 복잡성 문제에서는 이 패턴이 역전되어 모델들이 먼저 잘못된 해를 탐색한 후 나중에 올바른 해에 도달하는 양상을 보였다. 마지막으로 고복잡성 문제에서는 모델들이 사고 과정 전반에 걸쳐 올바른 해를 전혀 생성하지 못하는 완전한 붕괴 상태에 빠졌다.

이러한 분석은 현재 추론 모델들의 자기 교정 능력이 제한적이며 근본적인 비효율성과 명확한 확장 한계를 가지고 있음을 보여준다. 연구진은 "이들 모델이 패턴 매칭의 다른 형태를 활용하는 것인지, 아니면 진정한 일반화 가능한 추론 능력을 갖고 있는지에 대한 중요한 질문을 제기한다"고 밝혔다.





FAQ

Q: 추론 AI 모델이 일반 AI 모델보다 항상 더 좋은 성능을 보이나요?

A: 아닙니다. 연구 결과에 따르면 간단한 문제에서는 오히려 일반 AI 모델이 더 효율적이고 정확한 성능을 보입니다. 추론 모델의 장점은 중간 복잡성의 문제에서만 나타나며, 매우 복잡한 문제에서는 두 모델 모두 성능이 크게 떨어집니다.

Q: 왜 추론 AI 모델이 복잡한 문제에서 더 적게 생각하게 되나요?

A: 연구진은 이를 추론 모델의 근본적인 확장 한계로 설명합니다. 복잡성이 임계점을 넘어서면 모델들이 충분한 토큰 예산이 있음에도 불구하고 추론 노력을 줄이기 시작하는데, 이는 현재 추론 기술의 내재적 한계를 보여주는 현상입니다.

Q: 알고리즘을 직접 제공해도 AI가 실행하지 못하는 이유는 무엇인가요?

A: 이는 추론 AI 모델들이 논리적 단계를 일관되게 실행하는 검증 능력에서 근본적인 한계를 가지고 있기 때문입니다. 단순히 문제 해결 전략을 찾는 것뿐만 아니라 주어진 알고리즘을 정확히 따르는 것에서도 어려움을 겪고 있어 추가 연구가 필요한 상황입니다.



해당 기사에 인용한 리포트 원문은 애플에서 확인 가능하다.

이미지 출처: 이디오그램 생성

이 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 의외로 연애 못할 것 같은 연애 하수 스타는? 운영자 25/08/04 - -
411 임신테스트부터 은행거래까지… 시각장애인이 AI에게 맡긴 '극비 정보'들 aimatters갤로그로 이동합니다. 07.07 76 0
410 대학생 3명 중 1명이 챗GPT로 과제 작성... "부정행위 아니다"고 생각 [21] aimatters갤로그로 이동합니다. 07.07 7096 0
409 일본 사카나 AI, 여러 AI 모델 조합으로 성능 30% 향상... 인간 팀처럼 움직여 aimatters갤로그로 이동합니다. 07.07 87 0
408 사우디아라비아, 33만 명 대상 AI 교육 완료... 국가 차원 디지털 역량 강화 나서 aimatters갤로그로 이동합니다. 07.07 69 0
407 "회의록 자동 작성" SKT 에이닷 노트, 일주일 만에 30만명 몰렸다 aimatters갤로그로 이동합니다. 07.07 83 0
406 美 상원, 99:1 압도적 표차로 AI 주 규제 금지안 폐기...빅테크 규제 면제 시도 무산 aimatters갤로그로 이동합니다. 07.07 65 0
405 “구글 곧 대체된다"… 챗GPT 사용자 96%가 구글도 이용 중 aimatters갤로그로 이동합니다. 07.04 286 1
404 카톡 생축 말고 말 걸어줄 존재 생겼다... 메타, 사용자에 먼저 말 거는 AI 챗봇 실험 중 aimatters갤로그로 이동합니다. 07.04 216 0
403 논란의 컨닝 AI ‘Cluely’, 출시 일주일 만에 ARR 95억 돌파… 무료 경쟁 제품도 등장 aimatters갤로그로 이동합니다. 07.04 221 0
402 복잡한 대화 이해해 디지털 소외층에 도움될 듯... 삼성, 세탁건조기 '비스포크 AI 원바디' 출시 aimatters갤로그로 이동합니다. 07.04 209 0
401 KT도 한국어 특화 언어모델 '믿:음 2.0' 오픈소스 공개… 누구나 상업적 사용 가능 aimatters갤로그로 이동합니다. 07.04 166 0
400 "오픈AI 주식이 메타보다 훨씬 비싸질 것"... 샘 알트만, 메타 인재 탈취에 내부 직원 독려 aimatters갤로그로 이동합니다. 07.04 199 0
399 가트너 "5년 내 기업 소프트웨어 80% 멀티모달 AI 탑재될 것" aimatters갤로그로 이동합니다. 07.04 155 0
398 오픈AI가 승인하지 않은 토큰 주식 로빈후드가 발행, "오픈AI 지분 아니다" aimatters갤로그로 이동합니다. 07.04 164 0
397 코딩 AI ‘커서’, 클로드 코드 팀 핵심 인재 2명 가로채… AI 인재 확보 경쟁 과열 aimatters갤로그로 이동합니다. 07.04 143 0
396 [Q&AI] 걸스데이 민아 결혼... SNS 반응은? aimatters갤로그로 이동합니다. 07.04 135 0
395 GIST, 개인 맞춤형 암 치료 위한 생성 AI 개발… 97% 정확도로 약 효과 예측 가능 aimatters갤로그로 이동합니다. 07.04 133 0
394 스탠포드 연구팀 “AI 활용 작업, 작업 시간 3배 줄어든다" aimatters갤로그로 이동합니다. 07.04 127 0
393 글 쓸 때 “AI 도움 받았다”고 솔직하게 말하면 보는 사람은 낮은 점수를 준다? aimatters갤로그로 이동합니다. 07.04 146 0
392 "챗GPT야, 승진시킬 사람 골라줘"… 美 회사 절반이 AI 챗봇에게 인사결정 물어봐 aimatters갤로그로 이동합니다. 07.04 134 0
391 AI로 건물을 설계한다고? 건축가들 "안될 걸" aimatters갤로그로 이동합니다. 07.04 129 0
390 AI 밴드 '벨벳 선다운' 대변인, 결국 "사기극이었다" 고백 aimatters갤로그로 이동합니다. 07.04 114 0
389 구글, AI 훈련 환경 문제 대응은 핵융합 에너지... 사상 최대 규모 구매 계약 aimatters갤로그로 이동합니다. 07.03 167 0
388 “사진 한 장으로 영상 10초 생성” 바이두, 기업용 영상 생성 AI ‘뮤즈스트리머’ 출시 [1] aimatters갤로그로 이동합니다. 07.03 7562 0
387 자비스 안경이 중국에서? 中 샤오미, 38만원짜리 'AI 안경' 출시 aimatters갤로그로 이동합니다. 07.03 170 0
386 ‘AI가 불러온 나비효과?’ MS, 직원 9천명 해고… 전 세계 직원 4% 수준 aimatters갤로그로 이동합니다. 07.03 170 0
385 “릴스 편집 폰에서 무료로 하세요” 메타, 편집 앱 '에디츠' 공식 출시 aimatters갤로그로 이동합니다. 07.03 157 0
384 퍼플렉시티, 월 27만원짜리 '맥스' 요금제 출시… 랩스 무제한 이용∙신기능 우선 도입 aimatters갤로그로 이동합니다. 07.03 157 0
383 구글, 비디오 생성 AI ‘비오 3’ 게임 개발 도입 암시… 세계 시뮬레이션 모델 도약하나 aimatters갤로그로 이동합니다. 07.03 143 0
382 네이버 자율규제위, AI 안전성 논의한 2차 활동 보고서 공개...커머스 정산 주기 포함돼 aimatters갤로그로 이동합니다. 07.03 129 0
381 “카페 메뉴판 만들어 줘.” 젠스파크, 문장 하나로 문서 전체 제작 ‘AI 문서' 기능 출시 aimatters갤로그로 이동합니다. 07.03 127 0
380 주요 AI 챗봇 '건강 정보' 100% 조작하도록 만들 수 있다... 암살에 쓰일 수도 aimatters갤로그로 이동합니다. 07.03 103 0
379 시밀러웹 “2030년까지 미국 인구 80%가 AI 챗봇 이용할 것” aimatters갤로그로 이동합니다. 07.03 103 0
378 “요즘 애들은 검색 안 해요” MS가 알려주는 ‘진짜 정보 찾는 법’ aimatters갤로그로 이동합니다. 07.03 118 0
377 "이 상황엔 이 짤이 딱!" AI가 채팅 분위기 읽고 완벽한 밈 골라주는 시대 [4] aimatters갤로그로 이동합니다. 07.03 6426 4
376 AI 상담사 현실화? 동공 크기 측정하고 5번 대화하니 전문 상담사와 비슷한 효과 보여 [1] aimatters갤로그로 이동합니다. 07.03 6429 5
375 'AI가 인간 대체할까?' 질문에 엔지니어 75% "아니다" aimatters갤로그로 이동합니다. 07.03 114 0
374 인간 vs AI, '지능 차이' 분석 결과... AI는 똑똑한 앵무새일 뿐이다? aimatters갤로그로 이동합니다. 07.03 95 0
373 [Q&AI] 신지 상견례 영상 공개 후 여론 악화… 왜? aimatters갤로그로 이동합니다. 07.03 92 0
372 이제 번역도 잘 되길... SKT, 세계 최고 한국어 AI 모델 '에이닷 엑스 4.0' 오픈소스 공개 aimatters갤로그로 이동합니다. 07.03 90 0
371 아마존, 창고 로봇 누적 100만 대 배치… AI 모델로 창고 자율주행 10% 향상 aimatters갤로그로 이동합니다. 07.02 143 0
370 “AI가 가짜뉴스 잡는다”… X, 커뮤니티 노트에 AI 챗봇 투입 [3] aimatters갤로그로 이동합니다. 07.02 2534 2
369 "30초면 복제 사이트 만들어" 해커들이 생성형 AI로 피싱 사이트 대량 생산한다 [9] aimatters갤로그로 이동합니다. 07.02 6466 0
368 바이두 첫 LLM 모델 ‘어니 4.5’ 무료 배포 시작… 효율왕 딥시크 넘어설까 aimatters갤로그로 이동합니다. 07.02 114 0
367 '사피엔스' 유발 하라리 "AI는 도구 아닌 독립 행위자… 인간 거짓말, 행동 그대로 학습" aimatters갤로그로 이동합니다. 07.02 117 0
366 "AI 안 쓰면 인사평가 감점"… MS, 직원 평가에 AI 활용 능력 도입 [1] aimatters갤로그로 이동합니다. 07.02 210 0
365 “AI야 좋은 평가만 해줘”… AI만 읽을 수 있는 비밀 명령문 적힌 논문 17개 발견 논란 aimatters갤로그로 이동합니다. 07.02 103 0
364 "웹-모바일에서 모두 사용 가능"... 커서, AI 코딩 에이전트 서비스 확장 출시 aimatters갤로그로 이동합니다. 07.02 103 0
363 “AI 활용 창작물도 등록 가능”… 저작권위원회, AI 저작권 관련 첫 가이드라인 제시 aimatters갤로그로 이동합니다. 07.02 97 0
362 “챗GPT, 공개 하루 전 이름 지었다”... 오픈AI, 챗GPT 개발 비하인드 공개 aimatters갤로그로 이동합니다. 07.02 99 0
뉴스 ‘나 혼자 산다’ 박나래, 찐친과 웨딩 촬영 공개...“마지막 웨딩화보 일것” 디시트렌드 08.02
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2