디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

오픈AI o3 모델, 세계 최상위 성능 인증··· 2025년도 AI 경쟁 격할 듯

IT동아갤로그로 이동합니다. 2024.12.26 13:25:34
조회 1075 추천 1 댓글 2
[IT동아 남시현 기자] 오픈AI가 지난 20일(현지 시각), ‘오픈AI의 12일’ 행사를 통해 오픈AI의 새로운 추론 모델인 o3를 공개했다. 오픈AI는 앞서 9월 12일에 챗GPT 플러스 사용자를 위해 o1 프리뷰 및 o1 미니를 사전 공개했고, 12월 5일에 전체 버전을 출시했다. 이번에 공개한 o3는 이 모델의 새로운 버전으로 내년 1월 10일까지 안전 및 보안 연구자들에게 사전 제공되고, 1월 중 o3-미니를 대중에게 출시한다. o2라는 이름을 건너뛴 이유는 영국의 이동통신사와 이름이 겹쳐 상표권 분쟁을 피하기 위함이다.


좌측부터 홍유 렌 오픈AI 연구원, 마크 첸 오픈AI 수석 연구원, 샘 알트만 최고경영자 / 출처=오픈AI



GPT o3 발표에는 샘 알트만 최고경영자, 마크 첸(Mark Chen) 오픈AI 수석 연구원, 홍유 렌(Hongyu Ren) 오픈AI 연구원, 그렉 캄라트(Greg Kamradt) ARC 프라이즈 파운데이션 회장이 참석했다. 오픈AI는 o3가 2019년 ARC 프라이즈 파운데이션이 만든 시각적 추론 벤치마크인 ‘ARC-AGI’에서 높은 컴퓨팅 테스트에서 87.5%, 낮은 컴퓨팅 시나리오에서 75.7%를 기록했다고 밝혔다. 해당 결과는 인간이 진행하는 테스트 결과인 85%를 넘어 인간의 영역에 근접했음을 뜻한다.


AIME 2024는 단 한 문제만 틀렸고, 박사 급 문제가 나오는 GPQA 다이아몬드도 87.7% 정확도를 달성했다 / 출처=오픈AI



마크 첸 수석 연구원은 o3가 미국수학경시대회인 AIME 2024 수행에서 96.%의 정확도를 기록했다고 밝혔다. o1 프리뷰 모델은 동일 테스트에서 56.7%, 정식 모델은 83.3%를 획득한 것과 비교하면 월등한 발전이다. 박사, 대학원 수준의 생물학, 물리학, 화학 문제가 포함된 GPQA 다이아몬드 테스트는 전작이 78%를 달성했는데, 이번에는 87.7%를 달성했다고 밝혔다.


프런티어 매스 테스트에서 일반 모델들이 2%를 넘기 힘든 것에 반해, o3가 25.2%를 달성했다 / 출처=오픈AI



에포크AI가 만든 프런티어 매스(Frontier Math) 벤치마크의 경우 GPT-4, 재미나이를 포함한 AI들이 2%를 달성할 때 25.2%를 푸는 모습을 보여줬다. 프런티어 매스는 60여 명의 수학자가 대수기하학부터 체르멜로-프렌켈 집합론 등 현대 수학의 전 영역을 포괄하여 만든 AI용 테스트다.

2006년 필즈상 수상자인 테렌스 타오는 해당 테스트에 대해 “대단히 도전적인 문제며, AI가 해결하려면 적어도 몇 년은 걸릴 것”이라고 평가했고, 98년에 필즈상을 수상한 티모시 고워스도 “한 가지를 맞추는 것도 우리가 할 수 있는 수준을 넘어서는데, 모든 질문을 다 답하는 건 불가능하다”고 답한 테스트다.


전 세계 프로그래머들이 경쟁하는 코드포스에서는 상위 0.05% 수준인 2727점을 달성했다 / 출처=오픈AI



경쟁적 프로그래밍 대회인 코드포스는 전작인 o1이 1891점을 달성한 반면, o3가 2727점을 달성하며 9만 9832명 중 50위 이내, 상위 0.05% 코딩 전문가의 실력을 보여줬다. 해당 점수에서 2500점 이상을 획득하는 사용자는 국가 대표급의 코딩 실력자로 분류되며, 2700점을 넘겼다는 의미는 세계 최고 수준의 코딩 능력자와 비슷한 수준임을 의미한다.

그렉 캄라트 회장은 “해당 결과를 통해 AI에 대한 내 세계관을 바꿔야 한다고 느꼈다. AI가 실제로 무엇을 할 수 있고, 특히 o3가 인류에게 어떤 것들을 제공할 수 있을지에 대한 직관을 새로 가져야 한다”라면서, “아직까지 AI가 초기인 만큼, ARC-AGI같은 더 지속 가능한 벤치마크가 필요하고, 오픈AI와 AI를 함께 진보시킬 수 있다는 점에서 기쁘다”라고 말했다.


ARC-AGI 테스트의 점수당 비용 결과, o3 낮은 컴퓨팅 시나리오와 o3 높은 컴퓨팅 시나리오 모두 높은 점수 달성을 위해 예상보다 많은 연산 및 컴퓨팅 자원을 소모해야 했음을 시사한다 / 출처=ARC-AGI



ARC-AGI에서 인간보다 높은 점수를 획득한 점을 놓고 일각에서는 인공 일반지능의 등장이라는 목소리가 나왔지만 그렇진 않다. ARC 프라이즈의 공동 창립자인 마이크 누프(Mike Knoop)는 SNS를 통해 o3가 고성능 컴퓨팅 구성에서도 100여 개의 시각적 퍼즐 과제를 풀지 못했고, 낮은 시나리오 컴퓨팅 역시 경연대회 목표보다 100배에서 1000배의 컴퓨팅 파워를 사용했다고 밝혔다.

오픈AI o3 공개는 인공지능의 발전 속도가 예상보다 훨씬 빠르다는 점, 그리고 상한선 달성을 위한 컴퓨팅 자산이 예상보다 많이 소요된다는 점이다. 또한 문제 및 해결 방법이 공개된 사안에 대해서는 인간 기준으로도 대단히 높은 결과물을 제공할 수 있음을 보여줬다. 오픈AI는 인간 전문가의 AI 역량 평가 및 계획적 추론 평가 등을 거쳐 1월 중 o3 모델을 공개할 예정이다.

IT동아 남시현 기자 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ [SBA 글로벌] 젠젠에이아이 “실제 같은 합성 데이터로 AI 효율성·정확도 향상”▶ MS 코파일럿 버튼, 구형 키보드도 버튼 추가·변경 가능해▶ [생성 AI 길라잡이] 상업 AI의 성공 가능성 보여주는 '어도비 파이어플라이'



추천 비추천

1

고정닉 0

9

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 반응이 재밌어서 자꾸만 놀리고 싶은 리액션 좋은 스타는? 운영자 25/07/28 - -
4793 [주간스타트업동향] CIT, 투명 안테나·디스플레이 CES 2025 혁신상 수상 外 IT동아갤로그로 이동합니다. 01.16 419 0
4792 [KTVF 2024] 인포플러스 “금융 인프라 구축 경험 기반으로 동남아시아 금융 문제 해결” IT동아갤로그로 이동합니다. 01.16 353 0
4791 [신차공개] GV60 부분변경 디자인 공개·뉴 MINI 에이스맨 사전계약 실시 IT동아갤로그로 이동합니다. 01.15 2328 0
4790 라이카 카메라 출시 100주년··· '카메라 넘어 사진의 역사 기록한다' [4] IT동아갤로그로 이동합니다. 01.15 2467 2
4789 [2024 서울콘] 김현우 SBA 대표, "서울의 매력 담은 서울콘, 절반 일정에도 뚜렷한 성공" IT동아갤로그로 이동합니다. 01.15 364 0
4788 [KTVF 2024] 구루컴퍼니 “웹툰·웹소설로 기업 앱 재방문율·체류시간 늘린다, 보물섬” IT동아갤로그로 이동합니다. 01.15 850 0
4787 [자동차와 法] 주요국의 자율주행차 관련 법·제도 현황 살펴보니 IT동아갤로그로 이동합니다. 01.14 538 0
4786 [리뷰] 어디서든 실시간 위치 확인 돕는 '갤럭시 스마트태그 2' IT동아갤로그로 이동합니다. 01.14 588 0
4785 2025년 저궤도 위성통신 시대 개막할까…국내외 기업 동향은 IT동아갤로그로 이동합니다. 01.14 344 0
4784 스페이스앤빈 큐브위성 공모전 성료··· '공모 결과, 2026년 우주 발사로 연계' IT동아갤로그로 이동합니다. 01.14 381 0
4783 지난 병원 방문 기록 열람하려면 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 01.13 1346 0
4782 [생성 AI 길라잡이] 영상 생성 인공지능 서비스 '소라(Sora)' 써보니 IT동아갤로그로 이동합니다. 01.13 2255 1
4781 [생활 속IT] 카카오톡 톡서랍 플러스, PC에 다운로드하고 싶다면? IT동아갤로그로 이동합니다. 01.13 1044 0
4780 [주간투자동향] 잉카엔트웍스, 111억 원 규모 투자 유치 外 IT동아갤로그로 이동합니다. 01.13 5053 0
4779 [투자를IT다] 2025년 1월 2주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 01.11 440 0
4778 [생활 속 IT] 유튜브, 스마트폰과 TV 연결해서 보는 3가지 방법 IT동아갤로그로 이동합니다. 01.10 527 0
4777 5인 이상 승용차 소화기 비치 의무화...제품 구매 시 유의할 사항은? [5] IT동아갤로그로 이동합니다. 01.10 7870 1
4776 [KTVF 2024] 머니가드서비스 “안전한 금전거래 지원, 머니가드” IT동아갤로그로 이동합니다. 01.10 407 0
4775 [KTVF 2024] 전기차 무선 충전의 새 시대 준비하는 '와이파워원' [2] IT동아갤로그로 이동합니다. 01.10 965 0
4774 [CES 2025] 역대 최대 규모의 서울통합관 속 '혁신상' 받은 기업 5곳 살펴보니 IT동아갤로그로 이동합니다. 01.10 385 0
4773 [CES 2025] 인공지능으로 경험하는 '홈 라이프스타일' 제안한 LG전자 [1] IT동아갤로그로 이동합니다. 01.10 2461 0
4772 [CES 2025] 역대급 규모로 104개 기업과 함께한 SBA "맞춤형 지원 통해 21개 혁신상 성과" IT동아갤로그로 이동합니다. 01.10 324 0
4771 [CES 2025] 세계 무대에 선 국내 반도체·AI 스타트업, CES에서의 행보는? IT동아갤로그로 이동합니다. 01.09 422 0
4770 [CES 2025] ‘AI 거울’·‘바늘 없앤 주사’·’당뇨 관찰 로봇’…진화하는 헬스케어 IT동아갤로그로 이동합니다. 01.09 365 0
4769 2025년 가상자산 시장 ‘AI·RWA 부상할 것’ [5] IT동아갤로그로 이동합니다. 01.09 5482 0
4768 [CES 2025] 현대차그룹, 투자·협업 중인 스타트업 10개사 전시 지원 IT동아갤로그로 이동합니다. 01.09 327 0
4767 [CES 2025] 토요타 ‘우븐 시티 1단계’ 완성·BMW ‘파노라믹 iDrive’ 공개 [2] IT동아갤로그로 이동합니다. 01.08 841 0
4766 [CES 2025] 홈 AI, 네오 QLED 8K 등으로 경쟁력 세우기 나선 삼성전자 IT동아갤로그로 이동합니다. 01.08 498 0
4765 [주간스타트업동향] HR 플랫폼 플렉스, 비용 관리 서비스 출시 外 IT동아갤로그로 이동합니다. 01.08 325 0
4764 [CES 2025] 인텔, 코어 울트라 200HX·H·U로 라인업 확장 나서 IT동아갤로그로 이동합니다. 01.08 555 0
4763 [ETF 기본기 다지기] ETF 거래를 위한 계좌 개설하기 IT동아갤로그로 이동합니다. 01.08 3035 3
4762 [CES 2025] “이제는 물리적 인공지능 시대” 엔비디아의 시선은 로보틱스로 [3] IT동아갤로그로 이동합니다. 01.08 2407 0
4761 [리뷰] ‘모든 것이 사용자를 위해 존재한다’ 글로리어스 GMMK 3 프로 HE 65% 게이밍 기계식 키보드 IT동아갤로그로 이동합니다. 01.07 316 0
4760 올해 전기승용차 보조금 최대 580만 원…’안전·성능’ 기준 강화 IT동아갤로그로 이동합니다. 01.07 310 0
4759 [CES 2025] 이통3사, CES서 AI 의지 찾는다 IT동아갤로그로 이동합니다. 01.07 314 0
4758 [CES 2025] 퀄컴, AI PC 및 사물인터넷, 전장 협력 등으로 사업 다각화 IT동아갤로그로 이동합니다. 01.07 449 0
4757 [CES 2025] AMD, 9950X3D·라이젠 AI 맥스 등 공개··· '라인업 더 촘촘히' IT동아갤로그로 이동합니다. 01.07 949 1
4756 [CES 2025] CES 장식할 모빌리티 기술 살펴보니 IT동아갤로그로 이동합니다. 01.06 2107 0
4755 [생활 속 IT] 카카오톡 채팅방 맞춤법·번역 기능 유용할까 IT동아갤로그로 이동합니다. 01.06 2222 1
4754 대중 매체로 접하는 소식들, 팩트체크할 땐 이렇게! [이럴땐 이렇게!] [4] IT동아갤로그로 이동합니다. 01.06 5285 1
4753 [생활 속 IT] 테마별 명소 찾기 ‘카카오맵 테마지도’ IT동아갤로그로 이동합니다. 01.06 276 0
4752 공공 웹 관리도 AI가 대세, 이용객 불만까지 미리 알아챈다 IT동아갤로그로 이동합니다. 01.06 472 1
4751 2025년 사이버 보안 위협…“양날의 검이 된 생성형 AI” [15] IT동아갤로그로 이동합니다. 01.03 10058 7
4750 [투자를IT다] 2025년 1월 1주차 IT기업 주요 소식과 주가 흐름 IT동아갤로그로 이동합니다. 01.03 329 0
4749 지난해 중고차 거래 트렌드·이슈와 새해 전망 살펴보니 IT동아갤로그로 이동합니다. 01.03 342 0
4748 [KTVF 2024] 이음네트워크, "편의성·보안 모두 높인 클라우드 공동 현관을 만듭니다" IT동아갤로그로 이동합니다. 01.03 322 0
4747 2025년 가상자산 시장 “상승세 이어갈 것” IT동아갤로그로 이동합니다. 01.03 4959 0
4746 [생활 속 IT] 네이버플러스 멤버십, 서비스 구성과 활용 방법은? IT동아갤로그로 이동합니다. 01.02 1743 0
4745 2025년 출시 예정 신차 살펴보니 IT동아갤로그로 이동합니다. 01.02 920 0
4744 2025년 반도체 시장도 10%대 성장 예측··· '시장 변수는 트럼프 대통령' IT동아갤로그로 이동합니다. 01.02 464 0
뉴스 십센치, 7년 11개월 만에 정규 5집 ‘5.0’ 발매! “편의점 같은 음악 선사” 디시트렌드 07.31
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2