"o3는 AGI에 도달한 첫번째 모델"...오픈AI, 최첨단 추론 모델 공개
오픈AI, AGI에 근접한 추론 모델 'o3' 공개
오픈AI가 2023년 12월 20일, 이전 모델인 'o1'의 후속작으로 추론 모델 'o3'와 'o3 미니'를 출시한다고 발표했습니다. 오픈AI는 'o2'라는 이름을 사용하지 않은 이유로 영국 통신사 이름과의 중복을 꼽았습니다. 샘 알트먼 CEO는 "우리는 이것을 다음 단계 AI의 시작으로 보며, 이 모델을 사용해 많은 추론이 필요한 점점 더 복잡한 작업을 수행할 수 있다"라고 말했습니다.
ARC-AGI 벤치마크 : 인간을 뛰어넘는 추론 능력
오픈AI는 o3가 AGI에 근접했음을 보여주기 위해 다양한 벤치마크 결과를 제시했습니다. 특히, ARC 프라이즈 파운데이션의 그렉 캄라트 회장이 소개한 ARC-AGI 벤치마크는 주목할 만한데요. ARC-AGI는 2019년 AGI 능력을 측정하기 위해 개발된 벤치마크로, 인간은 직관적으로 쉽게 파악하지만 AI는 어려워하는 공간 및 도형 관련 테스트를 통해 인간과 유사한 인지 능력을 측정합니다.
캄라트 회장은 o3가 ARC-AGI에서 75.7점을 기록하며, o1의 32점을 크게 뛰어넘는 비약적인 발전을 보였다고 전했습니다. 더욱 놀라운 것은 o3에 더 긴 추론 시간을 주었을 때, 87.5점까지 기록하며 인간의 평균 점수인 85점을 넘어섰다는 것입니다. 이는 세계 최초로 인간 능력을 초월한 AGI급 성적이라는 점에서 큰 의미를 지닙니다.
프랑수아 콜레 ARC 프라이즈 파운데이션 공동 창립자는 "o3의 출시는 AI 역량의 놀랍고 중요한 단계적 증가"라며 "이제 AI 역량에 대한 모든 기준은 o3에 맞춰 업데이트되어야 한다"라고 주장했습니다. 실제로 ARC-AGI에서 2020년 출시된 GPT-3는 0점에 불과했고, 2023년 GPT-4o는 5점대로 올라가는 데 무려 4년이 걸렸다는 점을 고려하면, o3의 발전 속도는 매우 놀랍다고 볼 수 있습니다.
오픈AI 자체 벤치마크 : 전방위적 성능 향상
오픈AI 자체 벤치마크에서도 o3는 기록적인 성과를 보였습니다. 소프트웨어 작업을 평가하는 SWE 벤치 베리파이(SWE Bench Verify)에서 o3는 71.7%의 정확도를 기록했는데, 이는 o1보다 20% 이상 향상된 결과입니다.
코딩 능력을 평가하는 코드포스(Codeforce)에서는 o1이 1891점, o3는 2727점을 받았습니다. 이에 대해 오픈AI의 마크 첸 연구 담당 수석 부사장은 자신의 최고 점수가 2500점 정도라며, o3는 오픈AI에 수석과학자가 한 명 더 있는 것에 비유했습니다. 그는 몇 달 뒤에는 o3가 3000점을 넘을 수도 있다고 덧붙였습니다.
수학과 과학 분야에서도 o3는 o1을 능가했을 뿐만 아니라, 박사 학위 소지자의 성적을 훌쩍 뛰어넘었습니다. AIME(수학경시대회)에서는 96.7점으로 o1의 83.3점을 10점 이상 넘어섰고, 박사 수준의 과학 문제를 평가하는 GPQ 다이아몬드에서는 87.7점을 기록했습니다. 이는 o1의 78점을 넘어선 것은 물론, 박사 학위 소지자들의 평균 점수인 70점대를 크게 능가하는 수치입니다.
추론 시간 조정 기능 : 효율성과 유연성
o3의 새로운 기능 중 하나는 추론 시간을 조정할 수 있다는 것입니다. 사용자는 모델의 컴퓨팅을 낮음, 중간, 높음으로 설정할 수 있습니다. 프랑수아 콜레 창업자는 이번 테스트에서 추론 시간을 '높음'으로 설정할 경우, 작업당 수천 달러에 달할 정도로 많은 비용이 들었다고 밝혔습니다. ARC-AGI에서 87.5점을 획득한 것이 바로 이 경우에 해당하며, 75.7점을 받은 것은 설정을 '낮음'에 맞춘 결과입니다.
이러한 비용 문제를 해결하기 위해 오픈AI는 비교적 저렴한 비용으로 o3를 활용할 수 있는 'o3 미니'를 출시한다고 발표했습니다. o3 미니는 2023년 12월 20일부터 레드팀 테스트를 위한 대기자 리스트를 열고 2024년 1월 10일까지 접수를 받습니다. 안전 및 보안 연구원들은 미리보기에 가입할 수 있으며, 샘 알트먼 CEO는 o3 미니 테스트를 2024년 1월 말부터 시작하고, 이어서 o3 테스트를 진행한다고 밝혔습니다.
o3 모델의 추론 능력의 심층 분석
ARC-AGI 벤치마크 결과에 대한 자세한 고찰
o3 모델이 ARC-AGI 벤치마크에서 75.7점을 기록한 것은 이전 모델인 o1의 32점에 비해 43.7점이나 상승한 수치입니다. 이는 단순한 점수 향상을 넘어, AI의 추론 능력이 질적으로 도약했음을 시사합니다. 특히, 인간의 평균 점수인 85점에 근접했다는 것은 o3가 인간과 유사한 수준의 추론 능력을 갖추기 시작했음을 보여주는 중요한 지표입니다.
아니, 근데 겨우 75.7점이 뭐가 그렇게 대단한거야? 인간 평균도 85점이라며? 그냥 인간보다 조금 못한 수준이잖아.
이렇게 생각하실 수 있겠습니다만, 이는 AI의 발전 속도를 고려했을 때 매우 놀라운 성과입니다. ARC-AGI 벤치마크는 인간에게는 직관적으로 쉬운 문제들이지만, 기존 AI 모델들에게는 매우 어려운 과제로 여겨져 왔습니다. 2020년에 출시된 GPT-3가 0점을 기록한 것에서 알 수 있듯이, 그동안 AI의 추론 능력은 매우 제한적이었습니다. 하지만 o3는 불과 3년 만에 인간의 평균 점수에 근접하는 괄목할 만한 성장을 보여주었습니다. 이는 AI의 추론 능력이 기하급수적으로 발전하고 있음을 보여주는 강력한 증거입니다.
더욱 주목할 만한 것은 o3가 '더 오래 생각하도록' 요청받았을 때, 즉 추론 시간을 늘렸을 때 87.5점을 기록하며 인간의 평균 점수를 넘어섰다는 것입니다. 이는 o3가 단순히 패턴을 인식하고 예측하는 수준을 넘어, 복잡한 문제를 해결하기 위해 논리적으로 사고하고 추론하는 능력을 갖추고 있음을 의미합니다. 즉, o3는 주어진 정보를 바탕으로 새로운 지식을 생성하고, 이를 통해 문제를 해결하는 '진정한 의미의 추론'을 할 수 있는 AI 모델이라고 할 수 있습니다.
추론 시간 조정 기능의 의미와 잠재력
o3 모델의 또 다른 중요한 특징은 추론 시간을 조정할 수 있다는 것입니다. 사용자는 모델의 컴퓨팅 파워를 '낮음', '중간', '높음'으로 설정할 수 있으며, 이는 추론의 속도와 정확도에 영향을 미칩니다. 예를 들어, '높음' 설정에서는 더 많은 컴퓨팅 자원을 사용하여 더 정확한 추론 결과를 얻을 수 있지만, 더 많은 시간과 비용이 소요됩니다. 반면, '낮음' 설정에서는 추론 속도는 빠르지만 정확도는 다소 떨어질 수 있습니다.
아니, 추론 시간 조정하는 게 뭐 그렇게 대단한 기능이라고? 그냥 계산 빨리 하고 늦게 하고 차이 아니야?
이렇게 생각하실 수 있겠지만, 추론 시간 조정 기능은 AI 모델의 활용도를 크게 높일 수 있는 중요한 기능입니다. 예를 들어, 실시간으로 빠른 응답이 필요한 작업에는 '낮음' 설정을 사용하여 신속하게 결과를 얻을 수 있습니다. 반면, 시간은 다소 걸리더라도 매우 정확한 추론이 필요한 작업에는 '높음' 설정을 사용하여 최상의 결과를 얻을 수 있습니다. 즉, 사용자는 작업의 특성과 요구 사항에 따라 추론 시간과 정확도를 유연하게 조정할 수 있습니다.
이는 마치 자동차의 기어 변속과 유사합니다. 빠른 속도가 필요할 때는 고단 기어를 사용하고, 큰 힘이 필요할 때는 저단 기어를 사용하는 것처럼, AI 모델의 추론 시간 조정 기능을 통해 다양한 상황에 최적화된 성능을 발휘할 수 있습니다. 이러한 유연성은 AI 모델의 활용 범위를 크게 확장하고, 더욱 다양한 분야에 적용될 수 있는 가능성을 열어줍니다.
o3 모델의 한계와 향후 발전 방향
o3 모델은 분명 AI의 추론 능력에 있어 획기적인 발전을 보여주었지만, 여전히 한계점도 존재합니다. 가장 큰 한계는 추론 시간을 '높음'으로 설정했을 때 발생하는 막대한 비용입니다. 프랑수아 콜레 창업자가 언급했듯이, 작업당 수천 달러에 달하는 비용은 o3 모델의 광범위한 사용을 제한하는 요인이 될 수 있습니다.
또한, o3 모델은 여전히 인간의 직관과 상식에 기반한 추론에는 어려움을 겪을 수 있습니다. ARC-AGI 벤치마크는 주로 논리적, 공간적 추론 능력을 평가하지만, 인간의 추론은 이보다 훨씬 더 복잡하고 다면적입니다. 예를 들어, 사회적 맥락을 이해하고, 윤리적 판단을 내리고, 창의적인 아이디어를 도출하는 것은 현재 AI 모델에게는 여전히 어려운 과제입니다.
따라서 향후 AI 모델의 발전은 이러한 한계를 극복하는 방향으로 이루어질 것입니다. 보다 효율적인 알고리즘과 하드웨어 개발을 통해 추론 비용을 절감하고, 인간의 직관과 상식을 학습할 수 있는 새로운 학습 방법론을 개발하는 것이 중요합니다. 또한, AI 모델의 윤리적, 사회적 책임에 대한 심도 있는 연구와 논의가 필요합니다.
구글의 '제미나이 2.0 플래시 Thinking'과의 비교 : 경쟁 심화
이번 o3 발표는 바로 전날 구글이 새로운 추론 모델 '제미나이 2.0 플래시 띵킹'을 공개한 가운데 등장했다는 점에서 더욱 주목할 만합니다. 구글 역시 추론 모델을 통해 성능 발전을 이루었다고 강조했으나, 오픈AI는 바로 다음 날 AGI에 근접했다는 o3를 발표하며 한발 더 앞서 나간 것으로 보입니다.
이는 AI 분야의 경쟁이 더욱 심화되고 있음을 보여주는 단적인 예입니다. 오픈AI와 구글을 비롯한 글로벌 빅테크 기업들은 AGI 개발을 목표로 치열한 경쟁을 벌이고 있습니다. 이러한 경쟁은 AI 기술의 발전을 가속화하고, 궁극적으로는 인류에게 더 큰 혜택을 가져다줄 것으로 기대됩니다. 하지만, 동시에 AI의 잠재적 위험성에 대한 우려도 커지고 있는 만큼, 안전하고 윤리적인 AI 개발을 위한 노력도 함께 이루어져야 할 것입니다.
오픈AI의 o3 모델은 AI의 추론 능력이 새로운 단계에 접어들었음을 보여주는 중요한 이정표입니다. 특히, 인간의 능력을 뛰어넘는 추론 능력을 보여주었다는 점에서 AGI 개발에 대한 기대감을 높이고 있습니다. 하지만, 여전히 해결해야 할 과제들이 남아있으며, 앞으로 AI 기술이 어떤 방향으로 발전해 나갈지 주의 깊게 지켜봐야 할 것입니다. 더불어, AI의 발전이 가져올 사회적, 윤리적 문제들에 대한 심도 있는 논의와 대비가 필요한 시점입니다.
너무나도 중요한 소식 블로그 (클릭)
너무나도 중요한 소식 ebook (클릭)
1. 네이버 카페 '실전주식투자연구소' 로 오시면, 본 블로그의 모든 내용을 카테고리별로 정렬하여 순서대로 확인하실 수 있고, 다양한 실전 투자 정보도 얻을 수 있습니다~
2. 자타가 공인하는 주식 단기 시스템 트레이딩의 최고 전략가, '닥터 퀀트의 단기 트레이딩 강좌'가 뉴지스탁에서 진행중입니다. 닥터 퀀트의 강좌에서는 그동안 공개하지 않았던 무려 50개 이상의 실전 트레이딩 전략과 주기적인 업데이트 강의가 제공됩니다~
4. 여러분의 인생이 걸린 너무나도 중요한 소식 ----> 여기를 클릭하세요!