엔지니어를 위한 이야기 공장 AI 기술에 인문학의 온기를

AI가 드디어 '생각'을 시작한 날 : GPT o1이 던진 새로운 질문

AI가 드디어 '생각'을 시작한 날 : GPT o1이 던진 새로운 질문

고등학교 시절, 수학 시험 시간을 떠올려봅니다. 어려운 증명 문제를 만나면 곧바로 답을 적기 시작하는 친구가 있는가 하면, 연습장을 뒤적이며 한참을 적고 지우기를 반복하는 친구도 있었습니다. 전자가 감각으로 풀어내는 유형이라면, 후자는 차근차근 논리를 쌓아가는 유형이었지요. 둘 중 어느 쪽이 더 높은 점수를 받았을까요. 대체로 후자였던 것 같습니다. 빠르게 풀린 답은 자주 틀렸고, 천천히 풀린 답은 자주 맞았습니다.

지난 2년간 챗GPT는 전자에 가까웠습니다. 질문을 던지면 즉각 답을 쏟아냈습니다. 빠르고 유창했지만, 어려운 문제에서는 자주 헛발을 디뎠습니다. 수학 올림피아드 수준의 문제에서 AIME(미국 수학 경시대회)의 정답률은 GPT-4o 기준 13.4%였습니다. 백 문제 중 열 문제 남짓을 맞히는 수준이었다는 뜻입니다.

그런데 2024년 9월 12일, 오픈(AI)가 공개한 o1은 같은 시험에서 83.3%를 기록했습니다. 같은 회사, 같은 시험, 같은 해 — 그런데 숫자가 여섯 배 넘게 뛰었습니다. 무엇이 바뀐 걸까요.

▸ 'GPT'에서 'o'로 : 이름이 바뀐 이유

먼저 이름부터 살펴봅시다. 새 모델의 공식 이름은 'GPT-5'도, 'GPT-4.5'도 아닌 o1입니다. 오픈(AI)가 이 모델을 기존의 GPT 시리즈와 별개의 계보로 분류하겠다는 뜻입니다. 참고로 o2라는 이름은 건너뛰었는데, 영국의 이동통신사 O2(오투)와의 상표권 충돌 때문이라고 합니다. AI 모델의 작명에도 글로벌 상표권이 영향을 미친다는 사실이 흥미롭지요.

이름이 갈라졌다는 것은 '철학이 달라졌다'는 신호입니다. 기존 GPT 시리즈가 더 빠르고, 더 유창하고, 더 방대한 지식을 가진 모델을 지향했다면, o1은 더 오래 생각하고, 더 깊이 추론하는 모델입니다. 이 두 가지는 같은 목표가 아닙니다.

▸ '생각의 사슬'이 모델 안으로 들어왔다

o1의 핵심 기술은 '생각의 사슬(Chain) of Thought, CoT'의 내재화입니다. 작년부터 AI 연구 커뮤니티에서는 흥미로운 관찰이 있었습니다. 어려운 문제를 풀 때 AI에게 "단계별로 생각해봐(Let)'s think step by step"라고 주문하면 정답률이 눈에 띄게 올라간다는 발견이었지요. 2022년 구글 연구진이 논문에서 보고한 이 현상은 곧 프롬프트 엔지니어링의 기본 기술이 되었습니다.

o1은 사용자가 매번 이 마법의 주문을 외울 필요가 없도록, 그 '단계별 생각'을 모델 내부에 심어버린 것입니다. 사용자가 질문을 하면, o1은 답을 내놓기 전에 내부적으로 수십에서 수백 단계의 추론을 먼저 진행합니다. 마치 수학 시험에서 연습장에 풀이 과정을 빼곡히 적어보는 것과 같습니다. 이 내부 추론 과정은 사용자에게는 보이지 않습니다. 다만 답변이 나오기까지 걸리는 시간이 길어질 뿐입니다. 간단한 질문은 2초, 복잡한 과학 문제는 수십 초가 걸리기도 합니다.

이 방식의 통찰은 분명합니다. AI에게 '더 많은 시간'을 주면 더 나은 답을 만든다는 것이지요. 기존 AI의 능력은 훈련 때 얼마나 많은 데이터와 파라미터를 쏟아부었는가에 달려 있었습니다. o1은 여기에 '추론 시점의 컴퓨팅 양'이라는 새 축을 더했습니다. 이것이 왜 중요한지는, 1만 시간의 법칙을 떠올리면 됩니다. 재능이 아니라 쌓인 시간이 달인을 만든다는 그 법칙 말입니다. 인공지능에게도 비슷한 일이 벌어지고 있는 셈입니다.

▸ 박사급 성적표의 이면

o1의 성적표는 수치만 놓고 보면 놀랍습니다. 미국 수학 올림피아드 예선 문제 AIME에서 83.3%, 박사 수준 과학 문제인 GPQA 다이아몬드 세트에서 78%, 국제 정보 올림피아드 IOI에서 49% — 모두 인간 박사과정 학생의 평균을 넘는 수준입니다. "박사급 AI"라는 수식어가 과장이 아닐 정도입니다.

그런데 저는 이 수치들을 볼 때마다 조금 다른 질문을 던지고 싶어집니다. 무엇을 위한 박사급 지능인가. 우리가 이 모델을 쓸 때 매번 박사가 풀어야 할 문제를 던지지는 않습니다. 대부분은 이메일 초안, 회의록 요약, 간단한 문구 번역 같은 일상적인 작업이지요. 이런 작업에는 GPT-4o의 빠른 반응이 오히려 낫습니다. o1은 답변 한 번에 수십 초를 기다려야 하고, 토큰당 비용도 4~6배 비쌉니다.

오픈(AI)도 이 점을 인정한 듯합니다. o1은 기존 GPT를 대체하는 것이 아니라, 병렬로 존재하는 또 다른 선택지로 자리매김했습니다. 빠른 직관과 깊은 추론, 두 가지 지능을 상황에 따라 골라 쓰라는 뜻입니다. 인간의 사고도 비슷하지 않습니까. 심리학자 대니얼 카너먼이 '생각에 관한 생각(Thinking), Fast and Slow'에서 말했던 '빠른 사고(시스템 1)'와 '느린 사고(시스템 2)' — 이 구분이 AI에도 적용되기 시작한 것입니다.

▸ o1이 보여주지 않는 것들

o1의 시연에서 오픈(AI)가 감춘 것이 하나 있습니다. 바로 모델이 내부적으로 수행한 추론 과정 그 자체입니다. 사용자는 최종 답변만 볼 수 있고, 그 답을 내기까지의 사고 흐름은 볼 수 없습니다. 오픈(AI)는 이를 "모델의 안전과 경쟁력을 위한 것"이라 설명했지만, 연구 커뮤니티에서는 여러 의문이 제기되었습니다.

첫째, 설명 가능성이 낮아집니다. 앞에서도 이야기했지만 AI가 왜 그런 답을 했는지 들여다볼 수 없다면, 그 답을 어떻게 신뢰할 수 있을까요. 특히 의료, 법률, 금융처럼 근거가 중요한 분야에서는 이 불투명성이 치명적일 수 있습니다. 둘째, 연구 공동체의 발전을 더디게 합니다. 오픈소스 진영의 다른 AI들이 o1의 접근법을 참고하려 해도, 그 추론 경로가 숨겨져 있어 비교·검증이 어렵게 되지요.

▸ 연꽃이 반쯤 덮인 수면에서

AI의 역사를 돌아보면, '시험을 잘 보는 기계'에서 '실제 세상의 문제를 다루는 기계'로 넘어가는 분기점이 몇 번 있었습니다. 1997년 체스 챔피언을 이긴 딥블루, 2016년 이세돌을 꺾은 알파고, 2020년 단백질 구조를 예측한 알파폴드. o1이 이 계보에 이름을 올리게 될지, 아직은 말하기 이릅니다. 벤치마크 점수 위에서 우승한 기계가 현실의 복잡성 앞에서 무너지는 일은 AI 역사에 여러 번 반복되었으니까요.

그래도 한 가지는 분명해 보입니다. 기계가 '답을 뱉는 것'에서 '생각을 하는 것'으로 성격을 바꾸기 시작했다는 것입니다. 인류가 호수의 연꽃이 수면의 절반을 덮는 시점에 서 있다고 누군가 말한다면, 저는 그 말을 완전히 무시하기는 어렵다고 답할 것 같습니다. 연꽃은 마지막 하루 이틀 사이에 수면을 뒤덮지요. 우리는 아직 그 마지막 하루에 도달하지 않았지만, 기계가 천천히 생각하기 시작했다는 사실 하나만으로도 그 수면의 색깔은 분명히 달라져 보입니다.

2024년 9월, 당신은 이 변화를 어디에서 마주하게 될까요. 흥미로운 질문입니다.

#gpt-o1 #openai #추론AI #chain-of-thought