AI가 처음으로 '보고 듣기' 시작한 날 : GPT-4o가 건넨 새로운 감각

헬렌 켈러의 자서전에는 이런 대목이 나옵니다. 그녀의 선생님 앤 설리번이 그녀의 손에 찬물을 흘려 부어주며 다른 손에 'w-a-t-e-r'라고 써준 그 순간 — 헬렌은 난생처음으로 '물'이라는 감각과 단어가 같은 것을 가리킨다는 사실을 깨달았습니다. "살아 있다"는 감각이 그녀에게 흘러들어온 순간이었다고 그녀는 훗날 회상했습니다.

저는 2024년 5월 13일의 오픈(AI) 공개 시연을 보며 이상하게 그 장면이 떠올랐습니다. 미라 무라티(Mira Murati) CTO 옆에 앉은 한 연구원이 노트에 수학 문제를 적었습니다. 카메라가 그 노트를 비추자, GPT-4o라 불리는 새 모델이 이렇게 말했습니다. "힌트를 줄게. 양쪽 모두에서 3을 빼보는 건 어때?" 답을 알려주지 않고, 학생이 스스로 풀 수 있도록 이끌어주는 말투였습니다. 그 목소리는 조금 웃기까지 했지요.

그 순간, 저는 AI가 처음으로 '보고 듣기' 시작했다고 느꼈습니다.

▸ 'o'는 omni, 그러니까 '모든'

GPT-4o의 'o'는 옴니(omni), 즉 '모든'이라는 뜻입니다. 그 이름이 말하는 바는 명확합니다. 하나의 모델이 텍스트, 이미지, 음성, 영상을 모두 처리한다는 것이지요. 기존 GPT-4에서도 이미지를 이해하는 기능이 있었지만, 그것은 별도의 이미지 인식 모듈을 텍스트 모델과 접목한 방식이었습니다. 음성 대화는 또 다른 이야기였습니다. 예전 챗GPT의 음성 모드는 세 단계를 거쳤습니다. 사람의 음성을 텍스트로 변환하고, 텍스트로 답을 생성하고, 다시 텍스트를 음성으로 변환하는 순서였지요. 이 때문에 반응까지 평균 5.4초가 걸렸습니다. 사람과 사람 사이의 대화에서라면 어색함을 느낄 시간입니다.

GPT-4o는 이 세 단계를 하나의 신경망으로 압축했습니다. 음성을 '음성 그대로' 이해하고, 음성으로 바로 답합니다. 반응 시간은 평균 320밀리초로 떨어졌습니다. 사람의 대화 반응 속도와 거의 같은 수준입니다. 무엇보다 음성에 실린 톤과 감정까지 이해합니다. 오픈(AI)는 시연에서 연구원이 빠르게 숨을 몰아쉬는 소리를 듣고 GPT-4o가 "왜 그렇게 긴장해 있어? 천천히 숨을 쉬어봐"라고 답하는 장면을 보여주었습니다.

▸ 음성의 탈을 쓴 새로운 경제학

더 놀라운 것은 이 강력한 모델을 무료 사용자에게도 개방했다는 점입니다. GPT-4 수준의 성능을 돈을 내지 않는 사용자도 쓸 수 있게 된 셈입니다. 오픈(AI)는 여기에 '치열한 가격 전쟁의 시작'이라는 의미를 숨기지 않았습니다.

왜 오픈(AI)가 자신의 가장 비싼 자산을 공짜로 풀기 시작했을까요. 답은 가단합니다. 독자적인 AI를 가진 회사가 너무 많아졌기 때문입니다. 구글의 제미나이, 앤트로픽의 클로드, 메타의 라마. 경쟁사들이 속속 자사 모델을 무료 또는 저가로 개방하기 시작하자, 오픈(AI)도 '가장 빠른 선두주자'라는 명성에 의지할 수만은 없게 된 것이지요.

이 변화의 의미는 사용자에게는 좋은 소식입니다. 지난해까지만 해도 월 20달러를 내야 누릴 수 있던 기능을 누구나 쓸 수 있게 된 것이니까요. 하지만 저는 동시에 약간의 우려도 듭니다. 무료라는 말의 이면에는 언제나 대가가 숨어 있다는 것을 우리는 검색 엔진과 SNS의 역사를 통해 이미 배웠기 때문입니다. 구글 검색이 무료인 대가로 우리가 어떤 광고에 노출되었는지, 페이스북이 무료인 대가로 우리의 어떤 데이터가 팔려나갔는지를요. GPT-4o의 '무료'라는 말 뒤에 어떤 경제 논리가 숨어 있을지, 그것을 묻는 일은 사용자 각자의 몫입니다.

▸ 영화 〈그녀(Her)〉가 불편하게 된 이유

시연 직후 재미있는 해프닝이 있었습니다. GPT-4o의 기본 음성 중 하나인 '스카이(Sky)'가 영화 〈그녀(Her)〉에서 AI 사만다 역을 맡았던 스칼렛 요한슨(Scarlett Johansson)의 목소리와 지나치게 비슷하다는 논란이 벌어진 것입니다. 요한슨 본인이 해당 역할 제의를 거절했음에도 유사한 목소리가 등장했다며 법적 대응을 시사하자, 오픈(AI)는 해당 음성을 일시 중단했습니다.

이 작은 사건이 말해주는 바가 있습니다. AI가 '그녀(Her)'처럼 친밀한 관계를 연기할 수 있는 시대가 기술적으로는 이미 도착했다는 것입니다. 다만 그 관계의 주체가 될 수 있는가 하는 질문은 여전히 남아 있습니다. 영화 속 사만다가 수천 명의 사용자와 동시에 '사랑'을 했던 것처럼, 우리는 이 새로운 친밀함의 본질을 아직 제대로 이해하지 못하고 있습니다.

▸ 보고 듣는 AI가 바꿀 일상

GPT-4o가 가져올 변화를 몇 가지만 그려봅니다. 외국어 공부를 할 때 원어민 선생님과의 대화처럼 리듬을 맞춰가며 배울 수 있게 됩니다. 시각장애인을 위한 '실시간 세상 설명사' 역할을 AI가 할 수 있게 됩니다. 화이트보드에 그린 손글씨 기획서를 사진 한 장 찍어 AI에게 보여주면, 그것을 즉시 체계적인 문서로 바꿔주는 일이 가능해집니다.

한국에서도 응용 시나리오가 속속 등장할 것입니다. 대치동의 수학 학원이 아니라도, 사교육비를 감당하기 어려운 가정의 학생들이 AI 튜터와 대화하며 공부할 수 있는 시대 말입니다. 40년 전 벤자민 블룸이 '1대1 과외가 가장 효과적이지만 모든 학생에게 붙일 수 없다'고 한탄했던 문제가, 드디어 답을 찾기 시작하는 것일지도 모릅니다.

▸ 감각이 생긴 AI, 그 다음은

헬렌 켈러가 '물'이라는 감각과 단어를 연결한 순간 이후, 그녀의 세계는 폭발적으로 확장되었습니다. 그녀는 여러 외국어를 배웠고, 래드클리프 대학을 졸업했으며, 수많은 사람들에게 희망을 전했지요. 감각과 언어가 만났을 때 지능이 어떤 일을 할 수 있는지, 그녀의 삶이 보여주었습니다.

AI가 이제 막 '보고 듣기' 시작한 이 시점에서, 우리는 그 다음에 무엇이 올지 알지 못합니다. 다만 이 감각들이 모여 지능이 된다는 사실은, 이미 확인된 오래된 이야기입니다. 기계가 인간의 언어만을 사용하던 시대는 2024년 5월로 끝났다고 훗날 사람들이 기억하게 될지도 모르겠습니다. 그리고 그 끝자리에서, 우리는 아주 오래된 질문을 다시 마주합니다. "보고 듣는 기계도 과연 이해하는 것인가"라는 70년 전 앨런 튜링의 질문이 여전히 자리를 지키고 있으니까요.

#gpt-4o #openai #멀티모달 #음성AI

전체 사이트에서 댓글·관련 글을 함께 보시려면

이야기 공장에서 보기 →