21세기 IT의 역사를 바꾼 한 단어가 있다면, 바로 '트랜스포머(Transformer)'라고 할 수 있습니다. 여러분은 트랜스포머라고 하면, 가장 먼저 자동차가 로봇으로 변신하고 지구를 지키는 영화가 떠오른다면 지극히 정상이에요. 그렇지만, 지금 우리가 이야기 할 트랜스포머는 여러분이 사용하는 ChatGPT, Gemini 같은 똑똑한 AI를 탄생시킨 '인공지능 두뇌의 설계도'라고 할 수 있습니다.

영화 트랜스포머를 떠올렸다면 이 글을 읽기에 딱 적당합니다. 저도 맨처음에 그랬어요 < 출처 : 파라마운트 >
Attention is All you need (어텐션이면 충분하지)
2017년, 구글의 천재 연구원 8명이 "이거 하나면 다 할 수 있어!"라면서 내놓은 논문 한 장, 이것이 바로 전설의 시작이었습니다. 도대체 무슨 일이 있었던 걸까요?
AI가 사람이 하는 말을 인식하고, 이해해서 사람처럼 말하게 할 수는 없을까 하는 것을 '자연어처리(NLP)'라고 앞에서 말씀드렸는데요. 자연어 처리에는 커다란 문제가 있었습니다. 전쟁 직후인 1947년 수학자인 워런 위버(Warren Weaver)는 독일군의 암호 체계인 '에니그마'를 풀었던 암호 해독 기술을 외국어 번역에 적용할 수 있지 않을까 고민했죠.
"러시아어로 된 문장을 읽을 때, 이것은 사실 영어로 쓰여 있는데 단지 기묘한 부호로 암호화 되어 있는 것과 같다."라는 그의 주장은 1954년 조지타운대와 IBM이 협력하여 러시아어 문장을 영어로 자동 번역하는 '기계 번역(Machine Translation)'에 성공하면서 독립적인 연구분야로 자연어처리가 자리를 잡게 되었습니다.

기계번역을 데모하고 있는 조지타운대 언어학자들 < 출처 : 존 허친스 논문 >
자연어처리는 인간이 사용하는 언어의 모든 문법과 예외를 이해하기 위해 규칙을 만들어보고, 통계적인 방식도 사용을 해봤습니다. 예를 들면 영어에서는 주어 뒤엔 동사가 오고, 목적어와 보어가 올 수 있다는 식의 문법이죠. 그렇지만, 한국어에서는 목적어와 주어의 순서가 바뀔 수도 있습니다. 예를 들면 '나는 사과를 먹었어'와 '사과를 내가 먹었어'는 같은 뜻이지만, 고정된 어순만으로 학습된 경우에는 이를 인식하기 어렵고, 번역도 잘못되는 경우가 생겼던거죠. 여기에 "내가 어제 극장에서 봤던, 꽤 재미있었지만 조금 황당하기도한 이상한 그 영화를 동생도 보았다고 한다."라는 문장을 예를 들어보죠. 이 문장에서 AI는 '이상한'이 '동생'을 수식하는지 '영화'를 수식하는지 이해하지 못합니다. 왜냐하면 사람의 언어는 단순한 규칙으로 만들어지는 것이 아니니까요.
쉽게 얘기하면 예외가 너무나도 많다는 걸로 이해해도 됩니다. 영어의 발음만 해도 그렇죠. 사이클(Cycle)이라고 읽지만, 2개의 바퀴가 달렸다는 접두사인 바이(Bi)를 붙이면 바이서클(Bicycle)이 됩니다. 왜? '바이사이클'이 아닌 걸까요? 즉, 인간의 언어는 읽는 법부터 구성하는 법부터 규칙이나 통계로 인해하기엔 그 한계가 분명합니다.
그러다보니 문장이 길어지면 AI는 엉뚱한 결과를 내놨고, 문장을 처음부터 끝까지 순서대로 제대로 된 규칙을 지키지 않으면 해석하지 못했습니다. 그러다보니 할 수 있는 수준이라고는 'I will do my ( )'라고 했을 때, 빈 칸에 들어갈 단어가 무엇인지 짧은 문장의 빈 칸 채우기를 하는 정도에 불과하기도 했어요.
2017년 6월, 구글의 연구팀은 이런 답답함을 해결하는 논문 하나를 발표합니다. 그것의 제목부터 아주 힙(Hip)했는데, 바로 'Attention is All You Need (어텐션만 있으면 돼)'. 사실 이 제목은 비틀즈의 명곡 'All You Need is Love'를 패러디한 것이었는데요. 이 논문에서 제안한 핵심이 바로 트랜스포머(Transformer)입니다. 이들이 제안한 트랜스포머 모델의 핵심은 '순서대로 읽지 말고, 중요한 것에 형광펜을 칠하자'였어요.
트랜스포머는 문장 전체를 한 눈에 봅니다. 그리고, 단어들끼리 서로 얼마나 친한지, 누가 중요한지 점수를 매깁니다. 회사에서 상무님이 엄청 잔소리를 하시는 것은 중요하지 않지만, 나를 꼭 집어서 '지시한' 내용은 기억하는 것과 비슷해요. 이것을 '셀프 어텐션(Self-Attention)'이라고 합니다.
앞에서 "내가 어제 극장에서 봤던, 꽤 재미있었지만 조금 황당하기도한 이상한 그 영화를 동생도 보았다고 한다."는 문장에서, 트랜스포머는 문장 전체를 훑어보고, "아하! 앞에서 보았던 영화를 이상하다고 하는거네!"라며 '영화'와 '이상한' 사이에 연결하는 형광펜을 칠합니다. 즉, 주목할(Attention)만한 내용들끼리 연결하는 것이 바로 트랜스포머라고 생각하면 됩니다.
트랜스포머의 또다른 장점이 하나 있는데요. 옛날 방식의 자연어 처리 방식은 요리사 한 명이 재료를 차례대로 손질하는 가내 수작업이라면, 트랜스포머는 수십 명의 요리사가 동시에 달려들어 각자 맡은 재료를 손질하는 호텔 뷔페 주방과 같아요. 이걸 '병렬 처리'라고 하는데, 엄마가 전화를 받으시면서, 드라마를 보며, 다리미질을 하시는 것을 상상하셔도 됩니다. 여튼, 트랜스포머는 어마어마하게 빠른 '속도'로, 병렬 처리를 할 수 있기 때문에 인터넷에 있는 모든 글을 읽고 학습할 수 있었던 거에요.
트랜스포머 논문을 내놨던 구글의 연구원들은 논문이 대박나고 나서, 본인들의 기술로 세상을 바꿔보겠다며 AI로 가상의 친구를 만드는 '캐릭터.AI'를 창업하거나, 기업용 AI인 Cohere를 창업하기도 했습니다. 오늘날 우리가 사용하는 ChatGPT의 GPT도 사실 'Generative Pre-trained Transformer'의 약자에요. 트랜스포머가 없었다면, 지금의 똑똑한 AI가 존재하지 못했다는 걸 알 수 있는 대목입니다.
영화 트랜스포머에서 "옵티머스 프라임, 지구를 지켜줘서 고마워요!"라고 했다면, 우리는 "고마워, 트랜스포머! 네 덕분에 AI로 세상이 변하고 있어!"라고 말할 수도 있겠죠?
전체 사이트에서 댓글·관련 글을 함께 보시려면
이야기 공장에서 보기 →