AI시대, 당신의 맥락은 안녕하십니까?

인종차별 카페

필자가 파주 교하에 산 지 벌써 20년이 되었다. 아이들 초등학생 때 일산에서 이사 왔는데 비교적 저렴한 가격에 넓은 아파트를 구할 수 있었고, 자연과 좀 더 가까운 곳이라 좋았다. 주말이면 차로 10분 거리인 ‘헤이리 예술마을’에 가서 산책도 하고 커피 마시러 놀러 가곤 한다. 필자의 둘째 딸이 초등학교 저학년이던 시절, 하루는 토요일 아침에 둘째 딸만 태우고 헤이리에 간 적이 있다. 마침 황인용의 Music Space Camerata라는 유명한 음악 카페 옆을 지나게 되었다. 이때 딸이 질문을 한다.


fd95ff5c33064.png
e85f472b1359c.png

※ 이미지 출처: 카메라타 황인용 뮤직스페이스


cf939e4fa7103.jpg

※ 이미지 출처: 네이버블로그-제니한,건축과도시



* 딸: 아빠, 백인이나 흑인은 이 카페 못 들어가?

* 아빠: 아니. 누구나 들어갈 수 있지. 왜?

* 딸: 황인용이라고 써 있잖아! 

* 아빠: 황인용인데, 뭐? 아 ~~~~ ㅋㅋㅋ


유명한 방송인이었던 황인용(黃仁龍)씨는 1940년 생이고 필자가 태어나기 1년 전인 1967년에 동양방송 (TBS)에 아나운서로 입사했다고 한다. 필자가 어렸을 때 ‘밤을 잊은 그대에게’ 라디오 방송으로 음악을 들려주던 DJ였고, 이후에도 많은 방송활동을 한 분이다. 고향이 파주라서 그런데 파주 헤이리 예술마을에 ‘카메라타’라는 뮤직 카페를 차려 멋진 음악을 들려준다고 한다. 필자는 딱 한 번 가봤는데 마침 그날은 30분 후부터 공연이 있다고 해서 입구에서 발길을 돌려야 했다.


어린 딸이 이 유명한 방송인을 알리가 없으니 한글로 적혀있는 ‘황인용(黃仁龍)’이라는 이름과 필자도 본 적이 없는 ‘황인용(黃人用)’이라는 말을 혼동할 수도 있겠다는 생각이 들었다. 사실 백인용, 흑인용, 황인용이라는 단어가 현실에서 쓰인 일은 없지만 충분히 있을 수 있는 단어이기 때문이다. 내국인용/외국인용 입국통로, 남자용 화장실, 여자용 주차장, 성인용 오락실 등 특정한 대상만을 위한 물건이나 시설을 나타낼 때 흔히 ~용(用)이라고 쓰고 있기 때문이다. 더더구나 ‘황인용의 Music Space’가 아니라 그냥 ‘황인용 Music Space’라고 표시했다. ‘~의’자가 빠졌으니 더욱 혼란을 주었을 수 있다.


그때는 (필자 입장에서는) 너무나도 엉뚱한 어린 아이의 질문이 재미있어서 깔깔거리고 웃게 되었고, ‘황인용’씨가 누구인지 설명해 주고 끝났다. 그런데 이제 AI의 시대에 와서 다시 생각해 보면 매우 재미있는 것을 알게 된다. (카페 이름에 대한) 이 아이의 언어적 해석은 결과적으로 틀렸다. 하지만, 그런 엉뚱한 해석을 내리게 된 뒷면에는 매우 과학적인 언어 처리과정이 아주 빠른 속도로 진행되었던 것이다.


1bc6a6d67d40c.jpg※ 이미지 출처: BBC


먼저 ‘황인용’이라는 단어를 보고 이 단어를 분해했다. 황, 인, 용. 그 다음에 황+인=황인 (황인족)을 연상했다. 백인, 흑인, 황인이라는 단어를 많이 들어 봤고 그 의미를 알기 때문이다. 그리고, ‘~용’이라는 단어 역시 특정 대상만을 위한 용도라는 뜻으로 많이 사용되고 있는 것을 배우고 들어서 알고 있었다. 따라서 이 아이는 자신이 학습한 바, 즉 자신이 듣고, 보고, 배운 것들을 바탕으로 논리적인 추론을 한 것이었다. 그래서 이 카페는 백인이나 흑인은 들어갈 수 없는 ‘황인족 전용’의 인종차별 카페가 아니었을까 하고 질문을 한 것이었다.


만약 이 아이의 뇌가 인터넷에 연결되어 있어서 순식간에 ‘황인용’에 대한 다른 정의나 정보가 있는 지 검색할 수 있었다면, 곧바로 황인용 이라는 인물에 대해 알게 될 수 있을 것이고, 그가 카메라타라는 카페를 파주 헤이리 예술마을에 운영한다는 것도 알 수 있었을 것이다. 그래서 인종차별 카페에 대한 질문보다는 이곳에서 어떤 음악을 들려 주는 지 질문했을 지 모른다. 다시 말해서 필자와 같이 오랜 세월에 거쳐 ‘황인용’이라는 이름의 유명 방송인을 알지 못했더라도 (1) 네트워크에 연결되어 있고, (2) 검색 가능한 데이터베이스가 존재한다면 어린 아이의 지적 능력으으로도 그 카페가 인종차별적인 공간이 아니라는 것을 알 수 있다.


우리가 지금 경험하고 있는 초기 버전의 AI가 작동하는 방식도 이와 비슷한 개념이라 할 수 있다.


말끼를 잘 알아듣는 Chat GPT

사실 필자는 최신의 AI 기술에 대해 잘 모른다. AI를 이용한 검색이나 이미지 생성 등 제한적으로만 사용해 왔다. 그러다 최근 더 높은 수준의 업무효율 향상을 위해 이것저것 궁리하게 되면서 최신 AI기술에 다시 관심을 두고 학습하게 되었다. 이런 저런 강연들을 보고, 몇몇 AI 서비스들을 이용해 본 결과 현재의 AI 기술에 대한 대략적인 개념을 이해하게 되었을 뿐이다.


필자가 이해한 수준에서 보자면 Chat GPT 한 마디로 좀 단순화해서 얘기하자면 “말끼를 잘 알아 먹는 검색엔진”이었다. 사실은 ‘말끼’만 잘 알아먹는 것이 아니라 검색한 결과를 ‘말이 되게’ 논리적으로 구성해서 답변을 해 주는 능력도 탁월했다. Chat GPT에게 말을 하는 것이건 답변을 듣는 것이건 Chat GPT는 사람의 글을 잘 이해한다. 즉, ‘단어’에 반응하는 것이 아니라 ‘맥락’을 파악해서 그 맥락에 최대한 맞을 것 같은 답을 해 준다. 


Chat GTP에서 ‘Chat’은 말 그대로 말을 주고 받는 것, 즉 대화형 서비스라는 뜻이다. 기존의 검색엔진은 중요한 단어, 즉 키워드(Keyword)로 검색을 하지만, Chat GTP는 대화를 주고 받을 수 있는 한 차원 높은 서비스이다. 그리고 GPT는 Generative Pre-trained Transformer의 약자이다. Generative는 글이나 이미지 등을 생성할 수 있다는 뜻인데, 사전에 학습된 것 (Pre-trained)을 바탕으로 한다는 의미인 것 같다. 그리고 마지막 Transformer가 중요한데 인간의 언어를 이해하고, 다시 인간이 이해할 수 있는 언어로 답변할 수 있도록 해 준다.


사실 Transformer는 2017년 구글이 발표한 인공지능 모델의 구조(Architecture)인데, 문맥을 병렬로 처리하는 신경망 설계 방식이다. 그리고 이 Transformer 구조를 기반으로 방대한 데이터를 학습시킨 거대언어모델이 Chat GPT같은 서비스인 것이다. 구글이 만든 Transformer를 가지고 OPEN AI라는 회사에서 먼저 Chat GPT라는 서비스를 먼저 시장에 내 놓은 것이다. 지금은 구글이 Gemini, Nano Banana 등 다양한 AI 서비스를 빠르게 내놓고 있지만, AI 상용화에 대해서는 망설임이 있었던 것 같다.


afd84b61625b5.png6caa7ae96998a.png※ 이미지 출처: YouTube 채널 [3Blue 1Brown] 영상 캡쳐


장황하게 설명했지만 결국 이 AI시대에도 가장 중요한 것은 ‘맥락’이라는 얘기를 하고 싶은 것이다. 맥락이란 무엇일까? 구글 검색창에 물으면 요즘은 AI 답변이 먼저 나온다. 물론 이 답변은 인터넷을 검색해서 최적의 답을 찾아 요약해서 보여 주는 것이라 기본적으로는 검색엔진과 크게 다르지는 않다. 어쨋거나 “맥락(Context, 脈絡)은 말, 글, 행동 등 서로 이어져 있는 관계나 연관을 의미하며, 상황·전후 사정·사회문화적 배경 등을 따져 의미를 전체적으로 이해하는 것”이라고 설명한다. “같은 표현이라도 상황 (시간, 장소, 의도)에 따라 다르게 해석될 수 있으므로, 정확한 의사소통과 비판적 사고에 필수적인 요소”라는 설명도 덧붙인다.


061b39fc790a3.png

※ 출처: 구글


AI 서비스가 다양해 지면서 ‘프롬프트 엔지니어링 (Prompt Engineering)’이라는 용어까지 등장했다. 일정 수준 이상의 서비스를 이용하려면 유료 구독을 해야 하기 때문에 가급적 빠르고 편리하게 원하는 결과 (답변, 보고서, 이미지, 동영상 등)를 얻기 위해서 내가 원하는 게 뭔지를 정확히 기술해서 질문을 해야 하기 때문이다. 즉, AI 서비스에게 일을 시키기 위해서 정확한 명령이나 질문을 해야 하는데 그 지침을 잘 만들어야 한다. 인간의 뇌 구조와 흡사하게 설계된, 그리고 인간의 언어로 된 자료를 방대하게 학습한 AI 서비스가 당신의 요구사항에서 맥락을 최대한 잘 이해하도록 논리적이고, 구체적이며, 구조적인 프롬프트가 필요하다는 것이다.


2af9bea92a600.png※ 이미지 출처: EDUCBA


보통 사람들에게는 골치 아픈 일이 아닐 수 없다. AI에게 일을 시키는데, 그 일 시키는데 공학 (Engineering)이란 말을 쓸 정도로 복잡하고 어려운 일이어야 하나? 좀 편하자고 사람대신 AI에게 일을 시키려는 것인데, 그걸 위해 새로운 프로세스를 배워야 하고, 소프트웨어 툴 다루는 법을 배워야 하고, 명령문을 구조적이고 논리적으로 만들어야 하다니, 차라리 사람 하나 고용하는 게 낫겠다! 라고 생각할 수도 있을 것이다.


하지만 어쩔 수 없다. AI 서비스를 하는 기업들은 돈 먹는 하마다. 인간의 언어를 이해하기 위해 복잡한 연산을 수도 없이 반복해야 하기 때문에 거대한 데이터센터가 필요하고, 엄청난 전기를 사용한다. 1천조원 이상을 투자했고, 앞으로 더 많이 할 예정이다. 사용료를 청구하는 것만으로는 이 거대한 투자에서 이익을 내기 어렵지만, 어쨌거나 사용자 입장에서는 월 5만원 ~ 10만원씩 내는 구독료도 적지 않은 부담이다. 그래서 비용절감 차원에서, 그리고 시간과 노력을 절감하기 위해서라도 좋은 프롬프트를 만들어서 AI 서비스를 이용하는 것이 현명하다.


엄마 눈치 보는 아빠

“아빠는 왜 운전할 때 엄마 눈치를 많이 봐?” 이 질문은 필자의 둘째 딸이 어렸을 적 쏟아낸 무수한 명언(?)들 중 하나이다. 어는 날 두 딸을 태우고 어딘가로 가고 있는데 뒤에서 아빠의 운전을 지켜 보던 둘 째 딸은 왜 아빠가 계속 엄마를 흘낏흘낏 쳐다 보면서 운전하는 지 궁금했을 뿐이다. 아빠는 엄마가 무서워서 자꾸 눈치를 보는 것일까?


처음에는 무슨 말인가 했다. 물론 아내가 운전하는데 잔소리를 좀 하는 편이긴 하지만, 그렇다고필자가 아내 눈치를 볼 정도로 착한 사람은 아니다. 옆에서 뭐라 하든 그냥 가고 싶은 데로 가는 스타일이다. 그런데 둘째 딸은 왜 내가 눈치를 본다고 생각했을까? 곧 이유를 알게 되었다. 차선 변경을 위해 왼쪽, 오른쪽 후사경 (Rear-view mirror)를 자주 보게 되는데 그것이 마치 엄마를 흘낏흘낏 쳐다 보는 것, 즉 눈치를 보는 것으로 느껴졌던 모양이다.


이 경우는 말이나 글이 아닌, 행동에 대한 맥락을 잘못 읽은 경우이다. 우리는 꼭 말하지 않더라도, 글로 써서 전달하지 않더라도 사람들의 얼굴 표정이나 행동, 몸짓 등을 통해 의미를 파악한다. 그가 어떤 기분인지, 뭘 하고 싶은지, 어떤 의사를 전달하려 하는 지 유추할 수 있다. 물론 직접적인 언어를 사용한 것에 비해 보통은 의미를 정확히 파악하기 어려울 경우가 많은데, 특정한 상황에서는 언어보다 훨씬 빠르고 정확한 경우도 있다.


어쨌든 이렇게 딸 아이가 오해하는 상황을 AI 서비스를 이용해 그림으로 그려 보면 어떨까? 구글에서 검색창에 아래와 같이 입력하면 요즘은 자동으로 Nano Banana가 그림으로 만들어 준다. 기대했던 것과 비슷한 느낌으로 그려 주었다. 그런데, ‘지브리’ 스타일로 그려 달라고 해서 그런지 일본과 같이 운전석이 오른쪽에 있다.


(1) SUV 차량의 운전석에는 아빠, 보조석에는 엄마, 뒷자리에는 초등학생 딸 두 명이 앉아 있는 그림을 지브리 스타일로 그려줘.


a9b8ccbb0e146.png



(2) 위의 그림에서 운전석이 왼쪽에 있는 것으로 변경한 후, 안경을 쓴 아빠가 차선변경을 위해 오른쪽 후사경(rear view mirror)를 보기 위해 머리를 오른쪽으로 조금 돌린 모습으로 변경해 줘.

==> 위의 그림 결과물에 대한 연이은 작업은 수행하기 어려웠는지 이렇게 작업 불가 답변이 나왔다. “이 검색에 대해 제공해 드릴 수 있는 대답이 없는 것 같습니다. 다른 질문을 해 보세요.”


(3) SUV 차량의 왼쪽 운전석에는 아빠, 오른쪽 보조석에는 엄마, 뒷자리에는 초등학생 딸 두 명이 앉아 있는 그림을 지브리 스타일로 그려줘. 아빠는 오른쪽 rear view mirror를 보기 위해 얼굴을 오른쪽으로 살짝 돌린 모습이야.

==>  아예 처음부터 다시 그리 보기로 했다. 그랬더니 처음보다는 좋아졌지만 여전히 운전석의 좌우가 바뀌어 있다.


4155e64caced8.png


(4) SUV 차량의 운전석에는 아빠가 앉아있고, 그 옆의 보조석에는 엄마가 앉아 있어. 그리고 뒤에는 두 명의 초등학생 딸이 타고 있어. 이 모습을 앞에서 봤을 때의 이미지를 만들어 줘.

==>  왼쪽, 오른쪽 구분이 어려운가 싶어 차를 옆에서 본 모습이 아니라 앞에서 본 모습으로 그려달라고 했더니 여전히 운전석 위치에는 변화가 없다. 그리고 딸도 1명 안 보인다.


7927dd1367109.png


(5) SUV 차량의 오른쪽 운전석에는 아빠가 앉아있고, 왼쪽 보조석에는 엄마가 앉아 있어. 그리고 뒤에는 두 명의 초등학생 딸이 타고 있어. 아빠는 차선 변경을 위해 왼쪽 거울을 보려고 엄마쪽으로 얼굴을 조금 돌렸어. 이 모습을 앞에서 봤을 때의 이미지를 만들어 줘.

==>  거의 원하는 그림이 나오기는 했는데, 이번에는 운전대가 2개가 되었다. ㅍㅎ


6d70f88b236b9.png


(6) 엄마 앞의 운전대를 지워 줘

==>  엄마 앞의 운전대만 지워달라고 했는데, 아빠의 운전대도 사라져 버렸다. ㅋㅋ


24fba4adda3d4.png


(7) 아빠 앞의 운전대는 지우지 말아 줘. 아빠는 두 손으로 운전대를 잡고 있어.

==>  드디어 운전대 문제가 해결이 되었다. 그런데 반복된 수정 요구에 Nano Banana가 짜증이 났는지 엄마의 입을 없애 버렸다. ㅎㅎ


b3e92ab930a59.png

이렇게 단순한 이미지 하나 만들어 내는 것에도 여러 차례의 대화가 필요하지만 그렇다고 100% 원하는 결과물을 얻지도 못했다. 그런데, 그런데 말이다. 이걸 내가 직접 그리려 했다면 그릴 수 있을까? 혹은 애니메이션을 잘 그리는 사람에게 부탁했을 때 얼마나 많은 시간과 노력, 그리고 비용이 발생할까를 생각해 보자. 이 정도의 이미지 생성은 무료로 제공하고 있으니 치명적인 수준이 아니라면 이 정도의 품질로 만족하게 될 것이다. 그리고 프롬프트를 잘 만들수록 더 높은 효율로, 더 저렴하게, 더 만족스러운 결과를 얻게 될 것이다.


당신의 ‘맥락’은 안녕하십니까?

결국 인간의 언어를 잘 이해하는, 인간의 글에서 맥락을 잘 이해하고, 그 맥락에 맞춰 자료를 찾고, 원하는 것에 최대한 근접한 결과물을 인간의 신경망과 비슷한 방식으로 추론하여 맥락에 맞는 답변을 주는 AI. 말끼를 잘 알아듣는 AI, 논리적/합리적으로 답변하는 AI. 현재 아주 빠른 속도로 발전하고 있지만 아직까지 그 근간은 인간의 언어이며, 그 인간의 언어를 해석하는 핵심 키워드는 ‘맥락’을 잘 짚는 것이다. 그래서 우리는 아직은 좀 부족한 AI에게 일을 잘 시키기 위해 ‘맥락’이 잘 읽히는 프롬프트를 개발하고 있다.


그런데, 불현듯 이런 생각이 들었다. 나는 얼마나 잘 소통하고 있을까? 내가 주고 받는 카톡이나 문자, 이메일에서 상대방은 맥락을 잘 읽을 수 있을까? 내가 대화하거나 전화 통화를 할 때 상대방은 내가 말하고자 하는 취지를 효율적으로 파악할 수 있을까? 내 보고서는? 내 컬럼이나 강좌의 글은 또 어떨까? 내가 만든 상품의 상세페이지는 고객들이 알고 싶은 것들을 효과적으로 보여 주고 있을까? 고작 AI에게 일 시키기 위해 효율적인 프롬프트를 만들려고 노력하고 있으면서, 정작 사람과 소통할 때에는 얼마나 맥락을 읽으려 노력하고 있는지, 얼마나 맥락이 잘 전달되게 말하고 있는지 생각해 봤다. 스스로가 부끄럽게 느껴졌다.


Attention is All You Need. 2017년 구글이 발표한 논문 제목이라고 한다. 앞서 언급한 바와 같이 Chat GPT의 T가 Transformer의 약자인데, 이 Transformer가 바로 이 논문에 나온다. 그리고 이 논문 제목의 Attention은 다소 중의적으로 사용되었다. 문장 속에서 맥락을 찾아 주는 역할을 하는 Transformer의 Attention 블록을 뜻하는 것인데, 말 그대로 ‘관심과 집중’이 우리에게 필요한 모든 것이라는 함의도 담고 있다.


0f9c46a555599.png

※ 이미지 출처: YouTube 채널 [3Blue 1Brown] 영상 캡쳐


Chat GPT에도 사용된 Transformer의 일부인 Attention 블록이 어떻게 맥락을 찾아 주는 지 기술적으로 이해할 수 있다면 멋진 일이 될 것이다. 하지만 우리는 이미 현실 세계에서 어떻게 맥락이 작용하는 지 알고 있다. 사람과 사람간의 대화에서, 뉴스 기사에서, 이메일에서, SNS에서 우리는 맥락을 찾는다. 그리고 맥락을 찾으려 할 때 가장 첫 번째 단계는 관심과 집중이다. 우리 일반인에게는 상대방의 말에 관심을 갖고 귀를 기울이는 행위, 즉 Attention하는 자세가 가장 중요한 것 아닐까? 관심을 갖고 주의를 기울여야, 그리고 집중하려고 노력해야 그제서야 맥락이 파악되고, 소통이 이루어지고, 공감할 수 있게 된다. 그래서 저 논문의 제목은 정말 멋지다.


0a481a4bfd36f.png

※ 이미지 생성: 구글 Nano Banana


거대 언어 모델 (LLM)에 기반한 AI가 쉽게 맥락을 찾을 수 있는 프롬프트라면 사람이 봤을 때도 쉽게 이해가 갈 것이다. AI가 말끼를 못 알아 먹는다고 소리를 지르거나 진상을 부려 봤자 소용이 없다. 그런데 우린 그걸 사람에게 하고 있다. 필자도 많이 그랬다. 관심을 갖고 주의를 기울여 대화하기 보다는 내 주장만 하고, 들으려 하지 않는다. 맥락을 파악하기 보다는 단어에 반응하는 경우도 많다. 최악은 내가 원하는 것이 정확히 뭔지도 모르는 경우이다. 그래도 결과는 원한다. 개떡같이 말해도 찰떡같이 알아 듣기를 바라기도 한다.


60196e713fefc.png

※ 이미지 생성: 구글 Nano Banana


이제 사람들과 소통할 때 그들이 AI라고 생각하고 해 봐야겠다. 최대한 간단 명료하면서도 (내가 원하는) 세부적인 내용들을 담아서 글로 쓰거나 말하기. 상대방이 대답을 마칠 때까지 차분하게 기다리기. 답변을 잘 읽고 (듣고) 맥락을 파악하려 노력하기. 미흡한 부분이 있으면 다시 간단 명료하게 질문하기 등. 그리고 평소에 내가 뭘 원하는지, 그것을 어떻게 표현하면 좋을 지에 대해서도 연구를 좀 해 봐야겠다. “이상”


0