챗GPT, 기술적 대화도 척척
머스크 그록3도 성능 뛰어나
둘 빠르게 추격중인 딥시크
공개한 소스 보니 기술 상당
한국도 오픈코드 활용해
생성형AI 경쟁력 높여야
머스크 그록3도 성능 뛰어나
둘 빠르게 추격중인 딥시크
공개한 소스 보니 기술 상당
한국도 오픈코드 활용해
생성형AI 경쟁력 높여야

월 3만원대로 사용하던 챗GPT-Plus를 열 배 더 비싼 챗GPT-Pro로 업그레이드했다. 그야말로 신세계다. 이제 난도 높은 질문은 5분쯤 생각하고 대답하기도 한다. 아이디어를 던지면 관련 연구를 찾아 정리해주고 논문 형태로 방향을 제안하기도 한다. 물론 제출할 수 있는 수준의 논문은 아니다. 대답의 수준이 두어 단계 뛰었다. 몇 분 내로 대답이 안 되면 먼저 간단히 대답한 다음 계속 찾아보고 더 좋은 대답이 되면 알려주겠다 한다. 더 좋은 대답을 만들어 몇 시간 뒤에 알려주기도 한다.
기술적인 대화를 주로 하는 필자에게 챗GPT-Pro에 필적할 만한 AI는 없다. 다만 요 몇 주 사이에 돌풍을 일으키고 있는 딥시크가 만만치 않다. 무료 버전에서도 일반적인 생성형 AI가 이르지 못하는 생각의 체인을 따라 대답을 만드는 과정을 그대로 보여준다.
딥시크가 돌풍을 일으키는 와중에 일론 머스크가 급히 그록3를 릴리즈했다. '프리미엄+' 서비스를 구매해서 필자의 방식으로 테스트해봤다. 한숨이 나오던 그록2와 전혀 다른 수준이다. 챗GPT-Pro에 전혀 떨어지지 않는다. 오히려 사용자의 생각 흐름을 감지하고 대화에 녹여 넣는 절차적 친절함이 높다. 기술 대화는 좀 더 나은 느낌. 물건이 하나 더 나온 것 같다.
엔비디아의 '여우' 젠슨 황은 미국 정부가 H100과 A100 GPU의 중국 수출을 막자 제재 규정을 문구상 만족하는 선에서 H800이란 GPU를 만들었다. H800은 알려진 것만큼 H100에 비해 크게 떨어지는 보드가 아니고 A100보다는 좋다. 딥시크가 주로 사용한 8비트 실수 연산에서는 H100보다 더 빠른 것으로 보인다. 소비전력, 메모리와 캐시의 크기도 동일하다. 딥시크는 반복 계산을 줄이기 위해 캐시 메모리를 활용한다. 대부분의 AI 프로그램은 GPU 활용을 CUDA에 맡기지만, 딥시크는 CUDA와 하드웨어 사이를 건드려 GPU 사용 효율을 극대화했다. GPU 간 통신 속도가 좀 떨어지는 문제도 압축 기술을 포함한 몇 가지 아이디어로 극복했다.
확인은 안 되지만 2023년 말까지 중국에 H800 100만장이 들어간 것으로 추정된다. 한국 전체의 H100 보유량이 2000장을 겨우 넘는 듯하니 얼마나 큰 격차인가. H800의 실체를 뒤늦게 안 미국 정부는 2023년 10월부터 H800 수출도 금지했다. 젠슨 황은 다시 H20을 만들어 중국에 수출 중이다.
시중에서 딥시크는 큰 기술이 없고 단순히 알려진 기술들의 조합이라는 말도 들리는데 터무니없다. 기술 자료를 보면 엄청난 수준에 가 있다. 필자의 주관적 테스트로는 아직 챗GPT나 그록3와 견줄 정도는 아니지만 대규모언어모델(LLM) 개발에서 타이밍을 놓친 우리에게는 굿뉴스다. 이제 독자적으로 LLM을 만들기보다는 딥시크가 공개한 소스코드를 가져다 개량해서 사용하는 것이 최선이다. 딥시크는 2023년 10월까지의 데이터로만 훈련돼 있으니 그 이후의 데이터와 한국에서 특화된 데이터로 추가 훈련을 하면 된다. 소스코드를 가져다 쓴다고 종속되지도 않는다. 딥시크도 라마와 같은 오픈소스로 시작했을 것이고 지금은 완전히 극복했다.
딥시크는 세계 경제의 민폐국으로 여기던 중국에서 핀 찬란한 별이다. 그 너머에 대한 자신감이 없으면 저렇게 소스를 공개하기 쉽지 않다. 견고한 철학도 있다. 이름에 '오픈'이라 적어놓고 폐쇄주의 기업으로 변한 오픈AI로서는 난처한 상대가 적어도 둘 나타났다.
[문병로 서울대 컴퓨터공학부 교수]