프롬스크래치 K-AI의 현실(feat. 독파모)

최근 국가 대표 AI를 뽑는 독자 AI 파운데이션 모델(독파모) 1차 평가 결과, LG AI연구원과 SK텔레콤, 업스테이지 3곳이 선정됐습니다.

독파모 1차 발표

정부가 당초 5개 팀에서 4개 팀을 뽑겠다는 계획에서 갑자기 1차 평가 때 2개 팀을 탈락시킨 건데요. 기사로 이슈가 된 네이버 클라우드 팀의 중국 오픈소스 사용 때문입니다. 그런데 정부가 느닷없이 재도전 제도를 도입하면서 뒷말이 나오고 있습니다.
과기정통부는 재도전 도입이 더 많은 기업에 기회를 주기 위한 것이지, 특정 기업을 고려한 것은 아니라고 강조했습니다.

이번 네이버의 탈락은 독자성 기준인데요.

사실 국내에서는 해외와 AI 기술 격차가 현격하게 나는 상황에서 일단 독자적으로 개발할 수 있는 역량이 안됩니다. 그러면 결국 기존에 시장에 나와 있는 오픈소스를 사용해서 AI를 개발하는 방법 뿐인데요.

전체 LLM 구조도를 살펴보면 이게 이해가 좀더 쉬운데요. LLM을 만들기 위해서 앞뒤 단에 여러 프로그램을 붙여야 하구요. 

그리고 한빛의 자료도 LLM을 이해하는데 많은 도움이 됩니다.

https://www.hanbit.co.kr/channel/view.html?cmscode=CMS5257791337

 

기초부터 LLM까지의 여정 - 이미지로 보는 언어 AI의 역사

[인공 지능]은 지능적인 기계, 특히 지능적인 컴퓨터 프로그램을 만드는 과학과 공학입니다. 인공 지능 분야는 컴퓨터를 활용해 인간 지능이 어떻게 작동하는지 이해하려고 연구합니다. 하지만

www.hanbit.co.kr

 

개인적으로는 속의 내용물은 다 외국산 오픈소스를 사용하고 포장지만 한국에서 만들면 이게 한국산 AI라고 말해도 되는 것인지 참 의문이긴 합니다. 논란이된 비전 인코더가 어떤 역활을 하는지 알아보겠습니다.

비전 인코더

먼저 인코더라는 개념을 알아야 하는데요. 

인코더는 나무위키에 따르면 부호화(符號化) 또는 인코딩(encoding)은 컴퓨터를 이용해 영상 · 이미지 · 소리 데이터를 생성할 때 데이터의 양을 줄이기 위해 데이터를 코드화하고 압축하는 것을 말합니다.

AI에서는 동일하게 전기신호가 아니라 사람이 입력한 값을 컴퓨터가 이해할 수 있게 변경하는 프로세스라고 생각하시면 되는데요.

이 중 비전 인코더라함은 말 그대로 비전(그림, 동영상)을 변환해 주는 것이라고 합니다.

네이버의 설명과 달리 인코더는 LLM이 외부입력을 컴퓨터로 입력하는 과정이기 때문에 인코더는 생각보다 중요합니다.

컴퓨터의 프로세스를 말할 때 GIGO를 말하는데요. 인코더로 LLM에 어떻게 넣어주느냐에 따라서 전체적인 LLM 품질이 결정된다고 할수도 있습니다. 이 경우 어떤 인코더를 썼느냐는 성능의 큰 영향을 끼치게 되는데요. 이를 중국산을 그대로 썼다는 것은 논란이 될 수 있다고 생각합니다.

더 문제는 정부가 자유로운 개발 환경 조성 및 공정성 등을 이유로 평가 기준 전체를 공개할 수는 없겠지만 적어도 ‘금지사항’에 해당하는 독파모 최소조건도 알려주지 않았다는 점도 문제입니다.

정부도 국내 기술로 A부터 Z까지 LLM을 만들수 없다는 것을 알고 있습니다. 이는 반도체도 동일합니다. 삼성전자와 LG 등이 메모리는 잘 만드나 핵심적인 CPU와 같은 칩셋의 설계도는 해외에서 만들고 있습니다.

삼성은 그저 파운드리로 그 설계도에 따라서 만들기만 하는 것이죠. 이는 우리가 건축을 설계한 건축가가 이 건물을 만들었다고 하지 가서 일용직 노동자로 일하는 사람이 이 건축물을 만들었다고 말하지는 않는 것과 같습니다.

현재 LLM도 마찬가지입니다. 국내에서는 비메모리처럼 AI에서도 AI 전체적인 아키텍처를 개발할 역량이 안됩니다. 그래서 단순하게 공사장에서 일용직 노동자와 같은 것처럼 기존에 미국이나 중국에서 개발한 부품들을 단순히 조립하는 형태인데요. 

이 조립을 얼마나 티 안나게(?) 했냐를 비교하는 형국입니다. 처음에 소버린 AI를 한다고 했을때도, 우리는 원천기술이 하나도 없는데 어떻게 할 수 있지라는 생각을 정말 많이 했는데요. 결국 공개되어 있는 오픈소스를 사용할 수 밖에 없고 그러다 보니 어디까지 사용하는게 허용되는지 이런 부분에 대한 논의가 없다보니 이번 사태가 발생하는 것인데요.

기초과학에 투자가 없는 상황에서 참 안타까운 일입니다.  AI시대에서도 반도체 시대처럼 기초 과학에 투자하지 않는다면 국내에서는 칩셋 제조와 같은 핵심적인 일은 할 수 없고 단순히 조립하는 파운드리 사업만 하게 됩니다.

그리고 그 파운드리는 중국이 쉽게 따라잡을 수 있겠죠. 배터리 산업처럼 거기다가 러닝커브도 크지 않다면 중국에게 따라 잡히는 건 시간 문제입니다.

AI도 소버린 AI보다는 기초 과학에 투자해서 진정한 의미의 독자 모델을 구축하는게 아니라면 크게 효과성이 있을지 의문입니다. 

우리가 에펠탑을 보면서 건축가인 귀스타브 에펠을 생각하지 에펠탑의 철근을 나른 이름 모를 노동자 1명을 생각하진 않기 때문입니다. 그리고 그 이름 모를 노동자 1명은 언제나 쉽게 대체될 수 있습니다.

그래도 긍정적인 측면은 한국 사람들의 AI 활용 능력은 뛰어나다는 점입니다. Claude가 공개한 자료를 보면 한국은 Claude를 정말 많이 사용한다고 합니다.

이제 정말 기초 과학에 투자해서 더 늦기 전에 해외와의 기술격차를 줄여나가야 할 때가 아닌가 싶습니다. 그리고 그 때 진정한 의미의 국가대표 AI를 뽑아야 하지 않을까요?

728x90

해당 블로그에서 발행되는 콘텐츠 중 일부 글에는 제휴 및 홍보 관련 링크가 포함될 수 있으며, 파트너스 활동의 일환으로 일정액의 수수료를 받을 수 있습니다.