![]() |
| 지난달 30일 서울 강남구 코엑스에서 열린 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 참석자들이 업스테이지 부스를 둘러보고 있다. /사진:연합 |
[대한경제=심화영 기자] 독자 인공지능(AI) 파운데이션 모델 개발을 추진 중인 정예팀 가운데 하나인 업스테이지가 중국 AI 모델 도용 논란에 휩싸이며 연초부터 업계의 이목이 집중됐다. 의혹은 기술 분석 보고서 형태로 제기됐고, 업스테이지는 이례적으로 학습 기록과 중간 결과물을 공개하는 ‘정면 돌파’를 택했다. 핵심 쟁점은 “이 모델은 정말 처음부터 만들어졌는가”였다.
논란의 발단은 고석현 고석현 사이오닉AI 대표가 지난 1일 SNS에 올린 게시글이었다. 그는 업스테이지의 오픈소스 모델 ‘솔라 오픈(SOLAR Open)’이 중국 지푸AI의 ‘GLM-4.5-에어’에서 파생됐을 가능성이 크다고 주장했다. 두 모델의 가중치 구조와 일부 레이어에서 “결정적인 유사성”이 발견됐다는 것이다. 특히 토큰 임베딩 분포가 거의 동일하다는 점을 들어, 단순 참고 수준을 넘어 학습 코드 자체를 상당 부분 차용했을 수 있다는 의혹을 제기했다.
문제 제기는 ‘국민 세금이 투입된 국가 프로젝트’라는 점과 맞물리며 빠르게 확산됐다. 만약 중국 모델을 가져와 미세조정(fine-tuning)한 결과물이라면, 기술 주권 논란으로까지 번질 수 있는 사안이었다.
업스테이지는 즉각 반박에 나섰다. 김성훈 대표는 “솔라 오픈은 특정 모델을 복사하거나 개량한 결과물이 아니라, 프롬 스크래치(from scratch) 방식으로 학습된 독자 모델”이라고 선을 그었다. 그리고 2일 오후, 의혹의 핵심을 직접 해명하겠다며 공개 검증회를 열었다.
이날 김 대표가 내놓은 카드는 AI 개발의 ‘블랙박스’로 불리는 학습 기록이었다. 그는 모델 학습 과정 전반이 기록된 Weights & Biases(WandB) 로그와 중간 체크포인트를 전격 공개했다. 사후 조작이 사실상 불가능한 데이터다.
검증의 핵심은 로스(Loss) 곡선이었다. 공개된 그래프에서 솔라 오픈은 학습 초기 매우 높은 오차율에서 출발해 점진적으로 안정화되는 전형적인 우하향 곡선을 보였다. 김 대표는 “이미 학습된 모델을 가져다 쓴 경우라면 처음부터 로스가 낮게 형성돼야 한다”며 “이 곡선은 아무것도 모르는 상태에서 출발한 프롬 스크래치 학습의 전형적인 형태”라고 설명했다. 성능 지표인 MMLU 역시 낮은 수치에서 시작해 학습이 진행될수록 상승했다.
고 대표가 제기한 ‘레이어놈(LayerNorm) 유사성’ 주장에 대해서도 반박이 이어졌다. 김 대표는 “솔라, GLM, 파이(Pi) 등 여러 모델 간 유사도를 비교해 보면 높은 값이 나오는 사례는 많다”며 “제시된 특정 지표만으로 도용을 단정할 수 없다”고 지적했다. 또 “글로벌 LLM 생태계와의 호환성을 고려하면 모델 구조와 인퍼런스 코드가 일정 부분 유사해지는 것은 불가피하다”고 설명했다. 실제로 솔라 오픈에는 GLM과 달리 덴스(dense) 레이어가 없다는 점도 구조적 차이로 제시했다.
업계의 평가는 비교적 차분하다. 공개된 학습 곡선과 기록을 놓고 볼 때, 가중치(Brain)를 그대로 베꼈다는 핵심 의혹은 상당 부분 해소됐다는 시각이 우세하다. 데이터는 거짓말을 하지 않는다는 이유에서다. 특히 프롬 스크래치 여부를 가르는 결정적 증거를 공개 검증 형식으로 제시했다는 점은 기술 기업으로서 이례적이라는 평가도 나온다.
다만 논란이 완전히 끝났다고 보기는 어렵다. 개발 편의성과 생태계 호환성을 이유로 중국 모델의 소스 코드 구조나 관행을 참고했다면, 그 범위와 라이선스 해석을 보다 명확히 설명했어야 했다는 지적은 남는다. 일각에선 “법적 문제와 별개로, 국가 프로젝트 참여 기업으로서 투명성 기준은 더 높아야 한다”는 목소리도 나온다.
이번 논란은 단순히 한 기업의 도덕성 문제를 넘어, ‘프롬 스크래치란 무엇인가’, ‘오픈소스와 표절의 경계는 어디인가’라는 질문을 업계 전반에 던졌다.
심화영 기자 dorothy@
〈ⓒ 대한경제신문(www.dnews.co.kr), 무단전재 및 수집, 재배포금지〉










