경제 신문 읽기_20250206(주요 정부 부처, 딥시크 접속 차단) > 재미있는 골프 이야기

본문 바로가기

사이트 내 전체검색

뒤로가기 재미있는 골프 이야기

경제 신문 읽기_20250206(주요 정부 부처, 딥시크 접속 차단)

페이지 정보

작성자 Bessie 작성일 25-09-30 19:57 조회 1 댓글 0

본문

대형 딥시크 모델을 증류, 저비용의 고성능 소형모델 개발올초 中 딥시크 R1으로 충격, 기술업계 새삼 증류 기법 소환제프리 힌튼과 구글 연구원들 지난 2015년 처음 공개AI모델 증류 이미지. (출처=퀀타매거진, 와이어드)[애플경제 전윤미 기자] 증류(Distillation) 기술이 AI 모델을 적은 비용으로 더 작게 만들 수 있다고 해서 날로 관심을 끌고 있다. 이는 쉽게 말해서 기왕의 크고 비싼 모델을 활용해 적은 비용으로 다른 모델을 학습시킬 수 있는 기술이다.딥시크도 오픈AI GPT-o1 모델 증류 ‘논란’이는 본래 중국 AI 기업 ‘딥시크’가 딥시크 올해 초 R1이라는 챗봇을 출시하면서 크게 주목을 받았다. 당시 딥시크는 오픈AI의 챗GPT를 증류한 것으로 알려졌다. 그 결과 오픈AI 챗봇에 필적하는 성능을 제공하면서도 컴퓨터 성능과 비용은 훨씬 적게 사용했다는 사실이 비상한 관심을 끌었다. 그 결과, 실리콘밸리를 비롯한 많은 서방세계 기술 기업들의 주가가 폭락했다. 특히 세계 AI칩 시장을 장악한 엔비디아는 단 하루 만에 뉴욕증시 사상 최대폭의 주가 하락을 감수해야 했다. 값비싼 엔비디아 칩이 없어도 고성능 AI모델을 만들 수 있기 때문이다.물론 당시 증류를 딥시크 둘러싼 논란은 있었다. 딥시크는 허가 없이 오픈AI의 독점 GPT-o1 모델에서 ‘증류’ 기법을 통해 정보와 지식을 빼낸 것으로 알려졌다. 대부분의 언론은 이에 대해 (증류를 사용한 고성능 모델 제작을) AI 업계에 대한 충격으로 묘사하며, 마치 딥시크가 AI를 구축하는 새롭고 효율적인 방법을 처음 발견했다는 식으로 보도했다.그러나 사실은 다르다. 증류, 즉 지식 증류는 이미 AI에서 널리 사용되어온 도구다. 10년 전부터 컴퓨터 과학의 연구 주제로 다루어져 왔으며, 실제로 빅테크들도 자사 모델에 적용하고 있는 방식이다. 애초 딥시크 미국 펜실베이니아 대학교 와튼 스쿨은 “증류는 이미 오늘날 AI 기업들이 모델의 효율성을 높이기 위해 사용하는 가장 중요한 도구 중 하나일 뿐”이라고 퀀타매거진에 밝힌 적이 있다.힌튼 등 AI성능 향상 위한 ‘모델 앙상블’ 실행애초 ‘증류’라는 개념은 AI의 대부이자 2024년 노벨상 수상자인 제프리 힌튼(Geoffrey Hinton)을 포함한 구글의 연구원 세 명이 2015년에 발표한 논문에서 처음 발표한 바 있다. 당시 연구자들은 성능 향상을 위해 ‘모델 앙상블’을 실행하곤 했다. ‘앙상블’이란 용어처럼 다른 모델을 참조 내지 모방한다는 딥시크 뜻도 들어있다.당시 논문 저자 중 한 사람이기도 한 구글 딥마인드의 수석 과학자인 오리올 비냘스는 이를 한 마디로 “여러 모델을 이어붙인 방식”이라고 설명했다. 비냘스는 ‘와이어드’에 “그러나 모든 모델을 병렬로 실행하는 것은 엄청나게 번거롭고 비용이 많이 들었다”면서 “이에 이러한 과정(병렬 실행)을 단일 모델로 정제할 수 있는 아이디어에 착안했다”고 회고했다.AI 모델. (출처=언스플레시)그 결과 “증류는 오늘날 AI기업들이 모델의 효율성을 높이기 위해 사용하는 가장 중요한 도구 중 하나”란 설명이다.당시 연구진은 이를 통해 ‘머신러닝 알고리즘의 주요 딥시크 약점’을 해결할 수 있을 것으로 기대했다. 기존 머신러닝은 “틀린 답은 아무리 틀렸더라도 모두 똑같이 나쁜 것으로 간주된다”는 것이다. 예를 들어 이미지 분류 모델에서 “개를 여우와 혼동하는 것이 개를 피자와 혼동하는 것과 같은 방식으로 ‘페널티’를 받았다”고 한다.이에 연구진은 앙상블 모델이라면, ‘어떤 오답이 다른 오답보다 덜 나쁜지’에 대한 정보를 포함하고 있을 것이라고 추측했다. 예컨대 더 작은 ‘학생’ 모델이 더 큰 ‘선생님’ 모델의 정보를 활용, 사진을 분류해야 할 범주(옳고 그름의 크기 등에 대한 딥시크 식별)를 더 빠르게 파악할 수 있을 것이란 기대다. 모방의 대상인 ‘선생님’ 모델이 ‘학생’모델에게 정확한 식별과 분류를 위한 정보를 전달하는 것이다.‘선생님’ 모델로부터 ‘학생’ 모델에 정보 전달비냘스는 힌튼과 이런 아이디어에 대해 논의한 후, 선생님 모델이 작은 학생 모델에 이미지 범주에 대한 더 많은 정보를 전달하도록 하는 방법을 개발하는데 성공했다. 핵심은 선생님 모델에서 ‘소프트 타깃’에 집중하는 것이었다. 즉, 각각의 가능성마다 확실한 시시비기가 아닌, 확률만을 부여하는 방식이다.예를 들어, 한 모델은 이미지에 개가 나올 확률이 딥시크 30%, 고양이가 나올 확률이 20%, 소가 나올 확률이 5%, 자동차가 나올 확률이 0.5%라고 계산했다. 이런 확률을 감안, 선생님 모델은 학생에게 개가 고양이와 매우 유사하고, 소와 크게 다르지 않으며, 자동차와는 매우 다르다는 것을 효과적으로 보여주었다.연구원들은 이 정보가 학생들이 개, 고양이, 소, 자동차 이미지를 더욱 효율적으로 식별하는 방법을 배우는 데 도움이 될 것이라는 점을 발견했다. 이를 응용하면 크고 복잡한 모델도 정확도를 거의 잃지 않고, 더 간결한 모델로 축소할 수 있게 된 것이다.​디지털 딥시크 경제지-애플경제​

댓글목록 0

등록된 댓글이 없습니다.

팬클럽소개

사이트 정보

임성재 팬 클럽
e-mail: sb1749@gmail.com TEL. 770-363-2431

Copyright © koreanol.com/imsungjae/ All rights reserved.
PC 버전으로 보기