디자인몽
무료 정보 및 자료 총집합, FREE114.NET

FREE114

login

딥시크는 오픈AI 모방모델…방지책 나올 것

본문

백악관 AI 차르, “딥시크는 오픈AI 모방모델

…방지책 나올 것”–디스틸레이션 기법 논란


[블록미디어 이정화 기자] 트럼프 대통령의 인공지능(AI) 및 블록체인 정책자문관(차르) 데이비드 삭스가 “딥시크는 오픈AI의 모방(copycat 카피캣) 모델”이라고 말했다.

삭스는 “딥시크가 AI 훈련에 사용되는 디스틸레이션(distillation) 기법을 활용해 오픈AI 모델에서 지식을 추출했다”고 주장했다.

28일(현지 시간) 삭스는 폭스 뉴스와 인터뷰에서 이같이 말했다. 삭스는 “딥시크는 기존 AI 모델에 수백만 개의 질문을 던지며 학습하는 디스틸레이션 과정을 통해 오픈AI의 지식을 모방했다”며 “오픈AI 입장에서는 달가운 일이 아닐 것”이라고 말했다.

월스트리트저널은 삭스의 주장에 대해 오픈AI 대변인에게 문의했으나, 즉각적인 언급을 회피했다고 보도했다. 딥시크 또한 이메일 문의에 응답하지 않았다.

디스틸레이션 기법의 성공, 실리콘밸리에 긴장감 조성

디스틸레이션은 기존 AI 모델에서 정보를 학습하는 오래된 기술 중 하나다. 삭스의 주장에 따르면 딥시크는 이를 극대화하여 오픈AI와 구글의 모델과 비슷한 성능을 저비용으로 구현한 것으로 보인다.

이 같은 성공은 실리콘밸리 전반에 큰 우려를 불러일으키고 있다. 기존 AI 선두 기업들이 수천억 원을 투자해 개발한 첨단 기술이 경쟁사에 의해 손쉽게 모방될 가능성이 높아졌기 때문이다.

삭스는 “미국 AI 기업들이 디스틸레이션 기법으로부터 모델을 보호하기 위한 방안을 마련할 것”이라며, “이는 유사 모델의 확산 속도를 늦출 수 있을 것”이라고 전망했다.

디스틸레이션(Distillation)이란 무엇인가?

디스틸레이션(Distillation)은 인공지능(AI) 모델 개발에서 기존의 고성능 모델(주로 “교사 모델”이라고 불림)이 학습한 지식이나 패턴을 더 작은 모델(주로 “학생 모델”이라고 불림)에 전수하거나 압축하여 학습시키는 기법이다. 이 과정은 AI의 성능을 유지하면서도 더 가볍고 효율적인 모델을 만드는 데 주로 사용된다.

디스틸레이션의 작동 원리

1. 교사 모델(Teacher Model)과 학생 모델(Student Model):
– 교사 모델은 크고 복잡한 구조를 가지고 있으며, 사전에 대규모 데이터셋으로 학습한 고성능 AI 모델이다.
– 학생 모델은 교사 모델보다 훨씬 작은 크기로 설계되며, 디스틸레이션 과정을 통해 교사 모델의 지식을 학습한다.

2. 질의-응답 방식:
– 디스틸레이션 과정에서는 학생 모델이 교사 모델에 수백만에서 수천만 개의 질문을 던지고, 교사 모델의 응답을 관찰하며 학습한다.
– 이 과정에서 학생 모델은 단순히 데이터를 암기하는 것이 아니라, 교사 모델의 추론 방식이나 사고 과정을 모방한다.

3. 학습 데이터 활용:
– 교사 모델은 학습 데이터에 대한 예측 결과(확률 분포 형태로 출력)를 학생 모델에게 전달한다.
– 학생 모델은 이러한 예측 결과를 학습하며, 교사 모델과 유사한 성능을 목표로 한다.

4. 출력 정보의 압축:
– 디스틸레이션은 교사 모델의 복잡한 지식을 추출하고 단순화하여 학생 모델이 이를 효율적으로 이해하고 적용할 수 있도록 한다.

디스틸레이션의 장점

1. 경량화된 모델 생성:
– 디스틸레이션은 기존의 크고 복잡한 모델에 비해 훨씬 더 가볍고 빠르게 작동하는 모델을 생성할 수 있다. 이는 리소스가 제한된 환경(예: 모바일 기기)에서 유용하다.

2. 비용 절감:
– 고성능 AI 모델을 처음부터 학습시키는 데 드는 높은 비용과 시간을 줄일 수 있다.

3. 효율성 향상:
– 디스틸레이션을 통해 만들어진 모델은 교사 모델과 유사한 성능을 유지하면서도 처리 속도가 훨씬 빠르다.

디스틸레이션의 한계 및 논란

1. 지적 재산권 문제:
– 디스틸레이션은 기존 AI 모델의 지식을 복사하거나 모방하는 데 사용될 수 있어, 원래 모델을 개발한 기업의 지적 재산권 침해 가능성이 있다.

2. 성능의 한계:
– 학생 모델은 교사 모델의 성능을 완전히 복제하지 못할 수 있으며, 특정 상황에서는 성능 저하가 발생할 수 있다.

3. 데이터 의존성:
– 디스틸레이션의 성능은 교사 모델의 품질과 학습 데이터의 양 및 질에 크게 의존한다.

출처: 블록미디어

댓글목록 0

등록된 댓글이 없습니다.

전체 7,127건 4 페이지
게시물 검색
Statistical Chart
  • 오늘 방문자 4,764 명
  • 어제 방문자 6,579 명
  • 최대 방문자 11,118 명
  • 전체 방문자 1,678,722 명