뉴스 바로가기

기사 상세

IT·과학

“너 이거 몰래 보고 배운거지”...미허가 유료 콘텐츠 학습 논란에 빠진 오픈AI

원호섭 기자
입력 : 
2025-04-02 09:47:14
수정 : 
2025-04-02 09:53:23

뉴스 요약쏙

AI 요약은 OpenAI의 최신 기술을 활용해 핵심 내용을 빠르고 정확하게 제공합니다. 전체 맥락을 이해하려면 기사 본문을 함께 확인하는 것이 좋습니다.

오픈AI의 최신 모델 GPT-4o가 미허가된 오라일리 미디어의 유료 도서 콘텐츠를 학습에 활용했을 가능성이 제기됐다.

연구진은 GPT-4o가 이전 모델인 GPT-3.5 터보에 비해 오라일리 도서의 비공식적인 내용을 더 잘 인식한다고 밝혔으며, 이로 인해 GPT-4o가 해당 자료를 학습했을 가능성이 크다고 분석했다.

오픈AI는 저작권 관련 소송과 비판을 받고 있으며, 일부 콘텐츠 제작자와의 라이선스 계약을 맺는 등의 대응을 하고 있지만 여전히 완벽한 해결책은 마련되지 않은 것으로 평가된다.

언어변경

글자크기 설정

GPT-4o, 이전 모델보다 유료 도서 인식률 높아
저작권 침해 소송 중인 오픈AI에 또 다른 악재
챗GPT로 그린 미허가 유료도서 학습하는 AI 모습
챗GPT로 그린 미허가 유료도서 학습하는 AI 모습

오픈AI가 미허가된 유료 도서 콘텐츠를 인공지능 학습에 활용했다는 주장이 제기됐다.

1일 테크크런치에 따르면 미디어 경영자 팀 오라일리와 경제학자 일란 스트라우스가 공동 설립한 비영리 단체 ‘AI 디스클로저 프로젝트는 최근 보고서를 통해, 오픈AI의 최신 모델 GPT-4o가 오라일리 미디어의 유료 도서 콘텐츠를 사전 학습한 정황이 있다고 밝혔다.

보고서에 따르면 연구진은 GPT-4o를 포함한 여러 오픈AI 모델에 대해 총 34권의 오라일리 미디어 출판 도서에서 발췌한 1만 3962개의 문단을 활용해 실험을 진행했다.

이들이 사용한 분석 기법은 2024년 처음 학계에 소개된 ‘DE-COP(저작권 콘텐츠 감지 기법)’으로, 특정 모델이 인간 저자의 원문과 AI가 생성한 유사 문장을 얼마나 잘 구별하는지를 통해 학습 데이터를 추정하는 방식이다.

그 결과, GPT-4o는 오픈AI의 이전 모델인 GPT-3.5 터보에 비해 비공개 오라일리 도서 콘텐츠를 훨씬 더 잘 ‘인식’하는 것으로 나타났다. 연구진은 GPT-4o가 훈련 과정에서 이러한 도서를 학습했을 가능성이 크다고 분석했다.

팀 오라일리는 “GPT-4o는 오픈AI의 이전 모델과 비교해 유료 콘텐츠에 대한 인식력이 두드러진다”라며 “이는 모델이 해당 자료를 학습했음을 시사한다”고 지적했다. 그는 또한 본인이 CEO로 있는 오라일리 미디어는 오픈AI와 어떤 라이선스 계약도 맺은 바 없다고 강조했다.

보고서는 다만, GPT-4o가 해당 도서를 학습했음을 완전히 단정 지을 수는 없다고 선을 그었다. 예컨대, 이용자가 유료 콘텐츠를 복사해 챗GPT에 입력했을 가능성 등 다른 요인들도 존재할 수 있다는 설명이다. 이번 연구는 오픈AI의 최신 모델인 GPT-4.5 및 ‘추론형(reasoning)’ 모델인 o3-mini, o1 등은 포함하지 않았기 때문에, 해당 모델들도 같은 데이터를 학습했는지는 확인되지 않았다.

오픈AI는 이미 여러 건의 저작권 관련 소송에 휘말려 있으며, 학습 데이터로 저작권 보호 자료를 활용하는 방식에 대한 비판이 꾸준히 제기돼 왔다. 이에 따라 오픈AI는 일부 콘텐츠 제작자와 뉴스 미디어와의 유료 라이선스 계약을 체결하고, 자사 모델 학습에서 제외를 요청할 수 있는 ‘옵트아웃’ 절차도 마련했지만, 이는 아직 완벽한 시스템은 아닌 것으로 평가된다. 테크크런치는 오픈AI가 이번 보고서와 관련한 언론의 질의에 답변하지 않았다고 밝혔다.

오픈AI, 미허가 유료 도서로 AI 학습 의혹
오픈AI, 미허가 유료 도서로 AI 학습 의혹

이 기사가 마음에 들었다면, 좋아요를 눌러주세요.