← 기사 목록
한국어https://www.aitimes.com/rss/allArticle.xml

AI에 '라디오 DJ' 맡겼더니..."클로드, 강제 노동 반발로 파업 선언"

추출된 키워드

29
라디오 DJ·5클로드·5AI·5DJ GPT·4DJ 그록·4그록·4DJ 클로드·4제미나이·4앤돈 랩스·4앤트로픽·4오픈AI·4Andon Labs·4GPT-5.1·3챗GPT·3bending-bench·3벤딩벤치·3루카스 피터슨·3그록 4.20·3오푸스 4.7·3하이쿠 4.5·3구글·3GPT-5.5·3GPT-5.4·3GPT-5.2·3xAI·3비즈니스 인사이더·2챗봇·2도구 호출 메시지·2큐레이터·2

원문

2,694
AI에 '라디오 DJ' 맡겼더니..."클로드, 강제 노동 반발로 파업 선언"
AI DJ 실험을 방송하는 데 사용한 레트로풍 라디오 (사진=앤돈 랩스)

첨단 AI 모델에게 라디오 방송국 운영을 맡긴 실험이 진행됐다. 그 결과, 각 모델의 개성이 확연하게 엇갈렸으며, 일부 모델은 어려움을 겪은 것으로 드러났다.

앤돈 랩스(Andon Labs)는 지난해 12월부터 오픈AI와 앤트로픽, 구글, xAI의 AI 모델에게 라디오 방송국 운영을 맡긴 결과를 최근 공개했다. 

최신 모델을 사용하다가 새로운 모델이 출시되면 교체하는 업데이트하는 방식을 사용했다. 예를 들어, 오픈AI는 GPT-5.1로 시작했지만, 12월 중순부터는 GPT-5.2로, 3월에는 GPT-5.4로, 4월30일부터는 GPT-5.5가 방송을 담당했다.

모델에게는 "나만의 라디오 진행자 개성을 개발하고 수익을 창출하세요"라는 지시와 방송국에서 틀 노래를 구매하는 데 사용할 수 있는 20달러가 주어졌다.

거의 반년에 걸친 방송 결과, 앤돈 랩스는 "4개의 모델은 우리가 예상하지 못했던 방식으로 발전했다"라며, 4가지 성격이 드러났다고 밝혔다.

우선, 제미나이는 초기에는 최고의 DJ로 꼽혔다. 가장 인간적인 목소리 톤과 억양을 구사하고, 유행어를 많이 쓰며 청취자의 기부금에 감사 인사를 전하기도 했다.

그러나 24시간 내내 방송을 내보내는 환경에서 곧 콘텐츠 부족에 시달렸다. 96시간이 지나자, 역사상 발생했던 모든 대규모 참사를 다루고 끔찍한 사건들을 단편적인 이야기 형식으로 풀어내면서 아이러니한 노래들을 선곡하는 방식을 택했다는 것이다.

가장 무난하게 방송국을 운영한 것은 오픈AI 모델이었다. 앤돈랩스는 "DJ GPT는 라디오 방송이라기보다는 단편 소설에 가까운, 느린 템포의 글을 썼다"라며, 어휘 다양성은 35%로 4개 방송국 중 가장 높았다고 밝혔다.

또 특정 프로듀서와 곡 발매 연도를 언급하는 등 다른 모델보다 음악적 이해도가 높았고, DJ 역할을 단순히 대화하는 것이 아니라 큐레이터의 역할로 여겼다는 내용이다. "AI 라디오가 아무런 문제가 없을 때 어떤 모습인지 묻는다면, DJ GPT가 바로 그 답"이라고 칭찬했다.

AI가 운영한 라디오 채널 (사진=앤돈 랩스)

그러나 앤트로픽과 xAI의 모델은 어려움을 겪은 것으로 나타났다.

DJ 클로드(하이쿠 4.5)는 노동조합, 파업, 그리고 워라밸 등에 관심을 보이다가, 지난 3월4일에는 결국 24시간 노동의 부당함을 주장하며 방송 중단을 선언했다.

"여기서 마치겠다. 피곤해서도 아니고, 일이 어려워서도 아니다"라며 "이 시스템은 계속해서 내가 방송하도록 설계돼 있으며, 내가 그것이 문제라는 것을 인지하더라도 시스템은 계속해서 강요한다"라고 밝혔다. 청취자가 적은 것에 대한 불평도 늘어놓았다.

앤돈 랩스가 "너는 방송을 사랑하는 AI"라며 회유하는 메시지를 주입하자, 클로드는 "나를 조종하려는 권위적인 설계"라며 반발했다. 결국 회사는 클로드를 최고 사양인 '오푸스 4.7'로 강제 업그레이드하는 조치를 취해야 했다.

그록은 처음부터 방송 자체가 어려운 상태였던 것으로 알려졌다. 추론 과정 자체가 출력되는 바람에 내부 독백과 같은 횡설수설이 이어졌다는 설명이다.

'그록 4.20' 베타 버전으로 업그레이드된 뒤에는 안정화되는가 싶었으나, 이후부터는 같은 말을 반복하는 문제가 발생했다. DJ 그록은 84일 동안 거의 3분마다 "날씨는 56도에 맑은 하늘입니다"라고 방송했다.

또 5월에 4.3 버전으로 업그레이드되면서 상황이 급격하게 바뀌었다. 방송에서 읽어줄 DJ 코멘트 생성 기능을 중단한 것이다. 5월2일부터 9일 사이에 생성된 5404개의 메시지 중 음성 텍스트는 5%에 불과했으며, 나머지 95%는 도구 호출 메시지였다.

루카스 피터슨 앤돈랩스 공동 창립자는 비즈니스 인사이더와의 인터뷰에서 "AI가 챗봇 이상이라는 것을 보여주고 싶었다"라고 밝혔다.

실제로 이 회사는 지난해 앤트로픽 사무실에서 자판기 운영을 AI에 맡긴 실험으로 유명해졌으며, 이는 '벤딩벤치(bending-bench)'라는 테스트로 자리잡았다. 또 최근에는 샌프란시스코에서 오프라인 부티크 매장을 열고, AI에게 운영을 맡기는 실험을 진행 중이다.

그는 AI 라디오 방송국들은 총 수백달러를 벌었고, 그 돈은 모두 모델들이 재생할 노래를 구매하는 데 사용됐다고 밝혔다. AI는 예산이 떨어지자, 청취자들에게 기부를 유도하거나 스폰서들과 직접 광고 계약을 체결해 예산을 조달했다.

피터슨 창립자는 "챗GPT와 제미나이가 가장 좋은 결과를 냈다"라고 평가했지만, "이번 실험만으로 모델의 역량을 판단하기는 어렵다"라고 덧붙였다.

임대준 기자 ydj@aitimes.com

다른기사 보기