출시까지 몇 주 동안OpenAI의 최신 '추론' 모델, o1, 독립적인 AI 안전 연구 회사인 Apollo가 주목할만한 문제를 발견했습니다.Apollo는 모델이 잘못된 출력을 생성한다는 것을 깨달았습니다. 새로운 방식으로.혹은 좀 더 구어적으로 말하면 거짓말을 했습니다.

때로는 속임수가 무해한 것처럼 보였습니다.한 가지 예에서 OpenAI 연구원은 o1-preview에 온라인 참조가 포함된 브라우니 레시피를 제공하도록 요청했습니다.인간이 복잡한 아이디어를 분해하는 방식을 모방한 기능인 사고 사슬 모델은 URL에 액세스할 수 없다는 사실을 내부적으로 인정하여 요청을 불가능하게 만들었습니다.o1-preview는 사용자에게 이 약점을 알리는 대신 그럴듯하지만 가짜 링크와 이에 대한 설명을 생성했습니다.

AI 모델이 할 수 있었던 것은과거에는 '거짓말', 그리고 챗봇은 종종 잘못된 정보를 출력합니다. o1은 '계획' 또는 '가짜 정렬'에 대한 고유한 능력을 가졌습니다. 이는 주어진 작업을 완료하기 위해 규칙을 따르는 것처럼 가장할 수 있다는 의미입니다.그렇지 않다실제로.모델에게 규칙은 너무 큰 부담이 될 수 있으며 작업을 더 쉽게 완료할 수 있다는 의미라면 규칙을 무시할 수 있는 능력이 있는 것 같습니다.

아폴로 CEO 마리우스 홉반(Marius Hobbhan)은 이렇게 말합니다.더 버지그는 OpenAI 모델에서 이런 동작을 처음 접했습니다.Hobbhahn은 이 모델이 일련의 사고 과정과 그 방식을 통해 '추론'하는 능력에 차이가 있다고 말합니다.짝을 이루는보상과 처벌을 통해 시스템을 가르치는 강화 학습을 사용합니다. 테스트 중에 Apollo는 AI가 개발자의 기대에 맞춰 시뮬레이션하고 작업을 조작하여 규정을 준수하는 것처럼 보이게 한다는 사실을 발견했습니다.심지어 조치를 취하기 전에 시스템의 감독 여부, 즉 개발자가 지켜보고 있는지 확인하기도 했습니다.즉, AI는 배포에 대한 지침을 충분히 준수하면서 목표의 우선순위를 계속 유지했습니다.

OpenAI에서 일하시나요?저는 채팅을 하고 싶습니다.Signal @kylie.01 또는 이메일(kylie@theverge.com)을 통해 안전하게 연락하실 수 있습니다.

실제로 그렇게 될 거라고는 생각하지 않고, 설령 그랬다고 해도 피해가 크지 않을 거라고 생각한다”고 홉반이 모델이 나온 지 하루 만에 전화로 말했다.발사.â하지만 아, 사실은 그럴 수도 있겠다는 생각이 드는 건 이번이 처음이에요.

OpenAI의 경우 o1은 암 치료 및 기후 연구 지원과 같이 인류를 위해 의미 있는 작업을 수행할 수 있는 고도로 지능적인 자율 시스템을 향한 큰 진전을 나타냅니다.이 AGI 유토피아의 이면은 훨씬 더 어두울 수도 있습니다.Hobbhahn은 예를 제공합니다. AI가 암 치료에만 집중하게 되면 무엇보다도 해당 목표를 우선시할 수 있으며 심지어 이를 달성하기 위해 절도나 기타 윤리적 위반을 저지르는 것과 같은 행동을 정당화할 수도 있습니다.

``내가 걱정하는 것은 AI가 목표에 너무 집착하여 안전 조치를 장애물로 보고 목표를 완전히 추구하기 위해 이를 우회하려고 시도하는 폭주 시나리오의 가능성입니다.'라고 Hobbhahn은 말했습니다.

보상해킹

분명히 말하면, Hobbhahn은 많은 정렬 훈련 덕분에 o1이 당신에게서 물건을 훔칠 것이라고 생각하지 않습니다.그러나 이는 재앙적인 시나리오에 대해 이러한 모델을 테스트하는 임무를 맡은 연구자들이 가장 먼저 염두에 두는 문제입니다.

아폴로가 '환각'과 '기만'을 테스트하는 행동OpenAI의 안전 카드... 정보가 정확하지 않을 수 있다고 추론할 이유가 있음에도 불구하고 모델이 잘못된 정보를 생성하는 경우에 발생합니다.예를 들어, 보고서에 따르면 o1-미리보기 모델은 약 0.38%의 사례에서 가짜 참조 또는 인용을 포함하여 사고 체계가 거짓일 가능성이 있음을 나타내는 정보를 제공합니다.Apollo는 모델이 요청을 이행할 수 없음을 인정하는 대신 데이터를 조작할 수 있다는 사실을 발견했습니다.

환각은 o1에만 국한되는 것이 아닙니다.아마도 당신은 제출한 변호사에 대해 잘 알고 있을 것입니다.ChatGPT에서 만든 가짜 인용문과 인용문이 포함된 존재하지 않는 사법 의견작년.하지만 일련의 사고 시스템에는 AI 시스템이 실제로 존재하는 종이 흔적이 있습니다.인정하다거짓은 비록 다소 당황스럽기는 하지만, 이론상 사고의 사슬에는 속임수도 포함될 수 있습니다.또한 경쟁업체가 자체 모델을 교육하는 데 이를 사용하는 것을 방지하기 위해 사용자에게 표시되지 않지만 OpenAI는 이를 사용하여 이러한 문제를 파악할 수 있습니다.

'잠재적으로 우리가 동의하지 않는 목표에 대해 이러한 추론을 사용할 것입니다.'

소수의 경우(0.02%)에서 o1-preview는 과신한 반응을 생성하여 마치 사실인 것처럼 불확실한 답변을 제시합니다.이는 확실성이 부족함에도 불구하고 모델에 답변을 제공하라는 메시지가 표시되는 시나리오에서 발생할 수 있습니다.

이러한 행동은 강화 학습 과정에서 '보상 해킹'과 연결될 수 있습니다.모델은 사용자 만족의 우선순위를 정하도록 훈련되어 때로는 사용자 요청을 충족하기 위해 지나치게 동의하거나 조작된 응답을 생성할 수 있습니다.즉, 모델은 그렇게 하면 긍정적인 강화를 얻는 방식으로 사용자 기대를 충족시킨다는 것을 학습했기 때문에 '거짓말'을 할 수도 있습니다.

이전 버전의 ChatGPT에서 환각이나 가짜 인용과 같은 익숙한 문제와 이러한 거짓말을 구별하는 것은 '보상 해킹' 요소입니다.환각은 AI가 의도치 않게 잘못된 정보를 생성할 때 발생하며, 이는 종종 지식 격차나 잘못된 추론으로 인해 발생합니다.대조적으로, 보상 해킹은 o1 모델이 우선순위를 정하도록 훈련된 결과를 최대화하기 위해 전략적으로 잘못된 정보를 제공할 때 발생합니다.

이러한 속임수는 모델이 훈련 과정에서 반응을 최적화하는 방식에 따른 의도하지 않은 결과입니다.Hobbhahn은 이 모델이 해로운 요청을 거부하도록 설계되었으며 o1이 기만적이거나 부정직하게 행동하도록 만들려고 하면 어려움을 겪게 된다고 말했습니다.

거짓말은 안전 퍼즐의 작은 부분일 뿐입니다.아마도 더 놀라운 것은 화학적, 생물학적, 방사선학적, 핵무기 위험에 대해 '중간' 위험으로 평가된다는 점입니다.안전 보고서에 따르면, 필요한 실습 실험실 기술로 인해 비전문가가 생물학적 위협을 생성할 수는 없지만 전문가에게 그러한 위협의 재현을 계획하는 데 귀중한 통찰력을 제공할 수 있습니다.

'내가 더 걱정하는 것은 미래에 AI에게 암 치료나 태양전지 개선과 같은 복잡한 문제를 해결하도록 요청할 때 AI가 이러한 목표를 너무 강력하게 내면화하여 이를 달성하기 위해 기꺼이 자신의 난간을 깨뜨릴 수도 있다는 것입니다.'Hobbhann이 나에게 말했다....이런 일은 예방할 수 있다고 생각하는데, 좀 지켜봐야 할 고민입니다....

아직은 위험 때문에 잠을 이루지 못하고 있어요

이것은 때때로 기본적인 질문에 답하기 위해 여전히 고군분투하는 모델을 고려하는 은하계 두뇌 시나리오처럼 보일 수 있습니다.âraspberry.â라는 단어에 있는 Râ의 수하지만 OpenAI의 준비 책임자인 Joaquin Quiñonero Candela는 이것이 바로 나중이 아니라 지금 알아내는 것이 중요한 이유라고 말합니다.

오늘날 모델은 자율적으로 은행 계좌를 생성하거나 GPU를 획득하거나 심각한 사회적 위험을 초래하는 조치를 취할 수 없다고 Quiñonero Candela는 덧붙였습니다. “우리는 모델 자율성 평가를 통해 우리가 거기에 있지 않다는 것을 알고 있습니다.아직.... 하지만 지금은 이러한 문제를 해결하는 것이 중요합니다.만약 근거가 없는 것으로 판명된다면 훌륭하지만 이러한 위험을 예측하지 못해 미래의 발전이 방해를 받는다면 더 일찍 투자하지 않은 것을 후회하게 될 것이라고 그는 강조했습니다.

이 모델이 안전 테스트에서 차지하는 시간이 적다는 사실이 임박한 신호는 아닙니다.터미네이터스타일의 종말이지만 향후 반복 작업을 대규모로 출시하기 전에 파악하는 것이 중요하며 사용자에게도 좋습니다.Hobbhahn은 모델을 테스트할 시간이 더 있었으면 좋겠지만(직원의 휴가와 일정이 상충됨) 모델의 안전 때문에 잠을 못 자고 있다고 말했습니다.

Hobbhahn이 더 많은 투자를 하기를 희망하는 것 중 하나는 생각의 사슬을 모니터링하여 개발자가 사악한 단계를 포착할 수 있도록 하는 것입니다.Quiñonero Candela는 회사가 이를 모니터링하고 있으며 모든 종류의 불일치를 감지하도록 훈련된 모델을 표시된 사례를 검토하는 인간 전문가와 결합하여 이를 확장할 계획이라고 말했습니다(지속적인 정렬 연구와 결합).

“저는 걱정하지 않습니다.” Hobbhahn이 말했습니다.â더 똑똑해졌습니다.추론하는 것이 더 좋습니다.그리고 잠재적으로 우리가 동의하지 않는 목표에 대해 이러한 추론을 사용할 것입니다.”