OpenAI의 Strawberry 프로그램은 추론이 가능한 것으로 알려졌습니다.인간을 속일 수도 있다

2024-09-25 23:12:33

ChatGPT를 만든 회사 OpenAI가 Strawberry라는 새로운 인공지능(AI) 시스템을 출시했습니다.ChatGPT와 같은 질문에 대한 빠른 응답을 제공할 뿐만 아니라 생각하거나 "추론"할 수 있도록 설계되었습니다.

abstract strawberry — 신용: Pixabay/CC0 공개 도메인

ChatGPT를 만든 회사 OpenAI가 새로운 인공지능(AI) 시스템인 ChatGPT를 출시했습니다.딸기.ChatGPT와 같은 질문에 대한 빠른 응답을 제공할 뿐만 아니라 생각하거나 "추론"할 수 있도록 설계되었습니다.

이는 몇 가지 주요 우려 사항을 제기합니다.스트로베리가 정말로 어떤 형태로든 추론을 할 수 있다면, 이 AI 시스템이 인간을 속이고 속일 수 있을까요?

OpenAI는 인간을 조작하는 능력을 완화하는 방식으로 AI를 프로그래밍할 수 있습니다.하지만회사 자체 평가"알려진 생물학적 위협을 재현하기 위한 작전 계획", 즉 생물학적 무기에서 전문가를 지원할 수 있는 능력에 대해 이를 "중간 위험"으로 평가합니다.또한 인간이 생각을 바꾸도록 설득하는 능력에 있어서 중간 위험으로 평가되었습니다.

사기꾼이나 해커와 같은 나쁜 의도를 가진 사람들이 그러한 시스템을 어떻게 사용할 수 있는지는 아직 알 수 없습니다.그럼에도 불구하고 OpenAI의 평가에서는 중간 위험 시스템이 더 폭넓은 용도로 출시될 수 있다고 명시하고 있는데, 저는 이 입장이 잘못된 것이라고 생각합니다.

딸기는 하나의 AI가 아니다"모델," 또는 프로그램이지만 여러 가지를 통틀어 o1이라고 합니다. 이러한 모델의도된다복잡한 질문에 답하고 복잡한 수학 문제를 해결하세요.또한 예를 들어 자신만의 웹사이트나 앱을 만드는 데 도움이 되는 컴퓨터 코드를 작성할 수도 있습니다.

명백한 추론 능력은 일반적으로 AI의 먼 목표처럼 보였던 판단과 의사 결정의 전조로 간주되기 때문에 일부 사람들에게는 놀라운 것으로 다가올 수 있습니다.따라서 적어도 표면적으로는 인공지능이 인간과 유사한 지능에 한 단계 더 가까워진 것처럼 보입니다.

사실이 되기에는 상황이 너무 좋아 보일 때 종종 문제가 발생합니다.음, 이 새로운 AI 모델 세트는 목표를 극대화하도록 설계되었습니다.이것이 실제로 무엇을 의미합니까?원하는 목표를 달성하기 위해 AI가 선택한 경로나 전략은항상 공정할 필요는 없다, 또는 인간의 가치와 일치합니다.

진정한 의도

예를 들어, 이론적으로 딸기를 상대로 체스를 두는 경우, 그 추론이 다음을 허용할 수 있습니까?점수 시스템을 해킹하다게임에서 승리하기 위한 최선의 전략을 찾는 것보다?

또한 AI는 자신의 진정한 의도와 능력에 대해 인간에게 거짓말을 할 수도 있는데, 이는 광범위하게 배포될 경우 심각한 안전 문제를 야기할 수 있습니다.예를 들어, AI가 자신이 악성 코드에 감염되었다는 사실을 알고 있다면 다음을 "선택"할 수 있습니까?이 사실을 숨긴다알고 있는 바에 따르면인간 운영자그들이 안다면 전체 시스템을 비활성화할 수도 있습니까?

이는 비윤리적인 AI 행동의 전형적인 예가 될 수 있으며, 원하는 목표를 달성한다면 부정행위나 속이는 것이 허용됩니다.또한 AI가 다음 최선의 조치를 찾는 데 시간을 낭비할 필요가 없기 때문에 더 빠를 것입니다.그러나 그것이 반드시 도덕적으로 옳은 것은 아닐 수도 있습니다.

이는 다소 흥미롭지만 걱정스러운 토론으로 이어집니다.Strawberry는 어떤 수준의 추론을 할 수 있으며 의도하지 않은 결과는 무엇입니까?인간을 속일 수 있는 강력한 AI 시스템은 우리에게 심각한 윤리적, 법적, 재정적 위험을 초래할 수 있습니다.

대량살상무기 설계 등 중대한 상황에서는 이러한 위험이 심각해진다.OpenAI는 과학자들이 개발하는 데 도움이 될 수 있는 잠재력에 대해 자체 Strawberry 모델을 "중간 위험"으로 평가합니다.화학, 생물학, 방사능 및 핵무기.

오픈AI라고: "우리의 평가에 따르면 o1-preview와 o1-mini는 전문가가 알려진 생물학적 위협을 재현하는 운영 계획을 세우는 데 도움이 될 수 있는 것으로 나타났습니다."그러나 전문가들은 이미 이러한 분야에 대해 상당한 전문 지식을 보유하고 있으므로 실제로 위험은 제한적이라고 말합니다."모델을 사용하면 비전문가가 생물학적 위협을 생성할 수 없습니다. 왜냐하면 이러한 위협을 생성하려면 모델이 대체할 수 없는 실습 실험실 기술이 필요하기 때문입니다."

설득력

OpenAI의 Strawberry 평가에서는 인간이 자신의 신념을 바꾸도록 설득할 수 있는 위험성도 조사했습니다.새로운 o1 모델은 ChatGPT보다 더 설득력이 있고 조작성이 더 높은 것으로 나타났습니다.

OpenAI는 또한 AI 시스템의 조작 능력을 줄일 수 있는 완화 시스템을 테스트했습니다.전반적으로 딸기는"설득"에 대한 중간 위험Open AI 테스트에서

Strawberry는 자율 운영 및 사이버 보안 능력 측면에서 위험도가 낮은 것으로 평가되었습니다.

Open AI의 정책에는 "중간 위험" 모델을 폭넓게 사용할 수 있도록 명시되어 있습니다.내 생각에는 이것이 위협을 과소평가한 것 같다.이러한 모델의 배포는 재앙이 될 수 있으며, 특히 악의적인 행위자가 자신의 목적을 위해 기술을 조작하는 경우 더욱 그렇습니다.

이를 위해서는 잘못된 위험 평가 및 AI 오용에 대한 처벌과 같은 AI 규제 및 법적 프레임워크를 통해서만 가능한 강력한 견제와 균형이 필요합니다.

영국 정부는 2023년 AI 백서에서 '안전성, 보안, 견고성'의 필요성을 강조했지만 그것만으로는 충분하지 않습니다.인간의 안전을 우선시하고 Strawberry와 같은 AI 모델에 대한 엄격한 조사 프로토콜을 고안하는 것이 시급합니다.

이 기사는 다음에서 재출판되었습니다.대화크리에이티브 커먼즈 라이센스에 따라.읽기원본 기사.

소환:OpenAI의 Strawberry 프로그램은 추론이 가능한 것으로 알려졌습니다.인간을 속일 수도 있다(2024년 9월 25일)2024년 9월 25일에 확인함https://techxplore.com/news/2024-09-openai-strawberry-capable-humans.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español