AI 챌린지는 인간 수준의 지능을 테스트하기 위한 질문을 찾습니다.

2024-10-08 05:27:44

샌프란시스코의 인공 지능 분야 선두주자 두 명은 대중에게 Google Gemini 및 OpenAI의 o1과 같은 대규모 언어 모델(LLM)의 기능을 테스트할 수 있는 질문을 제시하도록 요청했습니다.LLM이 훈련되는 방대한 양의 데이터 준비를 전문으로 하는 Scale AI는 AI 안전 센터(CAIS)와 협력하여 Humanity's Last Exam이라는 이니셔티브를 시작했습니다.

artificial intelligence — 신용: CC0 공개 도메인

샌프란시스코의 인공지능 분야 선두주자 두 명도전했다대중은 Google Gemini 및 OpenAI의 o1과 같은 대규모 언어 모델(LLM)의 기능을 테스트할 수 있는 질문을 제시합니다.LLM이 훈련되는 방대한 양의 데이터 준비를 전문으로 하는 Scale AI는 AI 안전 센터(CAIS)와 협력하여 Humanity's Last Exam이라는 이니셔티브를 시작했습니다.

테스트를 위해 선택된 상위 50개 질문을 제시한 사람들에게 US$5,000(£3,800)의 상금을 수여하는 Scale과 CAIS는 "전문가 수준 AI 시스템"을 달성하는 데 얼마나 가까운지 테스트하는 것이 목표라고 말합니다.역사상 가장 크고 광범위한 전문가 연합입니다."

왜 이런 일을 하는가?선도적인 LLM은 이미 지능 분야에서 확립된 많은 테스트를 통과하고 있습니다.수학그리고법, 그러나 이것이 얼마나 의미가 있는지 확신하기는 어렵습니다.많은 경우, 그들은 인터넷에 있는 모든 것의 상당 부분을 포함하여 훈련받은 엄청난 양의 데이터로 인해 답변을 미리 학습했을 수 있습니다.

데이터는 이 전체 영역의 기본입니다.그것은 뒤에 있다패러다임 전환기존 컴퓨팅에서 AI까지, 기계에게 무엇을 해야 할지를 "말하는 것"부터 "보여주는 것"까지.이를 위해서는 좋은 교육 데이터 세트가 필요하지만 좋은 테스트도 필요합니다.개발자는 일반적으로 아직 훈련에 사용되지 않은 데이터(전문 용어로 "테스트 데이터세트"라고 함)를 사용하여 이 작업을 수행합니다.

LLM이 아직 변호사 시험과 같은 확립된 시험에 대한 답을 미리 학습할 수 없다면 아마도 곧 그렇게 될 것입니다.AI 분석 사이트획기적인 추정2028년은 AI가 인간이 작성한 모든 것을 효과적으로 읽을 수 있는 시점이 될 것입니다.마찬가지로 중요한 과제는 루비콘을 넘은 후 AI를 계속 평가하는 방법입니다.

물론 인터넷은 매일 수백만 개의 새로운 항목이 추가되면서 항상 확장되고 있습니다.그러면 이러한 문제가 해결될 수 있을까요?

아마도, 그러나 이것은 "모델 붕괴." 미래의 AI 훈련 세트에 재순환되는 AI 생성 자료로 인해 인터넷이 점점 더 넘쳐나면서 AI의 성능이 점점 더 저하될 수 있습니다. 이 문제를 극복하기 위해 많은 개발자는 이미 AI의 인간 상호 작용에서 데이터를 수집하고 있습니다.훈련 및 테스트를 위한 데이터입니다.

일부 전문가들은 AI도 "육체화"되어야 한다고 주장합니다. 즉, 인간처럼 현실 세계를 돌아다니며 자신의 경험을 습득하는 것입니다.Tesla가 자동차로 수년 동안 이 일을 해 왔다는 사실을 깨닫기 전까지는 이것은 터무니없는 것처럼 들릴 수도 있습니다.또 다른 기회는 Meta의 인기 스마트 안경인 Ray-Ban과 같은 인간 웨어러블입니다.여기에는 카메라와 마이크가 장착되어 있으며,사용될 수 있다인간 중심의 방대한 양의 비디오 및 오디오 데이터를 수집합니다.

좁은 테스트

그러나 이러한 제품이 미래에 충분한 교육 데이터를 보장하더라도 지능을 정의하고 측정하는 방법에 대한 수수께끼는 여전히 남아 있습니다.인공일반지능(AGI), 동등하거나 능가하는 AI를 의미인간의 지능.

전통적인 인간 IQ 테스트는 오랫동안 논란을 불러일으켰습니다.다면적인 성격언어부터 수학, 공감, 방향 감각까지 모든 것을 포괄하는 지능입니다.

AI에 사용되는 테스트에도 비슷한 문제가 있습니다.텍스트 요약, 이해, 그리기 등의 작업을 다루는 잘 확립된 테스트가 많이 있습니다.올바른 추론정보로부터 인간의 자세와 몸짓을 인식하고 머신 비전을 인식합니다.

일부 테스트가 중단되고 있습니다.보통 왜냐하면AI는 그 일을 매우 잘 수행하지만 지능에 대한 매우 좁은 척도일 정도로 작업에 특화되어 있습니다.예를 들어 체스를 두는 AI는건어역대 최고 득점자 매그너스 칼슨(Magnus Carlsen)보다 훨씬 앞서 있습니다.엘로등급 시스템.그러나 Stockfish는 언어 이해와 같은 다른 작업을 수행할 수 없습니다.확실히 체스 능력을 더 넓은 지능과 통합하는 것은 잘못된 것입니다.

그러나 이제 AI가 더욱 폭넓은 지능적 행동을 보여주면서, 그 진행 상황을 비교하고 측정하기 위한 새로운 벤치마크를 고안하는 것이 과제입니다.주목할만한 접근 방식 중 하나는 프랑스의 Google 엔지니어 FranÃ§ois Chollet이 제시한 것입니다.그는 주장한다진정한 지능은 새로운, 보이지 않는 상황에 학습을 적응하고 일반화하는 능력에 있습니다.2019년에 그는 추상 규칙을 추론하고 적용하는 AI의 능력을 테스트하기 위해 설계된 간단한 시각적 그리드 형태의 퍼즐 모음인 "추상 및 추론 코퍼스"(ARC)를 고안했습니다.

같지 않은이전 벤치마크각각 포함된 객체에 대한 정보가 포함된 수백만 개의 이미지에 대해 AI를 훈련하여 시각적 객체 인식을 테스트하는 ARC는 사전에 최소한의 예를 제공합니다.AI는 퍼즐 논리를 파악해야 하며 가능한 모든 답을 배울 수는 없습니다.

ARC 테스트를 통해특별히 어렵지는 않아요인간이 문제를 해결하려면 최초로 85%의 점수를 달성한 AI 시스템에 미화 60만 달러의 상금이 수여됩니다.글을 쓰는 시점에서 우리는 그 시점과는 거리가 멀습니다.최근 두 가지 주요 LLM, OpenAI의 o1 미리 보기 및 Anthropic의 Sonnet 3.5,둘 다 득점ARC 공개 리더보드에서 21%(ARC-AGI-Pub).

또 다른최근 시도OpenAI의 GPT-4o를 사용하여50% 득점그러나 이 접근 방식은 테스트에 가장 적합한 답을 제공하는 솔루션을 선택하기 전에 수천 개의 가능한 솔루션을 생성했기 때문에 다소 논란의 여지가 있습니다.그럼에도 불구하고, 이것은 여전히 상을 촉발하거나 인간의 성과와 일치하는 것과는 거리가 멀었습니다.90% 이상.

ARC는 오늘날 AI의 진정한 지능을 테스트하려는 가장 신뢰할 수 있는 시도 중 하나로 남아 있지만 Scale/CAIS 이니셔티브는 강력한 대안을 찾기 위한 연구가 계속되고 있음을 보여줍니다.(흥미롭게도 우리는 상을 받은 질문 중 일부를 결코 볼 수 없을 수도 있습니다. AI가 시험지를 엿볼 수 없도록 인터넷에 게시되지 않습니다.)

우리는 기계가 언제 인간 수준의 추론에 가까워지는지 알아야 하며 이로 인해 발생하는 모든 안전, 윤리적, 도덕적 질문을 알아야 합니다.그 시점에서 우리는 아마도 훨씬 더 어려운 시험 문제, 즉 초지능을 테스트하는 방법에 남게 될 것입니다.이는 우리가 알아내야 할 훨씬 더 놀라운 작업입니다.

이 기사는 다음에서 재출판되었습니다.대화크리에이티브 커먼즈 라이센스에 따라.읽기원본 기사.

소환:AI 챌린지는 인간 수준의 지능을 테스트하기 위한 질문을 찾는다(2024년 10월 7일)2024년 10월 8일에 확인함https://techxplore.com/news/2024-10-ai-human-intelligence.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español