人工智慧挑戰賽尋求測試人類智力水平的問題

2024-10-08 05:27:44

舊金山人工智慧領域的兩家領導者向大眾發起挑戰，要求他們提出能夠測試 Google Gemini 和 OpenAI 的 o1 等大型語言模型 (LLM) 功能的問題。Scale AI 專門為法學碩士培訓準備大量數據，該公司與人工智慧安全中心 (CAIS) 合作發起了「人類最後考試」計劃。

舊金山人工智慧領域的兩位領先者已經挑戰過大眾提出能夠測試 Google Gemini 和 OpenAI 的 o1 等大型語言模型 (LLM) 功能的問題。Scale AI 專門為法學碩士培訓準備大量數據，該公司與人工智慧安全中心 (CAIS) 合作發起了「人類最後考試」計劃。

Scale 和 CAIS 表示，針對那些提出測試中選出的前 50 個問題的人，將獎勵 5,000 美元（3,800 英鎊），其目標是測試我們距離實現「專家級人工智慧系統」有多遠，使用「歷史上最大、最廣泛的專家聯盟。

為什麼要這樣做？領先的法學碩士已經通過了許多既定的智力測試，數學和法律，但很難確定這有多大意義。在許多情況下，由於他們接受的訓練資料量龐大，其中包括網路上所有內容的很大一部分，他們可能已經預先了解了答案。

數據是整個領域的基礎。它的後面是範式轉移從傳統計算到人工智慧，從「告訴」到「展示」這些機器要做什麼。這需要良好的訓練資料集，也需要良好的測試。開發人員通常使用尚未用於訓練的資料（行話中稱為“測試資料集”）來執行此操作。

如果法學碩士還不能預先學習律師資格考試等既定測驗的答案，他們可能很快就會做到。人工智慧分析網站紀元估計到 2028 年，人工智慧將有效地閱讀人類所寫的所有內容。同樣重要的挑戰是，一旦突破極限，如何繼續評估人工智慧。

當然，互聯網一直在擴展，每天都會添加數百萬個新項目。能解決這些問題嗎？

也許吧，但這會導致另一個潛在的困難，稱為“模型崩潰隨著網路上人工智慧生成的材料越來越多，這些材料又循環到未來的人工智慧訓練集中，這可能會導致人工智慧的表現越來越差。智慧的人類互動中收集數據，新增新的數據。

一些專家認為，人工智慧也需要變得「具體化」：像人類一樣在現實世界中移動並獲得自己的經驗。這聽起來可能有點牽強，直到你意識到特斯拉多年來一直在其汽車上這樣做。另一個機會是人類穿戴式設備，例如雷朋 (Ray-Ban) 推出的 Meta 廣受歡迎的智慧眼鏡。這些都配備了攝影機和麥克風，並且可以使用收集大量以人為中心的視訊和音訊資料。

狹窄的測試

然而，即使此類產品保證未來有足夠的訓練數據，仍然存在如何定義和衡量智力的難題，尤其是通用人工智慧（AGI），意思是等於或超越的人工智慧人類智慧。

傳統的人類智商測試長期以來因未能捕捉到人類智商的變化而備受爭議。多面性智力，涵蓋從語言到數學到同理心到方向感的一切。

人工智慧使用的測試也存在類似的問題。有許多完善的測驗涵蓋總結文本、理解文本、繪圖等任務正確的推論從資訊中識別人類姿勢和手勢以及機器視覺。

一些測試即將退役，通常是因為人工智慧在這些方面做得很好，但它們的任務針對性很強，只能用來衡量智力。例如，下棋的人工智慧鱈魚乾遠遠領先有史以來得分最高的人類棋手馬格努斯·卡爾森 (Magnus Carlsen)埃洛評級系統。然而Stockfish無法完成其他任務，例如理解語言。顯然，將其國際象棋能力與更廣泛的智力混為一談是錯誤的。

但隨著人工智慧現在展現出更廣泛的智慧行為，挑戰在於設計新的基準來比較和衡量它們的進步。法國Google工程師 François Chollet 提出了一種值得注意的方法。他認為真正的智力在於適應和推廣學習到新的、未見過的情況的能力。2019 年，他提出了「抽象與推理語料庫」（ARC），這是一系列簡單視覺網格形式的謎題，旨在測試人工智慧推斷和應用抽象規則的能力。

不像之前的基準透過在數百萬張圖像上訓練人工智慧來測試視覺物件識別，每張圖像都包含有關所包含物件的信息，ARC 提前給出了最少的示例。人工智慧必須弄清楚謎題邏輯，而不能只是學習所有可能的答案。

雖然 ARC 測試並不是特別困難對於人類解決的問題，第一個得分達到 85% 的人工智慧系統將獲得 60 萬美元的獎勵。在撰寫本文時，我們距離這一點還有很長的路要走。最近兩個領先的法學碩士，OpenAI 的 o1 預覽版和 Anthropic 的 Sonnet 3.5，均得分ARC 公開排行榜（稱為ARC-AGI-Pub）。

其他最近的嘗試使用 OpenAI 的 GPT-4o得分 50%，但有些爭議，因為該方法在選擇為測試提供最佳答案的解決方案之前生成了數千種可能的解決方案。即便如此，這仍然距離觸發該獎項或與人類的表現相匹配還很遙遠超過90%。

雖然 ARC 仍然是當今測試人工智慧真正聰明的最可信的嘗試之一，但 Scale/CAIS 計劃表明，人們仍在繼續尋找令人信服的替代方案。（令人著迷的是，我們可能永遠不會看到一些獲獎問題。它們不會發佈在互聯網上，以確保人工智慧不會偷看試卷。）

我們需要知道機器何時接近人類層次的推理，以及由此引發的所有安全、倫理和道德問題。到那時，我們可能會遇到一個更困難的考試問題：如何測試超級智慧。這是我們需要弄清楚的一項更令人費解的任務。

本文轉載自對話根據知識共享許可。閱讀原創文章。

引文:AI 挑戰尋求測試人類智力水平的問題（2024 年 10 月 7 日）檢索日期：2024 年 10 月 8 日來自 https://techxplore.com/news/2024-10-ai- human-intelligence.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。

另請參閱其他語言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español