Researchers test AI systems' ability to solve the New York Times' connections puzzle
ベースライン モデルと LLM のすべてのパズルとシードの平均成功率。パズル カテゴリ別に分類されます (CoT は思考連鎖プロンプトの使用を示すことに注意してください)。カテゴリは、黄色、緑、青、紫の順に難易度が高くなります。クレジット:arXiv(2024年)。DOI: 10.48550/arxiv.2404.11730

人工知能 (AI) は、単語間のあいまいなつながりを見つける人間のスキルに匹敵するでしょうか?ニューヨーク大学タンドン工学部の研究者は、それを調べるために、ニューヨーク タイムズ紙の日刊コネクション パズルに目を向けました。

Connections では、プレーヤーは 16 の単語を、テーマ別にリンクされた 4 つの 4 つのセットにグループ化する 5 回の試行を行い、一般的に単純な定義によって接続される「単純な」グループから、型破りな思考を必要とする抽象的な単語の関連付けを反映する「トリッキーな」グループに進みます。

8 月 5 日から 8 日までイタリアのミラノで開催される IEEE 2024 ゲーム会議で発表される研究で、研究者らは、最新の自然言語処理 (NLP) システムがこれらの言語ベースのパズルを解決できるかどうかを調査しました。調査結果はまた、出版されたarXivプレプリントサーバー。

ニューヨーク大学タンドンのコンピューター科学工学 (CSE) 准教授であり、ゲーム イノベーション ラボの所長である Julian Togelius を研究の上級著者として迎え、チームは 2 つの AI アプローチを検討しました。1 つ目は、人間のような言語を理解して生成できる OpenAI の強力なラージ言語モデル (LLM) である GPT-3.5 と最近リリースされた GPT-4 を活用しました。

2 番目のアプローチでは、文埋め込みモデル、つまり BERT、RoBERTa、MPNet、および MiniLM を使用しました。これらのモデルは、セマンティック情報をベクトル表現としてエンコードしますが、LLM の完全な言語理解および生成機能がありません。

結果は、すべての AI システムが接続パズルの一部を解決できたものの、全体としては課題が依然として困難であることを示しました。GPT-4 はパズルの約 29% を解決し、埋め込み手法や GPT-3.5 よりも大幅に優れていましたが、パズルをマスターするには程遠いです。。特に、ミラーリングされたモデルは「簡単」から「難しい」までのパズルの分類に合わせた難易度を見つける際に。

「LLM はますます普及しており、接続のコンテキストで LLM がどこで失敗するかを調査しています。意味情報の処理方法に限界があることが明らかになる可能性があります」と、この研究の筆頭著者であるゲーム イノベーション ラボの博士課程学生、グラハム トッド氏は述べています。

研究者らは、GPT-4 にパズルを段階的に推論するよう明示的に促すと、そのパフォーマンスが大幅に向上し、パズルの解決率が 39% 強に達したことを発見しました。

「私たちの研究は、この種の『思考の連鎖』プロンプトが言語モデルをより構造化された方法で思考させることができることを示した先行研究を裏付けています」とティモシー・メリノ博士は述べた。ゲーム イノベーション ラボの学生で、研究の著者でもあります。「尋ねると、言語AI 機能のベンチマークを超えて、研究者らは GPT-4 のようなモデルが人間が新しい単語パズルをゼロから生成するのを支援できるかどうかを研究しています。

この創造的なタスクは、機械学習システムが概念を表現し、状況に応じた推論を行う方法の境界を押し広げる可能性があります。

研究者らは、2023 年 6 月 12 日から 2024 年 2 月 16 日までの毎日のパズルを表すオンライン アーカイブからの 250 個のパズルのデータセットを使用して実験を実施しました。

トゲリウス、トッド、メリノとともに、博士号を取得したサム・アールも、ゲームイノベーションラボの学生でもあり、研究チームの一員でした。この研究は、AI を使用してゲームを改善したり、その逆を行ったりする Togelius の一連の研究に貢献しています。Togelius は、2019 年の書籍『Playing Smart: On Games, Intelligence, and Artificial Intelligence』の著者です。

詳細情報:Graham Todd 他、「Missed Connections: Lateral Thinking Puzzles for Large Language Models」arXiv(2024年)。DOI: 10.48550/arxiv.2404.11730

雑誌情報: arXiv

引用:研究者らは、ニューヨーク・タイムズのコネクションパズルを解く AI システムの能力をテスト (2024 年 5 月 10 日)2024 年 5 月 10 日に取得https://techxplore.com/news/2024-05-ai-ability-york-puzzle.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。