journalists
圖片來源:Unsplash/CC0 公共領域

如果沒有適當的來源,新聞報道會是什麼樣子?為了講述一個引人入勝的故事,記者需要找到有新聞價值的敘事和值得信賴的資訊。此類資訊通常來自大量出版物、官方記錄和專家,他們都有自己的偏見、專業知識、觀點和背景。面試候選人數量眾多,但難以駕馭。

然而,人工智慧可以作為指導。

南加州大學資訊科學研究所的研究人員正在創建一個來源推薦引擎,旨在為記者推薦參考資料。「在實踐中,南加州大學維特比工程學院電腦科學與傳播教授 Emilio Ferrara 表示:「它將分析給定的文本或主題,並透過交叉引用潛在受訪者、專家或資訊資源的資料庫來建議相關來源。

該工具的開發由計算機科學博士 Alexander Spangher 領導。南加州大學維特比分校的學生,曾在《紐約時報》擔任資料科學家。在沉浸於新聞界的同時,斯潘格目睹了傳統新聞編輯室的壓力。「我與當地記者交談時,沒有一個不是完全緊張的,」他說。“新聞荒漠和報紙被關閉。我們真正希望在這樣的領域提供幫助並為其構建工具。”

為了向記者提供有用的資源,Spangher 正在創建各種人工智慧小工具,包括一個來源推薦系統,該系統的前言是他的論文,“識別新聞文章中的信息來源”,被接受2023年自然語言處理經驗方法會議現在已發佈到arXiv預印本伺服器。

為了創建一個可以建議消息來源的人工智慧模型,研究人員首先奠定了基礎:人類記者目前如何在新聞寫作中使用消息來源?為了研究這一點,他們收集了一千多篇新聞文章中的句子資料集,並註釋了資訊來源以及來源類別(例如「直接引用」、「間接引用」、「已發表作品」和「法院」)訴訟程序」)。

然而,一千篇註釋的新聞文章並不足以讓研究人員就記者在不同報道類型中使用資源的所有方式得出明確的結論。但是,訓練語言模型 (LM) 來繼續註釋過程就足夠了。「語言模型是處理和理解的人工智慧框架透過分析大量文本的模式和上下文,」該論文的資深作者費拉拉解釋道。

作者透露,研究人員訓練的 LM 能夠以 83% 的準確率檢測來源歸因。現在配備了這些 LM,他們對大約 10,000 篇新聞文章進行了註釋,並進一步深入了解新聞寫作的組成性:記者目前何時以及如何使用消息來源?

AI 模型發現,平均而言,新聞文章中大約一半的資訊來自來源,在每篇文章中,通常有一到兩個主要來源(即,這些來源貢獻了文章中20% 或更多的資訊),並且兩到八個次要的(貢獻較少的)。斯潘格解釋說:「人工智慧也發現,第一句話和最後一句話最有可能被找到。」他補充說,記者經常以引用的資訊開頭,並以引文結尾,以送走讀者。

研究人員透過另一項測試對他們的新演算法提出了挑戰:他們能否偵測到來源是否遺失?如果人工智慧能夠識別何時缺乏訊息,那麼它就可以配置為知道何時推薦特定專家來完成全貌。

透過分析 40,000 篇文章,其中一些來源被隨機刪除,人工智慧模型很容易注意到主要來源不存在,但很難注意到次要來源。斯潘格說,儘管它們對故事來說可能是最不重要的,但不太明顯的來源也可能是人工智慧有一天可以提出的最有價值的建議。

「你會畫很多來自主要參與者的聲音,但補充聲音將為文章提供額外的色彩和細節,”他指出。“讓引擎識別和推薦次要來源將是一個挑戰,但它們可能是最有幫助的。

研究人員還認為,如果該工具能夠以不同的方式推薦來源,那麼它將會非常重要。費拉拉說:“它可以向記者介紹他們慣常網絡之外的新的、多樣化的聲音,從而減少對熟悉來源的依賴,並有可能帶來新的觀點。”

然而,他補充說,如果設計不當,每個人工智慧系統都容易產生偏差。「為了確保來源資料庫的多樣性,標準應包括來自廣泛的人口統計、學科和觀點的代表性,」他指出。

南加州大學維特比 (USC Viterbi) 電腦科學副教授兼 ISI 首席研究員 Jonathan May 設想,在未來,採購引擎將快速啟動報道流程,讓記者提高效率。

「科技可以幫助我們做到論文合著者梅說,“發揮我們的創造力是一件好事。這就是我對此充滿希望的原因。”

該團隊計劃與記者合作收集回饋以進一步改進。

斯潘格說:“對於這樣的項目,我真的很喜歡與記者交談,了解他們的需求、觀點以及他們認為什麼會起作用或不會起作用。”“任何針對當地新聞業的解決方案都需要一群具有不同背景的不同人聚集在一起。”

更多資訊:Alexander Spangher 等人,辨識新聞文章中的資訊來源,arXiv(2023)。DOI:10.48550/arxiv.2305.14904

期刊資訊: arXiv

引文:人工智慧如何幫助記者找到多樣化的原始來源(2023 年,12 月 19 日)檢索日期:2023 年 12 月 19 日來自 https://techxplore.com/news/2023-12-ai-journalists-diverse-sources.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。