NIST tool will make math-heavy research papers easier to view online
紙の PDF から SciA11y HTML レンダリングを作成するための回路図。左側の生の 2 列 PDF から始めて、S2ORC [24] を使用してタイトル、著者、要約、セクション ヘッダー、本文テキスト、および参考文献を抽出します。S2ORC は、図や表のオブジェクトへのインライン引用と参照の間のリンクも識別します。DeepFigures [43] は、図と表をそのキャプションとともに抽出するために使用されます。これら 2 つのモデルの出力は、Semantic Sc​​holar API からのメタデータとマージされます。ヒューリスティックは、目次を作成し、テキスト内の適切な場所に図や表を挿入し、壊れた URL を修復するために使用されます。図のように HTML ヘッダーを追加します (セクションのヘッダー タグ、本文の段落タグ、図と表の図タグ)。強調表示されたコンポーネント (目次と参考文献内のリンク) は PDF には含まれておらず、HTML レンダリングに導入された新しいナビゲーション機能も含まれています。紙の文書の一部を HTML でレンダリングした例を右側に示します (実際のレンダリングは 1 列ですが、ここではプレゼンテーションのために分割されています)。クレジット: https://arxiv.org/pdf/2105.00076.pdf

物理学、数学、工学の論文に含まれる複雑な数式は、人によっては読むのが恐ろしく難しいかもしれませんが、そもそもそれらを見るだけで困難を感じる人もたくさんいます。米国立標準技術研究所 (NIST) は、視覚障害のある人にとってこれらの論文を目に優しくするツールを作成し、大規模に採用されようとしています。

このツールは、数式を表示するために一般的に使用される形式を別の形式に変換するもので、最新かつ優れた研究論文を誰もがアクセスできるようにするのに役立つ可能性があります。新しい研究論文のほとんどは PDF ファイルとして配布されており、多くの人がそれを利用しています。読むのが難しい。

世界保健機関によると、世界人口の 4 分の 1 以上が視覚障害と診断されており、イェール大学の失読症および創造性センターの報告によると、米国では 20% の人々が失読症であるとのことです。で最近の研究PDF として配布された科学論文のうち、アクセシビリティ基準を満たしているのは、サンプリングした文書のうち 2.4% だけであることが研究者によってわかりました。

「これまでずっと数学論文の出版に苦労してきた人でなければ、なぜこれが問題なのか疑問に思うかもしれない」とNISTのブルース・ミラー氏は言う。彼は数学ソフトウェアを専門とする訓練を受けた物理学者である。「PDF は、印刷されたページでは見栄えがします。しかし、数式を読み上げたり、タブレットや携帯電話などの異なるサイズの画面で読みやすくしたい場合、不一致は苦痛になる可能性があります。簡単に再利用することはできません。」他のメディア用の PDF。」

PDF は通常どのように生成されますか?多くの数式を使用する紙の原稿を作成する科学者は、通常、LaTeX (「レイテック」と発音) またはそれに近い言語を使用して数式をレンダリングします。LaTeX は 1980 年代から使用されており、作成される高品質の組版で広く尊敬されていますが、印刷ページを静的な形式で作成するように設計されています。

1990 年代以来、Web ページ作成者は HTML を使用するようになり、表示されるテキストの外観、動作、レイアウトをコンテキストに応じて調整できるようになりました。Web ページを別のサイズにドラッグし、そのテキストが新しい四角形の境界内に収まるようにスムーズに位置を変更するのを見たことがあるなら、視覚に障害のある読者が望んでいる機能が備わっていることがわかります。

最新の HTML には、このタイプの「リフロー」機能を許可するだけでなく、自分で文章を読むことができない人のために、機械で読み上げます。これらの機能により、HTML はアクセシブルなテキストを作成するのに理想的なものになっていますが、長年にわたり、LaTeX を HTML に変換する効果的な方法はありませんでした。NIST の由緒ある 1,000 ページを超える数学関数ハンドブックをデジタル領域に導入する方法が必要だったミラーにとって、このことが問題となりました。

「当時、LaTeX を Web ページに変換すると称するプログラムはいくつかありましたが、どれも十分に機能しませんでした」と彼は言いました。「自分たちで作ってみようと思いました。」

結果として得られた NIST ツールは次のとおりです。LaTeXML、LaTeX ソース ファイルを読み取り、HTML に変換できるドキュメントの表現を構築します。LaTeXML は、数学関数のオンライン デジタル ライブラリを作成するための鍵であり、数年後、主要なオンライン リソースの管理者は、LaTeXML が自分たちにも役立つことに気づきました。

このリソースはarXiv(「アーカイブ」と発音)、科学雑誌にまだ掲載されていない学術論文のリポジトリ。コーネル大学によって維持されており、arXivでは現在、200 万件を超える記事を無料で閲覧および PDF としてダウンロードできます。このサーバーは、著者が調査結果を投稿し、正式に発表する前に同僚と議論できる、著名な中継ステーションとなっています。

「ある調査によるとarXiv2022 年に実施された調査では、支援技術に依存しているユーザーのうち、支援なしで必要なすべての研究にアクセスできるユーザーはわずか 30% でした。同じ調査で、PDF 形式が最大の障壁であることがわかりました」と主任研究員の Shamsi Brinn 氏は述べています。arXivさんのアクセシビリティレポートHTML 論文プロジェクトのマネージャーでもあります。

それは変わりますarXivブリン氏は、LaTeXMLコンバーターを使用していると述べた。サーバーは論文の HTML バージョンを生成し、PDF をダウンロードするためのリンクの横に HTML バージョンを含めます。の

arXivリポジトリは順次論文を変換し、2023 年 12 月に最初の論文を提供します。この動きは、アクセス可能な Web と電子情報この変更は、科学界が連邦政府から資金提供された研究を自由に利用できるようにするというホワイトハウスの最新方針を順守するのに役立つだけでなく、情報にアクセスできるようにすることにもなります。、電子リソースを使用して成長した人。

「障害のある若者による、また障害のある若者のための平等なアクセスへの期待が高まるとともに、教育におけるウェブや電子情報への依存が高まっている」とゼスキー氏は述べた。「学生がアクセスする必要がある情報にアクセスして利用できるようにするための措置を講じることが重要です。」

雑誌情報: arXiv

引用:新しいツールにより、数学を多用した研究論文をオンラインで簡単に閲覧できるようになります (2024 年 1 月 3 日)2024 年 1 月 3 日に取得https://techxplore.com/news/2024-01-tool-math-heavy-papers-easier.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。