NIST tool will make math-heavy research papers easier to view online
종이 PDF에서 SciA11y HTML 렌더링을 생성하기 위한 회로도입니다.왼쪽의 원시 2열 PDF부터 시작하여 S2ORC[24]를 사용하여 제목, 저자, 초록, 섹션 헤더, 본문 텍스트 및 참고 문헌을 추출합니다.S2ORC는 또한 인라인 인용과 그림 및 표 개체에 대한 참조 간의 링크를 식별합니다.DeepFigures[43]는 캡션과 함께 그림과 표를 추출하는 데 사용됩니다.이 두 모델의 출력은 Semantic Scholar API의 메타데이터와 병합됩니다.경험적 방법은 목차를 구성하고, 텍스트의 적절한 위치에 그림과 표를 삽입하고, 손상된 URL을 복구하는 데 사용됩니다.그림과 같이 HTML 헤더를 추가합니다(섹션의 헤더 태그, 본문 텍스트의 단락 태그, 그림과 표의 그림 태그).강조 표시된 구성 요소(참조의 목차 및 링크)는 PDF 및 HTML 렌더링에 도입된 새로운 탐색 기능에 없습니다.종이 문서의 일부에 대한 HTML 렌더링의 예가 오른쪽에 표시됩니다(실제 렌더링은 프레젠테이션을 위해 여기에서 분할된 단일 열입니다).크레딧: https://arxiv.org/pdf/2105.00076.pdf

물리학, 수학, 공학 논문의 복잡한 공식은 어떤 사람들에게는 읽기 어려울 정도로 어려울 수도 있지만, 처음에 보는 것만으로도 어려움을 겪는 사람들이 많습니다.NIST(National Institute of Standards and Technology)는 시각 장애가 있는 사람들이 이러한 논문을 더 쉽게 볼 수 있도록 하는 도구를 만들었으며 곧 널리 채택될 예정입니다.

수학 공식을 표시하기 위해 일반적으로 사용되는 형식을 다른 형식으로 변환하는 이 도구는 모든 사람이 최신의 훌륭한 연구 논문에 접근할 수 있도록 하는 데 도움이 될 수 있습니다.대부분의 새로운 연구 논문은 PDF 파일로 배포됩니다.읽기가 어렵습니다.

세계보건기구(WHO)에 따르면 전 세계 인구의 4분의 1 이상이 시각 장애 진단을 받았으며, 예일대학교 난독증 및 창의성 센터에서는 미국 인구의 20%가 난독증을 앓고 있다고 보고했습니다.에서최근 연구PDF로 배포된 과학 논문 중 연구자들은 샘플링한 문서 중 단 2.4%만이 접근성 기준을 충족한다는 사실을 발견했습니다.

수학 소프트웨어 전문 물리학자인 NIST의 브루스 밀러(Bruce Miller)는 "평생 수학 논문을 출판하기 위해 애쓰는 사람이 아니라면 이것이 왜 문제인지 궁금할 것"이라고 말했습니다."PDF는 인쇄된 페이지에서는 멋져 보입니다. 하지만 수학 공식을 소리내어 읽거나 태블릿이나 휴대폰과 같이 다른 크기의 화면에서 읽기 쉽도록 하려면 불일치로 인해 고통스러울 수 있습니다. 쉽게 용도를 변경할 수 없습니다.다른 미디어용 PDF."

PDF는 일반적으로 어떻게 생성됩니까?많은 공식을 사용하는 종이 원고를 작성하는 과학자는 일반적으로 공식을 렌더링하기 위해 LaTeX("lay-tech"로 발음) 언어나 그와 가까운 언어 중 하나를 사용합니다.LaTeX는 1980년대부터 사용되어 왔으며 이를 통해 생성되는 고품질 조판으로 널리 존경받고 있지만 인쇄된 페이지를 정적 형식으로 생성하도록 설계되었습니다.

1990년대부터 웹페이지 제작자는 HTML을 사용해 왔으며 이를 통해 컨텍스트에 따라 표시되는 텍스트의 모양, 동작 및 레이아웃을 조정할 수 있습니다.웹 페이지를 다른 크기로 끌어서 텍스트가 새 직사각형의 경계에 맞게 자연스럽게 재배치되는 것을 본 적이 있다면 시각 장애가 있는 독자가 원하는 기능을 보고 있는 것입니다.

최신 HTML에는 유형을 "리플로우"하는 기능을 허용할 뿐만 아니라텍스트를 스스로 읽을 수 없는 사람들을 위해 기계가 큰 소리로 읽어줍니다.이러한 기능을 통해 HTML은 접근 가능한 텍스트를 만드는 데 이상적이지만 수년 동안 LaTeX를 HTML로 변환하는 효과적인 방법은 없었습니다.이는 1,000페이지가 넘는 NIST의 유서 깊은 수학 함수 핸드북을 디지털 영역으로 가져오는 방법이 필요했던 Miller에게 문제를 안겨주었습니다.

"당시 일부 프로그램은 LaTeX를 웹페이지로 변환한다고 주장했지만 어느 것도 제대로 작동하지 않았습니다."라고 그는 말했습니다."우리 스스로 만들어보자고 생각했어요."

결과 NIST 도구는 다음과 같습니다.LaTeXML, LaTeX 소스 파일을 읽고 HTML로 변환할 수 있는 문서 표현을 작성합니다.LaTeXML은 온라인 수학 함수 디지털 라이브러리를 만드는 데 핵심이었으며 몇 년 후 주요 온라인 리소스의 관리자는 LaTeXML이 자신에게도 도움이 될 수 있다는 것을 깨달았습니다.

이 리소스는arXiv("아카이브"로 발음), 아직 과학 저널에 출판되지 않은 학술 논문의 저장소입니다.코넬대학교에서 관리하고 있으며,arXiv현재 무료로 PDF로 보고 다운로드할 수 있는 2백만 개 이상의 기사를 호스팅하고 있습니다.서버는 작성자가 결과를 공식적으로 발표하기 전에 결과를 게시하고 동료와 논의할 수 있는 중요한 중간 지점이 되었습니다.

"설문조사에 따르면arXiv2022년에 실시된 조사에 따르면 보조 기술에 의존하는 사용자 중 30%만이 도움 없이 필요한 모든 연구에 액세스할 수 있습니다.동일한 조사에서 PDF 형식이 가장 큰 장벽이라는 사실이 밝혀졌습니다."라고 수석 연구원인 Shamsi Brinn은 말했습니다.arXiv'에스접근성 보고서HTML 문서 프로젝트의 관리자입니다.

그것은 다음과 같이 바뀔 것입니다arXivBrinn은 LaTeXML 변환기를 사용했다고 말했습니다.서버는 HTML 버전의 문서를 생성하고 PDF 다운로드 링크 옆에 HTML 버전을 포함합니다.그만큼

arXiv저장소는 2023년 12월에 첫 번째 문서를 제공하면서 순차적으로 문서를 변환할 예정입니다. 이러한 움직임은 접근 가능한 웹 및전자정보이러한 변화는 과학계가 연방 자금 지원 연구를 자유롭게 이용할 수 있도록 하는 백악관의 업데이트된 정책을 준수하는 데 도움이 될 뿐만 아니라 다음과 같은 정보에 접근할 수 있게 해줍니다., 전자 자원을 사용하여 성장한 사람.

Zesski는 "장애가 있는 청소년의 평등한 접근에 대한 기대가 높아지면서 교육에서 웹과 전자 정보에 대한 의존도가 높아지고 있습니다"라고 말했습니다."학생들이 액세스해야 하는 정보에 접근하고 사용할 수 있도록 조치를 취하는 것이 중요합니다."

저널 정보: arXiv

소환:새로운 도구를 사용하면 수학이 많은 연구 논문을 온라인에서 더 쉽게 볼 수 있습니다(2024년 1월 3일)2024년 1월 3일에 확인함https://techxplore.com/news/2024-01-tool-math-heavy-papers-easier.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.