translation
신용: CC0 공개 도메인

지난 세기 말 빌 게이츠는 갑자기 급성장하는 웹 커뮤니티를 통해 7,000개 이상의 언어를 사용하는 거의 200개 국가의 시민들을 통합하고 공동 대화를 통해 함께 모이는 전망을 보았습니다.

그는 “인터넷은 내일의 지구촌을 위한 마을 광장이 되고 있다”고 선언했다.

그 이후로 인터넷은 확실히 세상을 더 가깝게 만들었고 글로벌 통신, 상업, 연구 및 엔터테인먼트를 헤아릴 수 없을 정도로 풍요롭게 했습니다.

그러나 최근 보고서는 마치 우리가 꼭 상기해야 할 필요가 있는 것처럼 우리에게 진전과 함께 때로는 문제가 따른다는 점을 상기시켜 줍니다.

아마존 웹 서비스 인공지능 연구소(Amazon Web Services Artificial Intelligence Lab)와 캘리포니아대학교 산타바바라 캠퍼스 연구원들은 웹에 있는 60억 개 이상의 문장을 조사한 결과 절반 이상이 두 개 이상의 문장으로 번역된 것을 발견했다고 밝혔습니다..그만큼, 그들은 종종 가난하다는 것을 발견했습니다.그리고 연속해서 다른 언어로 번역할 때마다(어떤 경우에는 8~9개까지) 결과는 더 나빠졌습니다.

"웹의 충격적인 양이 기계 번역되어 있습니다: 다중 방향 병렬성에서 얻은 통찰력"이라는 보고서는 다음과 같습니다.업로드됨사전 인쇄 서버로arXiv1월 11일

"이러한 번역의 품질이 낮다는 것은 해당 번역이 다음을 사용하여 작성되었을 가능성이 있음을 나타냅니다."라고 저자는 보고합니다. "우리의 작업은 다국어 대형 학습과 같은 훈련 모델에 대해 심각한 우려를 불러일으킵니다.웹에서 스크랩한 단일 언어 및 이중 언어 데이터에 대한 모델입니다."

연구원들은 텍스트가 인공지능에 의해 번역될 뿐만 아니라 AI에 의해 생성되고 있다고 말했습니다.그들은 AI로 생성된 번역의 비율이 아프리카 언어인 월로프어와 코사어와 같은 자원이 적은 언어 중에서 가장 높다는 것을 관찰했습니다.

"우리는 고도의 다방향 병렬 번역이 양방향 병렬 번역보다 품질이 훨씬 낮다는 것을 발견했습니다."라고 저자는 계속 말합니다.

즉, AI 훈련 작업을 위해 수조 비트의 데이터가 수집됨에 따라 아프리카 국가 및 더 모호한 언어를 사용하는 기타 국가와 같이 웹에서 과소 표현되는 지역은 신뢰할 수 있고 문법적인 대규모 데이터를 구축하는 데 더 큰 어려움에 직면하게 될 것입니다.언어 모델.활용할 수 있는 기본 리소스가 거의 없기 때문에 시장에 범람하는 오염된 번역에 크게 의존해야 합니다.

Amazon Web Services의 응용 과학 인턴이었던 Mehak Dhaliwal은 인터뷰에서 Motherboard와의 인터뷰에서 "기계 교육 분야에서 일하고 저자원 언어를 모국어로 사용하는 여러 동료가 인터넷의 상당 부분이그들의 모국어는 기계 학습을 통해 생성된 것처럼 보였습니다. 웹에서 보는 콘텐츠가 기계에 의해 생성되었을 수 있다는 점을 모든 사람이 인식해야 합니다."

Amazon 연구원들은 AI 훈련에 사용되는 콘텐츠 선택에서 편견을 발견했습니다.

그들은 "기계가 생성한 다방향 병렬 번역은 자원이 적은 언어로 웹에서 번역된 콘텐츠의 총량을 지배할 뿐만 아니라 해당 언어로 된 전체 웹 콘텐츠의 큰 부분을 차지합니다."라고 말합니다.

그들은 이러한 콘텐츠가 더 단순해지는 경향이 있다고 제안했습니다."광고 수익 창출 가능성이 높은" 문구.기계 학습 자료의 유창성과 정확성이 낮기 때문에 번역이 많으면 콘텐츠의 정확성이 더욱 떨어지고 AI 환각 가능성이 높아집니다.

때때로, 수년에 걸쳐 컴퓨터로 생성된 번역은 의도치 않게 유머러스하거나 당혹스러운 해석으로 이어졌습니다.

구글은 "러시아는 위대한 나라다"라는 문구를 잘못 해석하여 J.R.R.에 나오는 가상의 마을인 모르도르를 언급했습니다.톨킨의 '반지의 제왕'.2019년 페이스북의 번역 소프트웨어는 버마어 텍스트를 번역한 영어 기사에서 실수로 시진핑 중국 국가주석을 "Mr. S***hole"로 여러 번 언급했습니다.페이스북은 즉각 사과하고 이번 사고를 '기술적 오류'라고 비난했다.

그리고 의료처방전아르메니아어 사용자를 위한 도구는 두통이 있는 환자에게 불행한 조언을 제공했습니다.

한국어: "통증이 있을 때 필요에 따라 일반의약품 이부프로펜을 복용할 수 있습니다."

아르메니아어로 번역: "당신은 고통을 감수하기 위해 필요한 만큼 대전차 미사일을 사용할 수 있습니다."

추가 정보:Brian Thompson 외, 웹의 충격적인 양이 기계로 번역되었습니다: 다중 방향 병렬성에서 얻은 통찰력,arXiv(2024).DOI: 10.48550/arxiv.2401.05749

저널 정보: arXiv

© 2024 사이언스 X 네트워크

소환:잘못된 기계 번역이 웹을 어지럽힙니다(2024년 1월 22일)2024년 1월 22일에 확인함https://techxplore.com/news/2024-01-faulty-machine-litter-web.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.