새로운 연구로 이상한 AI 이미지가 과거의 일이 될 수 있습니다

2024-09-15 09:05:25

생성적 인공 지능(AI)은 일관된 이미지를 생성하는 데 어려움을 겪는 것으로 악명 높았으며 종종 손가락이나 얼굴 대칭과 같은 세부 사항을 잘못 처리했습니다.더욱이 이러한 모델은 다양한 이미지 크기와 해상도로 이미지를 생성하라는 메시지가 표시될 때 완전히 실패할 수 있습니다.

Rice research could make weird AI images a thing of the past — 왼쪽 그림은 표준 방법으로 생성된 것이고 오른쪽 그림은 ElasticDiffusion으로 생성된 것입니다.두 이미지의 프롬프트는 "기자회견에서 최근 스캔들을 기자들에게 설명하는 운동선수 고양이의 사진"이었습니다.출처: Moayed Haji Ali/Rice University

라이스대학교 컴퓨터 과학자들이 사전 훈련된 이미지를 생성하는 새로운 방법확산모델은 학습된 이미지에 임의의 노이즈 층을 추가하여 "학습"한 다음 추가된 노이즈를 제거하여 새로운 이미지를 생성하는 생성 AI 모델 클래스로 이러한 문제를 해결하는 데 도움이 될 수 있습니다.

Rice University의 컴퓨터 공학 박사과정 학생인 Moayed Haji Ali는 IEEE(Institute of Electrical and Electronics Engineers)에서 발표한 동료 검토 논문에서 ElasticDiffusion이라는 새로운 접근 방식을 설명했습니다.2024년 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)시애틀에서.

Haji Ali는 "Stable Diffusion, Midjourney 및 DALL-E와 같은 확산 모델은 상당히 생생하고 사실적인 이미지를 생성하여 인상적인 결과를 만들어냅니다."라고 말했습니다."하지만 약점이 있습니다. 정사각형 이미지만 생성할 수 있다는 것입니다. 따라서 모니터나 스마트워치와 같이 종횡비가 다른 경우 이러한 모델이 문제가 되는 부분이 있습니다."

Stable Diffusion과 같은 모델에 정사각형이 아닌 이미지(예: 16:9 종횡비)를 생성하도록 지시하면 생성된 이미지를 구축하는 데 사용되는 요소가 반복됩니다.그 반복은 여섯 개의 손가락을 가진 사람이나 이상하게 길쭉한 자동차처럼 이미지나 이미지 대상에서 이상하게 보이는 기형으로 나타난다.

이러한 모델이 훈련되는 방식도 문제에 영향을 미칩니다.

Haji Ali에게 Guha와 함께 작업하도록 조언한 컴퓨터 과학 부교수인 Vicente Ordónez-Román은 "특정 해상도의 이미지로만 모델을 훈련하면 해당 해상도의 이미지만 생성할 수 있습니다"라고 말했습니다.Balakrishnan, 전기 및 컴퓨터 공학 조교수.

Ordóñez-Román은 이것이 AI 모델이 훈련된 것과 유사한 데이터를 생성하는 데 지나치게 능숙하지만 해당 매개변수를 크게 벗어날 수 없는 과적합이라고 알려진 AI 고유의 문제라고 설명했습니다.

Ordóñez-Román은 "다양한 이미지에 대한 모델을 훈련함으로써 이 문제를 해결할 수 있지만 비용이 많이 들고 수백, 어쩌면 수천 개의 그래픽 처리 장치 등 엄청난 양의 컴퓨팅 성능이 필요합니다"라고 말했습니다.

Haji Ali에 따르면 확산 모델에서 사용되는 디지털 노이즈는 로컬 및 글로벌이라는 두 가지 데이터 유형의 신호로 변환될 수 있습니다.로컬 신호에는 눈 모양이나 강아지 털의 질감과 같은 픽셀 수준의 세부 정보가 포함되어 있습니다.전역 신호에는 이미지의 전체적인 윤곽이 더 많이 포함됩니다.

"확산 모델이 정사각형이 아닌 종횡비에 대한 도움이 필요한 한 가지 이유는 일반적으로 로컬 정보와 글로벌 정보를 함께 패키지화하기 때문입니다."라고 Ordóñez-Román에 합류하기 전에 AI 생성 비디오의 모션 합성 작업을 했던 Haji Ali는 말했습니다.연구 그룹Rice에서 박사 학위를 취득했습니다.연구."모델이 정사각형이 아닌 이미지의 추가 공간을 설명하기 위해 해당 데이터를 복제하려고 하면 시각적 결함이 발생합니다."

Haji Ali의 논문에 있는 ElasticDiffusion 방법은 이미지 생성에 다른 접근 방식을 사용합니다.ElasticDiffusion은 두 신호를 함께 패키징하는 대신 로컬 및 전역 신호를 조건부 및 무조건 생성 경로로 분리합니다.무조건 모델에서 조건 모델을 빼서 전체 이미지 정보가 포함된 점수를 얻습니다.

그 후, 로컬 픽셀 수준 디테일이 있는 무조건 경로가 사분면의 이미지에 적용되어 한 번에 한 칸씩 디테일을 채웁니다.이미지 종횡비가 어떠해야 하는지, 이미지가 무엇인지(개, 달리는 사람 등)와 같은 전체 정보는 별도로 유지되므로 AI가 신호를 혼동하고 데이터를 반복할 가능성이 없습니다.그 결과, 추가 교육이 필요하지 않은 종횡비에 관계없이 더 깔끔한 이미지가 생성됩니다.

Ordónez-Román은 "이 접근 방식은 모델의 중간 표현을 활용하여 모델을 확장하여 글로벌 일관성을 얻으려는 성공적인 시도입니다."라고 말했습니다.

다른 확산 모델에 비해 ElasticDiffusion의 유일한 단점은 시간입니다.현재 하지 알리의 방식으로 이미지를 만드는 데는 최대 6~9배의 시간이 소요된다.목표는 Stable Diffusion 또는 DALL-E와 같은 다른 모델과 동일한 추론 시간으로 이를 줄이는 것입니다.

"이 연구가 진행되기를 희망하는 바는 확산 모델이 이렇게 더 반복적인 부분을 생성하고 이러한 변화하는 종횡비에 적응할 수 없는 이유를 정의하는 것입니다.동시에 추론 시간에 훈련을 실시합니다."라고 Haji Ali는 말했습니다.

추가 정보:ElasticDiffusion: 글로벌-로컬 콘텐츠 분리를 통한 훈련이 필요 없는 임의 크기 이미지 생성, 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 2024. 저자: Moayed Haji-Ali, Guha Balakrishnan 및 Vicente OrdÃ³ñez-Román,cvpr.thecvf.com/

프로젝트 페이지:elasticdiffusion.github.io/

프로젝트 데모:복제.com/moayedhajiali/elasticdiffusion

프로젝트 코드:github.com/MoayedHajiAli/ElasticDiffusion-official

소환:이상한 AI 이미지를 과거의 것으로 만들 수 있는 새로운 연구(2024년 9월 15일)2024년 9월 15일에 확인함https://techxplore.com/news/2024-09-rice-weird-ai-images.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español