Q&A: 알렉사, 나 행복해?AI 감정 인식이 부족한 이유

2023-12-19 21:25:00

대중 앞에서 연설하는 것을 두려워하는 것은 곰에게 쫓기는 것과 같은 것입니까?눈썹을 올리는 것은 즐거움이나 혼란을 의미합니까?1995년 과학자이자 발명가인 로잘린드 피카드(Rosalind Picard)는 자신의 저서 '감정 컴퓨팅(Affective Computing)'에서 컴퓨터가 감정을 인식하는 능력을 개발한다는 아이디어를 소개했습니다.

지난 몇 년 동안 인공지능을 활용한 시스템은 감지하고 구별하기 위해 '학습'해 왔습니다.인간의 감정분노, 행복, 두려움과 같은 감정을 얼굴과 몸의 움직임, 말, 목소리 톤과 연관시킴으로써.하지만 이러한 시스템이 미소와 능글 맞은 웃음을 구별하는 뉘앙스를 이해할 수 있습니까?그들은 미소가 분노를 동반할 수 있다는 것을 알고 있습니까?

Steinhardt 조교수 Edward B. Kang과 같은 전문가들은 대답이 '아니오'라고 경고합니다.강씨는 'AI 음성감정인식의 실천과 정치에 관하여' 연구논문 저자출판됨에서공정성, 책임성, 투명성에 관한 2023 ACM 컨퍼런스, 음성 감정 인식(SER)은 "기술적으로 부족할 뿐만 아니라 사회적으로 해로울 수도 있는 감정 과학에 대한 빈약한 가정에 기초한 기술"이라고 썼습니다.

다른 비평과 함께 그는 현재 시스템이 인류의 희화화된 버전을 만들고 있으며 이러한 시스템에서 이해되지 않는 방식으로 감정을 표현할 수 있는 자폐증 환자와 같은 사람들을 배제하고 있다고 제안합니다.

이러한 단점과 그 의미를 더 잘 이해하려면콜센터, 데이트 앱 등 NYU News에서는 AI 음성 감정 인식이 어떻게 작동하고 작동하지 않는지에 대해 강씨와 이야기를 나눴습니다.

AI 시스템은 감정을 감지하는 방법을 어떻게 학습하나요?

먼저 감정이 무엇을 의미하는지 물어볼 필요가 있습니다.현실은 감정이 실제로 무엇을 의미하는지에 대한 과학적 합의가 없다는 것입니다.우리는 다음을 언급하고 있습니까?개인적인 경험?생리적 반응?일련의 두뇌 모드?주관적인 느낌?아니면 이것들의 조합인가요?가장 정확한 대답은 우리가 실제로 모른다는 것입니다.

감정은 유용할 수도 있고 어쩌면 단순한 "일상" 용어일 수도 있지만 과학적으로는 지저분한 용어입니다.우리 모두는 미소가 항상 행복하다는 것을 의미하지는 않는다는 것을 알고 있습니다.연구자들은 오랫동안 우리가 지칭하는 데 사용하는 "두려움", "행복", "슬픔", "분노", "놀라움", "혐오"와 같은 레이블을 주장해 왔습니다.정서적 경험유동적이며 제한된 기능 세트에 따라 고정할 수 없습니다.

문제는 소위 AI 시스템이 '작동'할 수 있게 하는 통계적 기법을 일컫는 머신러닝의 구조상 감정은 경계를 갖고 구체적으로 정의되어야 하며, 측정 가능성도 이러한 관찰 가능한 특징을 따라 구상되어야 한다는 점이다.

감정 감지 AI 시스템과 그 기반이 되는 데이터 세트를 구축하려면 전통적으로 특정 작업을 수행하기 위해 인간 행위자를 고용해야 했습니다.표정또는 특정 감정적 표시를 고정관념적으로 표현하기 위한 발성(예: "행복"을 위해 웃거나 "분노"를 위해 소리치는 것).

이러한 공연은 감정의 대용물이 되며, 이를 통해 목소리의 톤과 속도 등 관찰 가능한 특징과 "라벨"로 정의되는 의도된 "감정" 간의 통계적 상관관계가 만들어질 수 있습니다.상상할 수 있듯이, 이로 인해 인류의 가장 복잡한 특징 중 하나가 캐리커처로 탄생하게 됩니다.

이러한 시스템과 관련된 제한 사항과 피해는 무엇입니까?이점은 무엇입니까?

감정 인식 AI 시스템의 한계는 설계상 데이터 세트에서 감정으로 정의하는 모든 것의 단순화에 의존한다는 것입니다.즉, 신뢰성이 높지 않거나 정확하지 않습니다.해로움은 여전히 정서적 감시의 한 형태로 사용될 수 있다는 것입니다.

연구의 일환으로 콜센터에서 음성 감정 인식의 사용을 조사했습니다.여기에서는 콜센터 상담원의 목소리가 충분히 유쾌한지 여부를 평가합니다.충분히 긍정적으로 평가되면 보상 보너스를 받을 수 있습니다.물론 반대 측면은 아마도 SER 시스템에 의해 시행되는 감정적 규범을 준수하지 않은 것에 대한 처벌일 것입니다.

AI 시스템은 객관적인 감정 정의가 존재한다는 논제에 의존하지만, AI 시스템이 훈련된 데이터세트는 그렇지 않다는 것을 드러냅니다.이러한 데이터 세트는 궁극적으로 데이터 세트 작성자와 감정을 수행하기 위해 고용된 행위자의 신념, 즉 소수의 개인이 감정을 정의하고 수행하는 주관적이고 임의적인 프로세스에 따라 구성됩니다.감정에 대한 이러한 해석은 이러한 AI 시스템에서 근거 진실로 굳어집니다.

이러한 시스템의 이점은 평가 대상이 아닌 사람들에게만 존재합니다.예를 들어 관리자에게 직원 평가를 위한 추가 도구와 데이터 포인트를 제공합니다.해당 데이터 포인트가 반드시 그것이 나타내는 것은 아닐 수도 있지만, 이를 사용하여 다른 사람을 평가하는 사람들에게 일정 수준의 통제권을 제공합니다.

현재 AI 음성감정인식을 활용하고 구현하고 있는 기술은 무엇인가요?

콜센터에서의 적용 외에도 AI SER 및 SER 인접 음성 분석 기술은 대출 불이행 예측을 통한 금융, 후보자 성공 예측을 통한 채용, 정신 건강 검진을 통한 의료 분야와 같은 더 높은 이해관계의 상황을 위한 솔루션으로 제안되고 있습니다..제가 아는 바로는 아직 다른 분야에서는 널리 구현되지 않았지만, 이것이 바로 지금이 이에 대해 이야기할 때인 이유이기도 합니다.

Microsoft는 제가 SER을 비판한 것과 같은 이유로 이미 얼굴 인식 기술에서 얼굴 감정 인식 기능을 제거하기로 약속했습니다. 즉, AI 지원 감정 인식이 신뢰할 수 있는 방식으로 수행될 수 있는지에 대한 과학적 합의가 부족하다는 것입니다., 정확하거나 일관성이 있습니다.이는 특히 SER이 얼굴 감정 인식을 대체할 수 있는 잠재적인 대안으로 떠오를 수 있다는 점을 우려하게 만듭니다.

업계 실무자들과 인터뷰한 결과에 따르면 SER도 다음 용도로 제안되고 있는 것으로 보입니다.데이트 앱, 이는 개인 간의 더 나은 일치를 제공하는 데 도움이 될 것으로 알려져 있습니다.

감정 인식을 소비자 제품에 통합하기 위한 권장 사항은 무엇입니까?

내 개인적인 추천은 솔직히 전혀하지 않는 것입니다.제 생각에는 자체 모니터링 앱과 같이 위험도가 낮은 애플리케이션에 대해 선택적으로 제공되는 "재미 있는" 기능에 불과하며, 통합된 경우 즐거움 목적으로만 사용된다는 점을 분명히 해야 합니다.최악의 경우, 저는 감정 인식 AI가 이러한 시스템의 개발 및 사용에 대한 통제권이 거의 또는 전혀 없는 사람들의 삶을 바꾸는 결정을 내리는 데 사용되는 과학적으로 논쟁의 여지가 있는 주제를 기술적으로 적용한 것이라고 믿습니다.

콜센터에서 SER을 사용할 때 조사된 감정적 감시 및 보상 결과는 감정이 데이터로 깔끔하게 정제될 수 있고 데이터 인프라 또는 우리가 부르는 문제가 있는 전제를 받아들인 후 SER이 어떻게 남용될 수 있는지의 시작일 뿐입니다."AI"를 활용하면 감정을 안정적이고 정확하며 일관되게 인식할 수 있습니다.

아이들과 상호작용하기 위해 SER을 사용하는 장난감에 대해 어떻게 생각하시나요?

떠오르는 응용 프로그램 중 하나는 어린이와의 참여에 다중 모드 AI 감정 인식을 통합하는 Moxie라는 장난감 로봇입니다.제작자가 발표한 논문에 따르면 장난감이 추적하는 행동 측정항목은 주로 얼굴 표정 및 단어 선택과 관련이 있습니다.여기서 단어 선택은 기술적으로 마이크를 통한 음성을 통해 녹음되지만 단어 분석은 아마도 먼저 음성을 텍스트로 변환한 다음 해당 텍스트를 텍스트로 분석하는 음성-텍스트 모델에 의해 구동된다는 점에서 SER과 다릅니다."가족"이나 "친구"와 같은 특정 단어가 "긍정적" 또는 "부정적"이라고 간주되는 개념과 관련이 있는지 조사합니다.

이것은 일반적으로 현장에서 "감정 분석"이라고 불리며, 비슷한 이유로 다소 논쟁의 여지가 있는 영역이기도 합니다. 즉, 단어만으로는 "감정"을 일관되게 나타내지 않습니다.논문에서는 이 장난감이 처음에는 정신 행동 발달 장애(MBDD) 진단을 받은 어린이를 지원하기 위한 도구로 개발되었다고 기술하고 있지만 현재는 이 장난감이 "전인적인 기술 개발"을 지원하는 모든 어린이를 위한 보다 일반적인 학습 동반자로 판매되고 있는 것으로 알고 있습니다.이는 물론 Moxie의 대상 시장을 확장합니다.

내 동료 마라 밀스(Mara Mills)는 이러한 장애 자원 조달 현상을 보다 수익성 있는 영역을 향한 한 단계로 "보조적 구실"이라고 불렀습니다.내 논문에서 간략하게 설명했듯이 어린이, 특히 MBDD 진단을 받은 어린이는 역사적으로 감정 인식 기술의 초기 개발을 위한 대상 인구 통계 및 정당화로 지정되었습니다.

예를 들어 Rosalind Picard의 1995년 선구적인 저서 "감정 컴퓨팅(Affective Computing)"의 한 장에는 "자폐증 환자 지원"에 관한 섹션이 있습니다.약 10년 후, 캠브리지 대학의 연구자들은 아스퍼거 증후군을 앓고 있는 아이들의 사회화를 돕기 위한 안면 보철물로 설명되는 "감정적 보청기"를 제안했습니다.내가 아는 한, 광범위한 기술 산업에서 수행된 이 작업의 대부분은 이제 이러한 "보조적 구실"을 넘어 발전했으며 초기 개발의 정당화 역할을 한 개인에 대한 이익은 논쟁의 여지가 있습니다.저는 연구자와 개발자들이 이러한 기술 개발에 있어 비판적이고 동정적인 자세를 유지하기를 바랍니다.

추가 정보:Edward B. Kang, AI 음성 감정 인식의 실천과 정치에 관하여,공정성, 책임성, 투명성에 관한 2023 ACM 컨퍼런스(2023).DOI: 10.1145/3593013.3594011

소환:Q&A: 알렉사, 나 행복해?AI 감정인식은 어떻게 부족한가 (2023년 12월 19일)2023년 12월 19일에 확인함https://techxplore.com/news/2023-12-qa-alexa-happy-ai-emotion.html에서