संगीत मेटाडेटा का उपयोग करके प्रतीकात्मक संगीत निर्माण के लिए एक नया मॉडल

2024-10-01 14:08:19

उदाहरण के लिए, आर्टिफिशियल इंटेलिजेंस (एआई) ने संगीत उद्योग के लिए नए दिलचस्प अवसर खोले हैं, ऐसे उपकरणों के विकास को सक्षम किया है जो स्वचालित रूप से संगीत रचनाएं या विशिष्ट वाद्य ट्रैक उत्पन्न कर सकते हैं।फिर भी अधिकांश मौजूदा उपकरण गैर-विशेषज्ञ उपयोगकर्ताओं के विपरीत, संगीतकारों, संगीतकारों और संगीत निर्माताओं द्वारा उपयोग किए जाने के लिए डिज़ाइन किए गए हैं।

A new model for symbolic music generation using musical metadata — टीम के सिस्टम डेमो का स्क्रीनशॉट जो इसका यूजर इंटरफ़ेस दिखा रहा है।श्रेय: हान एट अल.

एलजी एआई रिसर्च के शोधकर्ताओं ने हाल ही में एक नया इंटरैक्टिव सिस्टम विकसित किया है जो किसी भी उपयोगकर्ता को अपने विचारों को आसानी से संगीत में अनुवाद करने की अनुमति देता है।यह प्रणाली, एक पेपर में उल्लिखित हैप्रकाशितपरarXivप्रीप्रिंट सर्वर, एक सहज उपयोगकर्ता इंटरफ़ेस के साथ संगीत डेटासेट पर प्रशिक्षित एक डिकोडर-केवल ऑटोरेग्रेसिव ट्रांसफार्मर को जोड़ता है।

संगजुन हान, जिवोन हैम और उनके सहयोगियों ने अपने पेपर में लिखा, "हम प्रतीकात्मक संगीत पीढ़ी का प्रदर्शन पेश करते हैं, जो कथा के केंद्रीय विषय के रूप में काम करने वाले लघु संगीत रूपांकनों को प्रदान करने पर ध्यान केंद्रित करते हैं।""पीढ़ी के लिए, हम एक ऑटोरेग्रेसिव मॉडल अपनाते हैं जो संगीत मेटाडेटा को इनपुट के रूप में लेता है और मल्टीट्रैक MIDI अनुक्रमों के 4 बार उत्पन्न करता है।"

टीम के प्रतीकात्मक संगीत निर्माण प्रणाली को रेखांकित करने वाले ट्रांसफार्मर-आधारित मॉडल को दो संगीत डेटासेट पर प्रशिक्षित किया गया थालाख MIDI डेटासेटऔर यहमेटामिडी डेटासेट.सामूहिक रूप से, इन डेटासेट में 400,000 से अधिक MIDI (संगीत के उपकरणडिजिटल इंटरफ़ेस) फ़ाइलें, जो डेटा फ़ाइलें हैं जिनमें संगीत ट्रैक के बारे में विभिन्न जानकारी होती है (उदाहरण के लिए, बजाए गए नोट्स, नोट्स की अवधि, जिस गति से उन्हें बजाया जाता है)।

अपने मॉडल को प्रशिक्षित करने के लिए, टीम ने प्रत्येक MIDI फ़ाइल को एक संगीत कार्यक्रम प्रतिनिधित्व (REMI) फ़ाइल में परिवर्तित कर दिया।यह विशिष्ट प्रारूप MIDI डेटा को विभिन्न संगीत विशेषताओं (जैसे, पिच और वेग) का प्रतिनिधित्व करने वाले टोकन में एन्कोड करता है।REMI फ़ाइलें संगीत की गतिशीलता को उन तरीकों से कैप्चर करती हैं जो संगीत निर्माण के लिए AI मॉडल के प्रशिक्षण के लिए विशेष रूप से अनुकूल हैं।

शोधकर्ताओं ने लिखा, "प्रशिक्षण के दौरान, हम लचीले नियंत्रण की गारंटी के लिए संगीत मेटाडेटा से यादृच्छिक रूप से टोकन छोड़ते हैं।""यह उपयोगकर्ताओं को जेनरेटिव प्रदर्शन को बनाए रखते हुए इनपुट प्रकारों का चयन करने की स्वतंत्रता प्रदान करता है, जिससे अधिक लचीलेपन को सक्षम किया जा सकेसंगीत रचना।"

प्रतीकात्मक संगीत निर्माण के लिए अपने ट्रांसफार्मर-आधारित मॉडल को विकसित करने के अलावा, हान, हैम और उनके सहयोगियों ने एक सरल इंटरफ़ेस बनाया जो इसे विशेषज्ञ और गैर-विशेषज्ञ दोनों उपयोगकर्ताओं के लिए सुलभ बना देगा।इस इंटरफ़ेस में वर्तमान में एक साइडबार और एक केंद्रीय इंटरैक्टिव पैनल शामिल है।

साइडबार में, उपयोगकर्ता उस संगीत के पहलुओं को निर्दिष्ट कर सकते हैं जो वे चाहते हैं कि मॉडल उत्पन्न करे, जैसे कि कौन से वाद्ययंत्र बजने चाहिए और गाने की गति।मॉडल द्वारा एक गीत तैयार करने के बाद, वे केंद्रीय पैनल में ट्रैक को संपादित कर सकते हैं, उदाहरण के लिए, उपकरणों को हटाकर/जोड़कर या उस समय को समायोजित करके जिस पर वे संगीत बजाना शुरू करेंगे।

हान, हैम और उनके सहयोगियों ने लिखा, "हम मॉडल क्षमता, संगीत निष्ठा, विविधता और नियंत्रणीयता के संदर्भ में प्रयोगों के माध्यम से रणनीति की प्रभावशीलता को मान्य करते हैं।""इसके अतिरिक्त, हम मॉडल को बढ़ाते हैं और एक व्यक्तिपरक परीक्षण के माध्यम से अन्य संगीत पीढ़ी के मॉडल के साथ इसकी तुलना करते हैं। हमारे परिणाम नियंत्रण और संगीत गुणवत्ता दोनों में इसकी श्रेष्ठता का संकेत देते हैं।"

शोधकर्ताओं ने पाया कि उनके मॉडल ने काफी अच्छा प्रदर्शन किया और उपयोगकर्ता के विनिर्देशों के आधार पर संगीत के अधिकतम 4 बार उत्पन्न कर सकते हैं।अपने भविष्य के अध्ययनों में, वे अपने मॉडल द्वारा बनाए जा सकने वाले संगीत ट्रैक की अवधि बढ़ाकर, उपयोगकर्ताओं द्वारा दी जा सकने वाली विशिष्टताओं को विस्तृत करके और सिस्टम के उपयोगकर्ता इंटरफ़ेस को और बढ़ाकर अपने सिस्टम को और बेहतर बना सकते हैं।

शोधकर्ताओं ने लिखा, "वैश्विक नियंत्रण के साथ संगीत के 4 बार उत्पन्न करने के लिए प्रशिक्षित हमारे मॉडल में संगीत की लंबाई बढ़ाने और बार-स्तरीय स्थानीय तत्वों को नियंत्रित करने की सीमाएं हैं।""हालांकि, हमारे प्रयास उच्च गुणवत्ता वाले संगीत विषयों को उत्पन्न करने में महत्व रखते हैं जिन्हें लूप के रूप में उपयोग किया जा सकता है।"

अधिक जानकारी:संगजुन हान एट अल, म्यूजिकल मेटाडेटा के माध्यम से प्रतीकात्मक संगीत निर्माण में लचीला नियंत्रण,arXiv(2024)।डीओआई: 10.48550/arxiv.2409.07467

जर्नल जानकारी: arXiv

उद्धरण:संगीत मेटाडेटा का उपयोग करके प्रतीकात्मक संगीत निर्माण के लिए एक नया मॉडल (2024, 1 अक्टूबर)1 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-music-generation-musical-metadata.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।

अन्य भाषा संस्करण भी देखें: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español