A new model for symbolic music generation using musical metadata
टीम के सिस्टम डेमो का स्क्रीनशॉट जो इसका यूजर इंटरफ़ेस दिखा रहा है।श्रेय: हान एट अल.

उदाहरण के लिए, आर्टिफिशियल इंटेलिजेंस (एआई) ने संगीत उद्योग के लिए नए दिलचस्प अवसर खोले हैं, ऐसे उपकरणों के विकास को सक्षम किया है जो स्वचालित रूप से संगीत रचनाएं या विशिष्ट वाद्य ट्रैक उत्पन्न कर सकते हैं।फिर भी अधिकांश मौजूदा उपकरण गैर-विशेषज्ञ उपयोगकर्ताओं के विपरीत, संगीतकारों, संगीतकारों और संगीत निर्माताओं द्वारा उपयोग किए जाने के लिए डिज़ाइन किए गए हैं।

एलजी एआई रिसर्च के शोधकर्ताओं ने हाल ही में एक नया इंटरैक्टिव सिस्टम विकसित किया है जो किसी भी उपयोगकर्ता को अपने विचारों को आसानी से संगीत में अनुवाद करने की अनुमति देता है।यह प्रणाली, एक पेपर में उल्लिखित हैप्रकाशितपरarXivप्रीप्रिंट सर्वर, एक सहज उपयोगकर्ता इंटरफ़ेस के साथ संगीत डेटासेट पर प्रशिक्षित एक डिकोडर-केवल ऑटोरेग्रेसिव ट्रांसफार्मर को जोड़ता है।

संगजुन हान, जिवोन हैम और उनके सहयोगियों ने अपने पेपर में लिखा, "हम प्रतीकात्मक संगीत पीढ़ी का प्रदर्शन पेश करते हैं, जो कथा के केंद्रीय विषय के रूप में काम करने वाले लघु संगीत रूपांकनों को प्रदान करने पर ध्यान केंद्रित करते हैं।""पीढ़ी के लिए, हम एक ऑटोरेग्रेसिव मॉडल अपनाते हैं जो संगीत मेटाडेटा को इनपुट के रूप में लेता है और मल्टीट्रैक MIDI अनुक्रमों के 4 बार उत्पन्न करता है।"

टीम के प्रतीकात्मक संगीत निर्माण प्रणाली को रेखांकित करने वाले ट्रांसफार्मर-आधारित मॉडल को दो संगीत डेटासेट पर प्रशिक्षित किया गया थालाख MIDI डेटासेटऔर यहमेटामिडी डेटासेट.सामूहिक रूप से, इन डेटासेट में 400,000 से अधिक MIDI (डिजिटल इंटरफ़ेस) फ़ाइलें, जो डेटा फ़ाइलें हैं जिनमें संगीत ट्रैक के बारे में विभिन्न जानकारी होती है (उदाहरण के लिए, बजाए गए नोट्स, नोट्स की अवधि, जिस गति से उन्हें बजाया जाता है)।

अपने मॉडल को प्रशिक्षित करने के लिए, टीम ने प्रत्येक MIDI फ़ाइल को एक संगीत कार्यक्रम प्रतिनिधित्व (REMI) फ़ाइल में परिवर्तित कर दिया।यह विशिष्ट प्रारूप MIDI डेटा को विभिन्न संगीत विशेषताओं (जैसे, पिच और वेग) का प्रतिनिधित्व करने वाले टोकन में एन्कोड करता है।REMI फ़ाइलें संगीत की गतिशीलता को उन तरीकों से कैप्चर करती हैं जो संगीत निर्माण के लिए AI मॉडल के प्रशिक्षण के लिए विशेष रूप से अनुकूल हैं।

शोधकर्ताओं ने लिखा, "प्रशिक्षण के दौरान, हम लचीले नियंत्रण की गारंटी के लिए संगीत मेटाडेटा से यादृच्छिक रूप से टोकन छोड़ते हैं।""यह उपयोगकर्ताओं को जेनरेटिव प्रदर्शन को बनाए रखते हुए इनपुट प्रकारों का चयन करने की स्वतंत्रता प्रदान करता है, जिससे अधिक लचीलेपन को सक्षम किया जा सके।"

प्रतीकात्मक संगीत निर्माण के लिए अपने ट्रांसफार्मर-आधारित मॉडल को विकसित करने के अलावा, हान, हैम और उनके सहयोगियों ने एक सरल इंटरफ़ेस बनाया जो इसे विशेषज्ञ और गैर-विशेषज्ञ दोनों उपयोगकर्ताओं के लिए सुलभ बना देगा।इस इंटरफ़ेस में वर्तमान में एक साइडबार और एक केंद्रीय इंटरैक्टिव पैनल शामिल है।

साइडबार में, उपयोगकर्ता उस संगीत के पहलुओं को निर्दिष्ट कर सकते हैं जो वे चाहते हैं कि मॉडल उत्पन्न करे, जैसे कि कौन से वाद्ययंत्र बजने चाहिए और गाने की गति।मॉडल द्वारा एक गीत तैयार करने के बाद, वे केंद्रीय पैनल में ट्रैक को संपादित कर सकते हैं, उदाहरण के लिए, उपकरणों को हटाकर/जोड़कर या उस समय को समायोजित करके जिस पर वे संगीत बजाना शुरू करेंगे।

हान, हैम और उनके सहयोगियों ने लिखा, "हम मॉडल क्षमता, संगीत निष्ठा, विविधता और नियंत्रणीयता के संदर्भ में प्रयोगों के माध्यम से रणनीति की प्रभावशीलता को मान्य करते हैं।""इसके अतिरिक्त, हम मॉडल को बढ़ाते हैं और एक व्यक्तिपरक परीक्षण के माध्यम से अन्य संगीत पीढ़ी के मॉडल के साथ इसकी तुलना करते हैं। हमारे परिणाम नियंत्रण और संगीत गुणवत्ता दोनों में इसकी श्रेष्ठता का संकेत देते हैं।"

शोधकर्ताओं ने पाया कि उनके मॉडल ने काफी अच्छा प्रदर्शन किया और उपयोगकर्ता के विनिर्देशों के आधार पर संगीत के अधिकतम 4 बार उत्पन्न कर सकते हैं।अपने भविष्य के अध्ययनों में, वे अपने मॉडल द्वारा बनाए जा सकने वाले संगीत ट्रैक की अवधि बढ़ाकर, उपयोगकर्ताओं द्वारा दी जा सकने वाली विशिष्टताओं को विस्तृत करके और सिस्टम के उपयोगकर्ता इंटरफ़ेस को और बढ़ाकर अपने सिस्टम को और बेहतर बना सकते हैं।

शोधकर्ताओं ने लिखा, "वैश्विक नियंत्रण के साथ संगीत के 4 बार उत्पन्न करने के लिए प्रशिक्षित हमारे मॉडल में संगीत की लंबाई बढ़ाने और बार-स्तरीय स्थानीय तत्वों को नियंत्रित करने की सीमाएं हैं।""हालांकि, हमारे प्रयास उच्च गुणवत्ता वाले संगीत विषयों को उत्पन्न करने में महत्व रखते हैं जिन्हें लूप के रूप में उपयोग किया जा सकता है।"

अधिक जानकारी:संगजुन हान एट अल, म्यूजिकल मेटाडेटा के माध्यम से प्रतीकात्मक संगीत निर्माण में लचीला नियंत्रण,arXiv(2024)।डीओआई: 10.48550/arxiv.2409.07467

जर्नल जानकारी: arXiv

© 2024 साइंस एक्स नेटवर्क

उद्धरण:संगीत मेटाडेटा का उपयोग करके प्रतीकात्मक संगीत निर्माण के लिए एक नया मॉडल (2024, 1 अक्टूबर)1 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-music-generation-musical-metadata.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।