گوگل هوش مصنوعی ایجاد کرد که می تواند موسیقی را از توضیحات متن تولید کند، اما آن را منتشر نمی کند
به گزارش اپ خونه، یک سیستم هوش مصنوعی جدید و چشمگیر از گوگل می تواند موسیقی را در هر ژانری با توضیحات متنی تولید کند. اما این شرکت از ترس خطرات، هیچ برنامه فوری برای انتشار آن ندارد.
این سیستم گوگل که MusicLM نام دارد ، مطمئناً اولین سیستم هوش مصنوعی مولد برای آهنگ نیست. تلاشهای دیگری نیز انجام شده است، از جمله Riffusion ، هوش مصنوعی که با تجسم آن موسیقی میسازد، و همچنین Dance Diffusion ، AudioML خود گوگل و Jukebox OpenAI .
اما به دلیل محدودیتهای فنی و دادههای آموزشی محدود، هیچکدام نتوانستهاند آهنگهایی را بهویژه از نظر آهنگسازی پیچیده یا با وفاداری بالا تولید کنند.
به تفصیل در یک مقاله آکادمیک ، MusicLM بر روی مجموعه داده ای از ۲۸۰۰۰۰ ساعت موسیقی آموزش دید تا یاد بگیرد که آهنگ های منسجمی برای توصیف – به قول سازندگان – پیچیدگی قابل توجه مانند “آهنگ جاز افسون کننده با تک نوازی ساکسیفون به یاد ماندنی” و خواننده انفرادی یا «تکنوی دهه ۹۰ برلین با باس کم و ضربه قوی»پخش کند.
با توجه به اینکه نوازنده یا نوازنده ای در این حلقه وجود ندارد، اغراق کردن چقدر خوب نمونه ها سخت است. MusicLM حتی زمانی که توضیحاتی تا حدودی طولانی و پر پیچ و خم داده میشود، میتواند تفاوتهای ظریفی مانند ریفهای ساز، ملودیها و حالات را به تصویر بکشد.
قابلیت های MusicLM فراتر از تولید کلیپ های کوتاه از آهنگ ها است. محققان گوگل نشان میدهند که این سیستم میتواند بر روی ملودیهای موجود، چه زمزمهشده، آواز، سوت یا نواختن یک ساز، ساخته شود.
علاوه بر این، MusicLM میتواند چندین توصیف را به ترتیب می نویسد (مثلاً «زمان برای مراقبت»، «زمان برای بیدار شدن»، «زمان برای دویدن»، و نوعی «داستان» یا روایت ملودیک ایجاد کند. تا چند دقیقه طول میکشد – کاملاً برای موسیقی متن فیلم مناسب است.
این همش نیست. MusicLM همچنین می تواند از طریق ترکیبی از تصویر و عنوان آموزش داده شود، یا صدایی تولید کند که توسط یک نوع خاص از ساز در یک ژانر خاص “نواخته می شود.
حتی سطح تجربه “موسیقیدان” هوش مصنوعی را می توان تنظیم کرد و سیستم می تواند موسیقی الهام گرفته از مکان ها، دوره ها یا الزامات ایجاد کند (مثلاً موسیقی انگیزشی برای تمرین).
اما MusicLM مطمئناً بی عیب و نقص نیست – در حقیقت دور از آن است. برخی از نمونه ها دارای کیفیت تحریف شده ای هستند که یک عارضه جانبی اجتناب ناپذیر فرآیند آموزش است.
در حالی که MusicLM از نظر فنی می تواند وکال، از جمله هارمونی های کرال را تولید کند، آنها چیزهای زیادی را برای دلخواه باقی می گذارند.
بیشتر “اشعار” از انگلیسی به سختی تا عبوس خالص است که توسط صداهای ترکیب شده ای که شبیه ادغام چندین هنرمند به نظر می رسد خوانده می شود.
به تازگی گوگل مقاله ای در مورد یک مدل هوش مصنوعی جدید به نام MusicLM منتشر کرد.
این مدل موسیقی ۲۴ کیلوهرتز را از زیرنویسهای غنی مانند “تلفیقی از موسیقی رگیتون و رقص الکترونیک، با صدایی فضایی و ماورایی. تجربه گم شدن در فضا را القا میکند.”
— Product Hunt 😸(@ProductHunt) 27 ژانویه ۲۰۲۳
با این حال، محققان گوگل به چالشهای اخلاقی زیادی که سیستمی مانند MusicLM ایجاد میکند، اشاره میکنند، از جمله تمایل به گنجاندن مطالب دارای حق چاپ از دادههای آموزشی در آهنگهای تولید شده.
در طی یک آزمایش، آنها دریافتند که حدود ۱٪ از موسیقی تولید شده توسط سیستم به طور مستقیم از آهنگ هایی که روی آنها آموزش داده شده است تکرار می شود – آستانه ای که ظاهراً به اندازه کافی بالاست که آنها را از انتشار MusicLM در وضعیت فعلی آن منصرف کند.
نویسندگان همکار در مقاله نوشتند: “ما خطر سوء استفاده احتمالی از محتوای خلاقانه مرتبط با مورد استفاده را تایید می کنیم. ما قویاً بر نیاز به کار بیشتر در آینده برای مقابله با این خطرات مرتبط با تولید موسیقی تأکید میکنیم.”
با فرض اینکه MusicLM یا سیستمی مانند آن روزی در دسترس قرار گیرد، به نظر میرسد که مسائل حقوقی عمده مطرح شود – حتی اگر سیستمها بهجای جایگزین کردن آنها به عنوان ابزاری برای کمک به هنرمندان قرار گیرند.
آنها در حال حاضر دارای سیستم های هوش مصنوعی ساده تر هستند. در سال ۲۰۲۰، شرکت ضبط Jay-Z به دلیل استفاده از هوش مصنوعی برای ایجاد کاور آهنگ هایی مانند “We Didn’t Start the Fire” اثر بیلی جوئل، علیه یک کانال یوتیوب، Vocal Synthesis، اعتصاب حق نسخه برداری به ثبت رساند.
پس از حذف اولیه ویدیوها، یوتیوب آنها را بازگرداند و دریافت که درخواستهای حذف «ناقص» هستند. اما موسیقی دیپ فیک هنوز در زمینه قانونی مبهم قرار دارد.
مقالهای نوشته شده توسط اریک سانری، که اکنون کارآموز قانونی در انجمن ناشران موسیقی است، استدلال میکند که تولیدکنندگان موسیقی هوش مصنوعی مانند MusicLM با ایجاد «نوارهای صوتی منسجم از آثاری که در آموزش دریافت میکنند، حق نسخهبرداری موسیقی را نقض میکنند و در نتیجه بازتولید قانون حق نسخهبرداری ایالات متحده را نقض میکنند .
پس از انتشار Jukebox، منتقدان همچنین این سوال را مطرح کردند که آیا آموزش مدلهای هوش مصنوعی بر روی مواد موسیقی دارای حق چاپ، استفاده منصفانه است یا خیر.
نگرانیهای مشابهی درباره دادههای آموزشی مورد استفاده در سیستمهای هوش مصنوعی تولیدکننده تصویر، کد و متن، که اغلب بدون اطلاع سازندگان از وب حذف میشوند، مطرح شده است.
از دیدگاه کاربر، Andy Baio از Waxy حدس میزند که موسیقی تولید شده توسط یک سیستم هوش مصنوعی به عنوان یک اثر مشتق در نظر گرفته میشود، در این صورت تنها عناصر اصلی توسط کپی رایت محافظت میشوند.
البته، معلوم نیست چه چیزی در چنین موسیقی هایی «اصیل» در نظر گرفته می شود. استفاده تجاری از این موسیقی برای ورود به آب های ناشناخته است. اگر از موسیقی تولید شده برای مقاصدی که تحت استفاده منصفانه محافظت می شوند، مانند تقلید و تفسیر استفاده شود، موضوع ساده تر است، اما بایو انتظار دارد که دادگاه ها باید قضاوت مورد به پایه را انجام دهند.
ممکن است مدت زیادی طول نکشد که تا حدودی شفافیت در این مورد وجود داشته باشد. چندین پرونده قضایی که از طریق دادگاه ها راه می یابند احتمالاً بر هوش مصنوعی تولید کننده موسیقی تأثیر خواهد داشت، از جمله یکی مربوط به حقوق هنرمندانی است که کارشان برای آموزش سیستم های هوش مصنوعی بدون اطلاع یا رضایت آنها استفاده می شود. اما زمان مشخص خواهد کرد.