گوگل هوش مصنوعی ایجاد کرد که می تواند موسیقی را از توضیحات متن تولید کند، اما آن را منتشر نمی کند

بهمن 8, 1401 7۰51

به گزارش اپ خونه، یک سیستم هوش مصنوعی جدید و چشمگیر از گوگل می تواند موسیقی را در هر ژانری با توضیحات متنی تولید کند. اما این شرکت از ترس خطرات، هیچ برنامه فوری برای انتشار آن ندارد.

این سیستم گوگل که MusicLM نام دارد ، مطمئناً اولین سیستم هوش مصنوعی مولد برای آهنگ نیست. تلاش‌های دیگری نیز انجام شده است، از جمله Riffusion ، هوش مصنوعی که با تجسم آن موسیقی می‌سازد، و همچنین Dance Diffusion ، AudioML خود گوگل و Jukebox OpenAI .

اما به دلیل محدودیت‌های فنی و داده‌های آموزشی محدود، هیچ‌کدام نتوانسته‌اند آهنگ‌هایی را به‌ویژه از نظر آهنگسازی پیچیده یا با وفاداری بالا تولید کنند.

به تفصیل در یک مقاله آکادمیک ، MusicLM بر روی مجموعه داده ای از ۲۸۰۰۰۰ ساعت موسیقی آموزش دید تا یاد بگیرد که آهنگ های منسجمی برای توصیف – به قول سازندگان – پیچیدگی قابل توجه مانند “آهنگ جاز افسون کننده با تک نوازی ساکسیفون به یاد ماندنی” و خواننده انفرادی یا «تکنوی دهه ۹۰ برلین با باس کم و ضربه قوی»پخش کند.

با توجه به اینکه نوازنده یا نوازنده ای در این حلقه وجود ندارد، اغراق کردن چقدر خوب نمونه ها سخت است. MusicLM حتی زمانی که توضیحاتی تا حدودی طولانی و پر پیچ و خم داده می‌شود، می‌تواند تفاوت‌های ظریفی مانند ریف‌های ساز، ملودی‌ها و حالات را به تصویر بکشد.

قابلیت های MusicLM فراتر از تولید کلیپ های کوتاه از آهنگ ها است. محققان گوگل نشان می‌دهند که این سیستم می‌تواند بر روی ملودی‌های موجود، چه زمزمه‌شده، آواز، سوت یا نواختن یک ساز، ساخته شود.

علاوه بر این، MusicLM می‌تواند چندین توصیف را به ترتیب می نویسد (مثلاً «زمان برای مراقبت»، «زمان برای بیدار شدن»، «زمان برای دویدن»، و نوعی «داستان» یا روایت ملودیک ایجاد کند. تا چند دقیقه طول می‌کشد – کاملاً برای موسیقی متن فیلم مناسب است.

این همش نیست. MusicLM همچنین می تواند از طریق ترکیبی از تصویر و عنوان آموزش داده شود، یا صدایی تولید کند که توسط یک نوع خاص از ساز در یک ژانر خاص “نواخته می شود.

حتی سطح تجربه “موسیقیدان” هوش مصنوعی را می توان تنظیم کرد و سیستم می تواند موسیقی الهام گرفته از مکان ها، دوره ها یا الزامات ایجاد کند (مثلاً موسیقی انگیزشی برای تمرین).

اما MusicLM مطمئناً بی عیب و نقص نیست – در حقیقت دور از آن است. برخی از نمونه ها دارای کیفیت تحریف شده ای هستند که یک عارضه جانبی اجتناب ناپذیر فرآیند آموزش است.

در حالی که MusicLM از نظر فنی می تواند وکال، از جمله هارمونی های کرال را تولید کند، آنها چیزهای زیادی را برای دلخواه باقی می گذارند.

بیشتر “اشعار” از انگلیسی به سختی تا عبوس خالص است که توسط صداهای ترکیب شده ای که شبیه ادغام چندین هنرمند به نظر می رسد خوانده می شود.

به تازگی گوگل مقاله ای در مورد یک مدل هوش مصنوعی جدید به نام MusicLM منتشر کرد.

این مدل موسیقی ۲۴ کیلوهرتز را از زیرنویس‌های غنی مانند “تلفیقی از موسیقی رگیتون و رقص الکترونیک، با صدایی فضایی و ماورایی. تجربه گم شدن در فضا را القا می‌کند.”

— Product Hunt 😸(@ProductHunt) 27 ژانویه ۲۰۲۳

با این حال، محققان گوگل به چالش‌های اخلاقی زیادی که سیستمی مانند MusicLM ایجاد می‌کند، اشاره می‌کنند، از جمله تمایل به گنجاندن مطالب دارای حق چاپ از داده‌های آموزشی در آهنگ‌های تولید شده.

در طی یک آزمایش، آنها دریافتند که حدود ۱٪ از موسیقی تولید شده توسط سیستم به طور مستقیم از آهنگ هایی که روی آنها آموزش داده شده است تکرار می شود – آستانه ای که ظاهراً به اندازه کافی بالاست که آنها را از انتشار MusicLM در وضعیت فعلی آن منصرف کند.

نویسندگان همکار در مقاله نوشتند: “ما خطر سوء استفاده احتمالی از محتوای خلاقانه مرتبط با مورد استفاده را تایید می کنیم. ما قویاً بر نیاز به کار بیشتر در آینده برای مقابله با این خطرات مرتبط با تولید موسیقی تأکید می‌کنیم.”

با فرض اینکه MusicLM یا سیستمی مانند آن روزی در دسترس قرار گیرد، به نظر می‌رسد که مسائل حقوقی عمده مطرح شود – حتی اگر سیستم‌ها به‌جای جایگزین کردن آنها به عنوان ابزاری برای کمک به هنرمندان قرار گیرند.

آنها در حال حاضر دارای سیستم های هوش مصنوعی ساده تر هستند. در سال ۲۰۲۰، شرکت ضبط Jay-Z به دلیل استفاده از هوش مصنوعی برای ایجاد کاور آهنگ هایی مانند “We Didn’t Start the Fire” اثر بیلی جوئل، علیه یک کانال یوتیوب، Vocal Synthesis، اعتصاب حق نسخه برداری به ثبت رساند.

پس از حذف اولیه ویدیوها، یوتیوب آنها را بازگرداند و دریافت که درخواست‌های حذف «ناقص» هستند. اما موسیقی دیپ فیک هنوز در زمینه قانونی مبهم قرار دارد.

مقاله‌ای نوشته شده توسط اریک سانری، که اکنون کارآموز قانونی در انجمن ناشران موسیقی است، استدلال می‌کند که تولیدکنندگان موسیقی هوش مصنوعی مانند MusicLM با ایجاد «نوارهای صوتی منسجم از آثاری که در آموزش دریافت می‌کنند، حق نسخه‌برداری موسیقی را نقض می‌کنند و در نتیجه بازتولید قانون حق نسخه‌برداری ایالات متحده را نقض می‌کنند .

پس از انتشار Jukebox، منتقدان همچنین این سوال را مطرح کردند که آیا آموزش مدل‌های هوش مصنوعی بر روی مواد موسیقی دارای حق چاپ، استفاده منصفانه است یا خیر.

نگرانی‌های مشابهی درباره داده‌های آموزشی مورد استفاده در سیستم‌های هوش مصنوعی تولیدکننده تصویر، کد و متن، که اغلب بدون اطلاع سازندگان از وب حذف می‌شوند، مطرح شده است.

از دیدگاه کاربر، Andy Baio از Waxy حدس می‌زند که موسیقی تولید شده توسط یک سیستم هوش مصنوعی به عنوان یک اثر مشتق در نظر گرفته می‌شود، در این صورت تنها عناصر اصلی توسط کپی رایت محافظت می‌شوند.

البته، معلوم نیست چه چیزی در چنین موسیقی هایی «اصیل» در نظر گرفته می شود. استفاده تجاری از این موسیقی برای ورود به آب های ناشناخته است. اگر از موسیقی تولید شده برای مقاصدی که تحت استفاده منصفانه محافظت می شوند، مانند تقلید و تفسیر استفاده شود، موضوع ساده تر است، اما بایو انتظار دارد که دادگاه ها باید قضاوت مورد به پایه را انجام دهند.

ممکن است مدت زیادی طول نکشد که تا حدودی شفافیت در این مورد وجود داشته باشد. چندین پرونده قضایی که از طریق دادگاه ها راه می یابند احتمالاً بر هوش مصنوعی تولید کننده موسیقی تأثیر خواهد داشت، از جمله یکی مربوط به حقوق هنرمندانی است که کارشان برای آموزش سیستم های هوش مصنوعی بدون اطلاع یا رضایت آنها استفاده می شود. اما زمان مشخص خواهد کرد.