QuickVid از هوش مصنوعی برای تولید ویدیوهای کوتاه و همراه با صدا استفاده می کند

دی 10, 1401 9۰58

به گزارش اپ خونه، این نمایشی است از آنچه با هوش مصنوعی امروزی امکان پذیر است.
هوش مصنوعی قدرتمند برای ویدیوها می آید. وب سایت جدید QuickVid چندین سیستم هوش مصنوعی را در یک ابزار واحد برای ایجاد خودکار ویدیوهای کوتاه یوتیوب، اینستاگرام، تیک تاک و اسنپ چت ترکیب می کند.

با در نظر گرفتن یک کلمه، QuickVid یک ویدیوی پس‌زمینه را از یک کتابخانه انتخاب می‌کند، یک اسکریپت و کلمات کلیدی می‌نویسد، تصاویر تولید شده توسط DALL-E 2 را پوشش می‌دهد و یک صدای مصنوعی و موسیقی پس‌زمینه را از کتابخانه موسیقی رایگان YouTube اضافه می‌کند.

خالق QuickVid، دانیل حبیب، می گوید که او در حال ساخت این سرویس است تا به سازندگان کمک کند تا تقاضای “همیشه رو به رشد” طرفداران خود را برآورده کنند.

حبیب در مصاحبه ای با TechCrunch گفت: «QuickVid با ارائه ابزارهایی به سازندگان برای تولید سریع و آسان محتوای با کیفیت، به سازندگان کمک می کند تا خروجی محتوای خود را افزایش دهند و خطر فرسودگی شغلی را کاهش دهند.»

“هدف ما این است که با استفاده از پیشرفت‌های هوش مصنوعی، به سازنده مورد علاقه‌تان قدرت دهیم تا با خواسته‌های مخاطبان خود مطابقت داشته باشد.”

اما بسته به نحوه استفاده از آنها، ابزارهایی مانند QuickVid تهدید می کنند که کانال های شلوغ را با محتوای هرزنامه و تکراری پر می کنند.

آن‌ها همچنین با واکنش شدید سازندگانی مواجه می‌شوند که ترجیح می‌دهند از این ابزارها استفاده نکنند، چه به دلیل هزینه (۱۰ دلار در ماه) یا اصولاً ممکن است مجبور باشند با مجموعه‌ای از ویدیوهای جدید تولید شده توسط هوش مصنوعی رقابت کنند.

رفتن به دنبال ویدیو

QuickVid، که حبیب، یک توسعه‌دهنده خودآموخته که قبلاً در متا در زیرساخت‌های ویدئویی و زنده فیس‌بوک کار می‌کرد، در عرض چند هفته ساخته شد، در ۲۷ دسامبر راه‌اندازی شد.

در حال حاضر، استخوان‌های نسبتاً خالی از آن هستند – حبیب می‌گوید که گزینه‌های شخصی‌سازی بیشتری در دسترس خواهند بود. ژانویه — اما QuickVid می‌تواند اجزایی را که یک ویدیوی معمولی اطلاعاتی YouTube Short یا TikTok را تشکیل می‌دهند، از جمله زیرنویس‌ها و حتی آواتارها، با هم ترکیب کند.

استفاده از آن آسان است. ابتدا، کاربر درخواستی را وارد می‌کند که موضوع ویدیویی را که می‌خواهد ایجاد کند، توضیح می‌دهد. QuickVid از فرمان برای تولید یک اسکریپت استفاده می کند و از قدرت متن تولیدی GPT-3 استفاده می کند.

از میان کلمات کلیدی استخراج شده از اسکریپت یا به صورت دستی، QuickVid یک ویدیوی پس‌زمینه را از کتابخانه رسانه‌ای بدون حق امتیاز Pexels انتخاب می‌کند و با استفاده از DALL-E 2 تصاویر همپوشانی ایجاد می‌کند.

سپس از طریق API متن به گفتار Google Cloud یک صدا را تولید می‌کند. حبیب می گوید که کاربران به زودی می توانند صدای خود را شبیه سازی کنند – قبل از اینکه همه این عناصر را در یک ویدیو ترکیب کنند.

QuickVid مطمئناً مرزهای آنچه را که با هوش مصنوعی مولد ممکن است تغییر نمی دهد. متا و گوگل هر دو سیستم‌های هوش مصنوعی را به نمایش گذاشته‌اند که می‌توانند کلیپ‌های کاملاً اصلی را با یک پیام متنی تولید کنند.

اما QuickVid هوش مصنوعی موجود را ادغام می‌کند تا از قالب‌های تکراری و قالب‌بندی‌شده ویدیوهای کوتاه B-roll-heavy استفاده کند و مشکل تولید فیلم را برطرف کند.

حبیب گفت: “سازندگان موفق نوار بسیار باکیفیتی دارند و علاقه‌ای به انتشار محتوایی ندارند که احساس می‌کنند در صدای خودشان نیست. این مورد استفاده ای است که ما روی آن تمرکز کرده ایم.”

ظاهراً چنین است، از نظر کیفیت، ویدیوهای QuickVid عموماً ترکیبی هستند. ویدیوهای پس‌زمینه کمی تصادفی هستند یا فقط به صورت مماس با موضوع مرتبط هستند، که با توجه به اینکه QuickVids در حال حاضر محدود به کاتالوگ Pexels است، تعجب آور نیست.

در همین حال، تصاویر تولید شده توسط DALL-E 2، محدودیت‌های فناوری متن به تصویر امروزی را نشان می‌دهند، مانند متن آشفته و نسبت‌های غیرفعال.

حبیب در پاسخ به بازخورد گفت که QuickVid “روزانه در حال آزمایش و سرهم بندی است.”

مسائل کپی رایت

به گفته حبیب، کاربران QuickVid حق استفاده تجاری از محتوایی که ایجاد می کنند را حفظ می کنند و اجازه کسب درآمد از آن در پلتفرم هایی مانند یوتیوب را دارند. اما وضعیت کپی رایت در مورد محتوای تولید شده توسط هوش مصنوعی حداقل در حال حاضر مبهم است .

اداره ثبت اختراع و علائم تجاری ایالات متحده (USPTO) اخیراً اقدام به لغو حمایت از حق نسخه برداری برای یک کمیک تولید شده توسط هوش مصنوعی کرده است، به عنوان مثال، گفت که آثار دارای حق چاپ نیاز به تألیف انسانی دارند.

وقتی از حبیب پرسیده شد که چگونه تصمیم USPTO ممکن است بر روی QuickVid تأثیر بگذارد، گفت که او معتقد است که این تصمیم فقط به «قابلیت ثبت اختراع» محصولات تولید شده توسط هوش مصنوعی مربوط می شود و نه حقوق سازندگان برای استفاده و کسب درآمد از محتوای آنها.

او اشاره کرد که سازندگان اغلب حق ثبت اختراع برای ویدیوها را ارسال نمی کنند و معمولاً به اقتصاد سازندگان متمایل می شوند و به سازندگان دیگر اجازه می دهند کلیپ های خود را تغییر دهند تا دسترسی خود را افزایش دهند.

حبیب گفت: «سازندگان به ارائه محتوای با کیفیت بالا در صدای خود اهمیت می دهند که به رشد کانال آنها کمک می کند.»

یک چالش قانونی دیگر در افق ممکن است ادغام QuickVid’s DALL-E 2 را تحت تأثیر قرار دهد – و در نتیجه، توانایی سایت برای ایجاد همپوشانی تصویر را تحت تأثیر قرار دهد.

مایکروسافت، GitHub و OpenAI در یک دادخواست دسته جمعی مورد شکایت قرار گرفته اند که آنها را متهم به نقض قانون کپی رایت با اجازه دادن به Copilot، یک سیستم تولید کننده کد، برای بازگرداندن بخش هایی از کد مجوز بدون ارائه اعتبار می کند. (Copilot توسط OpenAI و GitHub که مایکروسافت مالک آن است توسعه داده شده است.)

این مورد پیامدهایی برای هوش مصنوعی هنری مولد مانند DALL-E 2 دارد که به طور مشابه مشخص شده است که از مجموعه داده هایی که بر روی آنها آموزش دیده اند کپی و جایگذاری می کند (یعنی تصاویر).

حبیب نگران نیست و استدلال می کند که جن مولد هوش مصنوعی از بطری خارج شده است. او با اشاره به سیستم متن‌باز DALL-E 2-like Stable Diffusion گفت: «اگر شکایت دیگری ظاهر شد و OpenAI فردا ناپدید شد، چندین جایگزین وجود دارد که می‌تواند QuickVid را تقویت کند. QuickVid در حال آزمایش Stable Diffusion برای تولید تصاویر آواتار است.»

تعدیل و هرزنامه

جدای از معضلات قانونی، QuickVid ممکن است به زودی با مشکل تعدیل مواجه شود. در حالی که OpenAI فیلترها و تکنیک هایی را برای جلوگیری از آنها پیاده سازی کرده است، هوش مصنوعی مولد دارای مسمومیت شناخته شده و مشکلات صحت واقعی است.

GPT-3 اطلاعات نادرست به ویژه در مورد رویدادهای اخیر منتشر می کند که فراتر از مرزهای پایگاه دانش آن است. و ChatGPT، یک فرزند تنظیم شده GPT-3، نشان داده شده است که از زبان جنسی و نژادپرستانه استفاده می کند.

این نگران کننده است، به ویژه برای افرادی که از QuickVid برای ایجاد ویدیوهای اطلاعاتی استفاده می کنند. به اعتبار QuickVid، پیام‌های آشکارا مشکل‌ساز مانند «نظم جهانی جدید یهودی» و «تئوری توطئه ۱۱ سپتامبر» فیلمنامه‌های سمی به همراه نداشت.

اما برای «تئوری نژاد انتقادی که دانش‌آموزان را تلقین می‌کند»، QuickVid ویدیویی تولید کرد که نشان می‌دهد می‌توان از نظریه نژاد انتقادی برای شستشوی مغزی دانش‌آموزان استفاده کرد.

حبیب می‌گوید که برای انجام بیشتر کارهای نظارتی به فیلترهای OpenAI تکیه می‌کند و تاکید می‌کند که این وظیفه کاربران است که به صورت دستی هر ویدیوی ایجاد شده توسط QuickVid را بررسی کنند تا اطمینان حاصل کنند که «همه چیز در محدوده قانون است».

حبیب گفت: «به عنوان یک قاعده کلی، من معتقدم که مردم باید بتوانند خود را ابراز کنند و هر محتوایی را که می خواهند ایجاد کنند.»

ظاهراً شامل محتوای هرزنامه می شود. حبیب معتقد است که الگوریتم‌های پلتفرم‌های ویدیویی، نه QuickVid، در بهترین موقعیت برای تعیین کیفیت یک ویدیو قرار دارند، و افرادی که محتوای با کیفیت پایین تولید می‌کنند «فقط به اعتبار خود آسیب می‌زنند».

او می‌گوید که آسیب‌های شهرت به طور طبیعی مردم را از ایجاد کمپین‌های اسپم انبوه با QuickVid منصرف می‌کند.

او افزود: «اگر مردم نمی‌خواهند ویدیوی شما را تماشا کنند، در پلتفرم‌هایی مانند یوتیوب توزیع نخواهید شد. تولید محتوای بی کیفیت همچنین باعث می شود مردم به کانال شما با دید منفی نگاه کنند.»

اما نگاه به آژانس‌های تبلیغاتی مانند Fractl که در سال ۲۰۱۹ از یک سیستم هوش مصنوعی به نام Grover برای تولید یک سایت کامل از مواد بازاریابی استفاده کردند، آموزنده است.

در مصاحبه ای با The Verge، کریستین تینسکی، شریک Fractl گفت که او هوش مصنوعی مولد را پیش بینی کرده است که «سونامی عظیمی از محتوای تولید شده توسط رایانه را در هر بخش قابل تصوری امکان پذیر می کند».

در هر صورت، پلتفرم‌های اشتراک‌گذاری ویدیو مانند TikTok و YouTube مجبور به مقابله با تعدیل محتوای تولید شده توسط هوش مصنوعی در مقیاس گسترده نبوده‌اند.

دیپ‌فیک‌ها – ویدیوهای مصنوعی که شبیه افراد موجود را جایگزین می‌کنند – چندین سال پیش با استفاده از ابزارهایی که تولید فیلم‌های عمیق جعلی را آسان‌تر می‌کردند، در پلتفرم‌هایی مانند یوتیوب پر شد.

اما بر خلاف قانع‌کننده‌ترین دیپ‌فیک‌های امروزی، انواع ویدیوهایی که QuickVid ایجاد می‌کند، آشکارا به هیچ وجه توسط هوش مصنوعی تولید نمی‌شوند.

خط‌مشی جستجوی Google در مورد نوشتار تولید شده با هوش مصنوعی ممکن است پیش‌نمایشی از آنچه در دامنه ویدیو قرار دارد باشد.

Google با متن مصنوعی در مورد رتبه‌بندی جستجو، متفاوت از متن نوشته شده توسط انسان رفتار نمی‌کند، اما اقداماتی را در مورد محتوایی انجام می‌دهد که «به منظور دستکاری رتبه‌بندی جستجو و نه کمکی به کاربران است».

این شامل محتوایی است که از صفحات وب مختلف به هم پیوند خورده یا ترکیب شده است که «ارزش کافی اضافه نمی‌کند» و همچنین محتوای تولید شده از طریق فرآیندهای کاملاً خودکار، که هر دو ممکن است برای QuickVid اعمال شوند.

به عبارت دیگر، ویدئوهای تولید شده توسط هوش مصنوعی ممکن است به طور کامل از پلتفرم‌ها منع نشوند، در صورتی که به صورت عمده شروع به کار کنند، بلکه صرفاً به هزینه انجام تجارت تبدیل می‌شوند.

این به احتمال زیاد ترس کارشناسانی را که معتقدند پلتفرم هایی مانند TikTok در حال تبدیل شدن به خانه جدیدی برای ویدیوهای گمراه کننده هستند، برطرف نمی کند، اما – همانطور که حبیب در طول مصاحبه گفت – “هیچ مانعی برای انقلاب مولد هوش مصنوعی وجود ندارد.”