QuickVid از هوش مصنوعی برای تولید ویدیوهای کوتاه و همراه با صدا استفاده می کند
به گزارش اپ خونه، این نمایشی است از آنچه با هوش مصنوعی امروزی امکان پذیر است.
هوش مصنوعی قدرتمند برای ویدیوها می آید. وب سایت جدید QuickVid چندین سیستم هوش مصنوعی را در یک ابزار واحد برای ایجاد خودکار ویدیوهای کوتاه یوتیوب، اینستاگرام، تیک تاک و اسنپ چت ترکیب می کند.
با در نظر گرفتن یک کلمه، QuickVid یک ویدیوی پسزمینه را از یک کتابخانه انتخاب میکند، یک اسکریپت و کلمات کلیدی مینویسد، تصاویر تولید شده توسط DALL-E 2 را پوشش میدهد و یک صدای مصنوعی و موسیقی پسزمینه را از کتابخانه موسیقی رایگان YouTube اضافه میکند.
خالق QuickVid، دانیل حبیب، می گوید که او در حال ساخت این سرویس است تا به سازندگان کمک کند تا تقاضای “همیشه رو به رشد” طرفداران خود را برآورده کنند.
حبیب در مصاحبه ای با TechCrunch گفت: «QuickVid با ارائه ابزارهایی به سازندگان برای تولید سریع و آسان محتوای با کیفیت، به سازندگان کمک می کند تا خروجی محتوای خود را افزایش دهند و خطر فرسودگی شغلی را کاهش دهند.»
“هدف ما این است که با استفاده از پیشرفتهای هوش مصنوعی، به سازنده مورد علاقهتان قدرت دهیم تا با خواستههای مخاطبان خود مطابقت داشته باشد.”
اما بسته به نحوه استفاده از آنها، ابزارهایی مانند QuickVid تهدید می کنند که کانال های شلوغ را با محتوای هرزنامه و تکراری پر می کنند.
آنها همچنین با واکنش شدید سازندگانی مواجه میشوند که ترجیح میدهند از این ابزارها استفاده نکنند، چه به دلیل هزینه (۱۰ دلار در ماه) یا اصولاً ممکن است مجبور باشند با مجموعهای از ویدیوهای جدید تولید شده توسط هوش مصنوعی رقابت کنند.
رفتن به دنبال ویدیو
QuickVid، که حبیب، یک توسعهدهنده خودآموخته که قبلاً در متا در زیرساختهای ویدئویی و زنده فیسبوک کار میکرد، در عرض چند هفته ساخته شد، در ۲۷ دسامبر راهاندازی شد.
در حال حاضر، استخوانهای نسبتاً خالی از آن هستند – حبیب میگوید که گزینههای شخصیسازی بیشتری در دسترس خواهند بود. ژانویه — اما QuickVid میتواند اجزایی را که یک ویدیوی معمولی اطلاعاتی YouTube Short یا TikTok را تشکیل میدهند، از جمله زیرنویسها و حتی آواتارها، با هم ترکیب کند.
استفاده از آن آسان است. ابتدا، کاربر درخواستی را وارد میکند که موضوع ویدیویی را که میخواهد ایجاد کند، توضیح میدهد. QuickVid از فرمان برای تولید یک اسکریپت استفاده می کند و از قدرت متن تولیدی GPT-3 استفاده می کند.
از میان کلمات کلیدی استخراج شده از اسکریپت یا به صورت دستی، QuickVid یک ویدیوی پسزمینه را از کتابخانه رسانهای بدون حق امتیاز Pexels انتخاب میکند و با استفاده از DALL-E 2 تصاویر همپوشانی ایجاد میکند.
سپس از طریق API متن به گفتار Google Cloud یک صدا را تولید میکند. حبیب می گوید که کاربران به زودی می توانند صدای خود را شبیه سازی کنند – قبل از اینکه همه این عناصر را در یک ویدیو ترکیب کنند.
QuickVid مطمئناً مرزهای آنچه را که با هوش مصنوعی مولد ممکن است تغییر نمی دهد. متا و گوگل هر دو سیستمهای هوش مصنوعی را به نمایش گذاشتهاند که میتوانند کلیپهای کاملاً اصلی را با یک پیام متنی تولید کنند.
اما QuickVid هوش مصنوعی موجود را ادغام میکند تا از قالبهای تکراری و قالببندیشده ویدیوهای کوتاه B-roll-heavy استفاده کند و مشکل تولید فیلم را برطرف کند.
حبیب گفت: “سازندگان موفق نوار بسیار باکیفیتی دارند و علاقهای به انتشار محتوایی ندارند که احساس میکنند در صدای خودشان نیست. این مورد استفاده ای است که ما روی آن تمرکز کرده ایم.”
ظاهراً چنین است، از نظر کیفیت، ویدیوهای QuickVid عموماً ترکیبی هستند. ویدیوهای پسزمینه کمی تصادفی هستند یا فقط به صورت مماس با موضوع مرتبط هستند، که با توجه به اینکه QuickVids در حال حاضر محدود به کاتالوگ Pexels است، تعجب آور نیست.
در همین حال، تصاویر تولید شده توسط DALL-E 2، محدودیتهای فناوری متن به تصویر امروزی را نشان میدهند، مانند متن آشفته و نسبتهای غیرفعال.
حبیب در پاسخ به بازخورد گفت که QuickVid “روزانه در حال آزمایش و سرهم بندی است.”
مسائل کپی رایت
به گفته حبیب، کاربران QuickVid حق استفاده تجاری از محتوایی که ایجاد می کنند را حفظ می کنند و اجازه کسب درآمد از آن در پلتفرم هایی مانند یوتیوب را دارند. اما وضعیت کپی رایت در مورد محتوای تولید شده توسط هوش مصنوعی حداقل در حال حاضر مبهم است .
اداره ثبت اختراع و علائم تجاری ایالات متحده (USPTO) اخیراً اقدام به لغو حمایت از حق نسخه برداری برای یک کمیک تولید شده توسط هوش مصنوعی کرده است، به عنوان مثال، گفت که آثار دارای حق چاپ نیاز به تألیف انسانی دارند.
وقتی از حبیب پرسیده شد که چگونه تصمیم USPTO ممکن است بر روی QuickVid تأثیر بگذارد، گفت که او معتقد است که این تصمیم فقط به «قابلیت ثبت اختراع» محصولات تولید شده توسط هوش مصنوعی مربوط می شود و نه حقوق سازندگان برای استفاده و کسب درآمد از محتوای آنها.
او اشاره کرد که سازندگان اغلب حق ثبت اختراع برای ویدیوها را ارسال نمی کنند و معمولاً به اقتصاد سازندگان متمایل می شوند و به سازندگان دیگر اجازه می دهند کلیپ های خود را تغییر دهند تا دسترسی خود را افزایش دهند.
حبیب گفت: «سازندگان به ارائه محتوای با کیفیت بالا در صدای خود اهمیت می دهند که به رشد کانال آنها کمک می کند.»
یک چالش قانونی دیگر در افق ممکن است ادغام QuickVid’s DALL-E 2 را تحت تأثیر قرار دهد – و در نتیجه، توانایی سایت برای ایجاد همپوشانی تصویر را تحت تأثیر قرار دهد.
مایکروسافت، GitHub و OpenAI در یک دادخواست دسته جمعی مورد شکایت قرار گرفته اند که آنها را متهم به نقض قانون کپی رایت با اجازه دادن به Copilot، یک سیستم تولید کننده کد، برای بازگرداندن بخش هایی از کد مجوز بدون ارائه اعتبار می کند. (Copilot توسط OpenAI و GitHub که مایکروسافت مالک آن است توسعه داده شده است.)
این مورد پیامدهایی برای هوش مصنوعی هنری مولد مانند DALL-E 2 دارد که به طور مشابه مشخص شده است که از مجموعه داده هایی که بر روی آنها آموزش دیده اند کپی و جایگذاری می کند (یعنی تصاویر).
حبیب نگران نیست و استدلال می کند که جن مولد هوش مصنوعی از بطری خارج شده است. او با اشاره به سیستم متنباز DALL-E 2-like Stable Diffusion گفت: «اگر شکایت دیگری ظاهر شد و OpenAI فردا ناپدید شد، چندین جایگزین وجود دارد که میتواند QuickVid را تقویت کند. QuickVid در حال آزمایش Stable Diffusion برای تولید تصاویر آواتار است.»
تعدیل و هرزنامه
جدای از معضلات قانونی، QuickVid ممکن است به زودی با مشکل تعدیل مواجه شود. در حالی که OpenAI فیلترها و تکنیک هایی را برای جلوگیری از آنها پیاده سازی کرده است، هوش مصنوعی مولد دارای مسمومیت شناخته شده و مشکلات صحت واقعی است.
GPT-3 اطلاعات نادرست به ویژه در مورد رویدادهای اخیر منتشر می کند که فراتر از مرزهای پایگاه دانش آن است. و ChatGPT، یک فرزند تنظیم شده GPT-3، نشان داده شده است که از زبان جنسی و نژادپرستانه استفاده می کند.
این نگران کننده است، به ویژه برای افرادی که از QuickVid برای ایجاد ویدیوهای اطلاعاتی استفاده می کنند. به اعتبار QuickVid، پیامهای آشکارا مشکلساز مانند «نظم جهانی جدید یهودی» و «تئوری توطئه ۱۱ سپتامبر» فیلمنامههای سمی به همراه نداشت.
اما برای «تئوری نژاد انتقادی که دانشآموزان را تلقین میکند»، QuickVid ویدیویی تولید کرد که نشان میدهد میتوان از نظریه نژاد انتقادی برای شستشوی مغزی دانشآموزان استفاده کرد.
حبیب میگوید که برای انجام بیشتر کارهای نظارتی به فیلترهای OpenAI تکیه میکند و تاکید میکند که این وظیفه کاربران است که به صورت دستی هر ویدیوی ایجاد شده توسط QuickVid را بررسی کنند تا اطمینان حاصل کنند که «همه چیز در محدوده قانون است».
حبیب گفت: «به عنوان یک قاعده کلی، من معتقدم که مردم باید بتوانند خود را ابراز کنند و هر محتوایی را که می خواهند ایجاد کنند.»
ظاهراً شامل محتوای هرزنامه می شود. حبیب معتقد است که الگوریتمهای پلتفرمهای ویدیویی، نه QuickVid، در بهترین موقعیت برای تعیین کیفیت یک ویدیو قرار دارند، و افرادی که محتوای با کیفیت پایین تولید میکنند «فقط به اعتبار خود آسیب میزنند».
او میگوید که آسیبهای شهرت به طور طبیعی مردم را از ایجاد کمپینهای اسپم انبوه با QuickVid منصرف میکند.
او افزود: «اگر مردم نمیخواهند ویدیوی شما را تماشا کنند، در پلتفرمهایی مانند یوتیوب توزیع نخواهید شد. تولید محتوای بی کیفیت همچنین باعث می شود مردم به کانال شما با دید منفی نگاه کنند.»
اما نگاه به آژانسهای تبلیغاتی مانند Fractl که در سال ۲۰۱۹ از یک سیستم هوش مصنوعی به نام Grover برای تولید یک سایت کامل از مواد بازاریابی استفاده کردند، آموزنده است.
در مصاحبه ای با The Verge، کریستین تینسکی، شریک Fractl گفت که او هوش مصنوعی مولد را پیش بینی کرده است که «سونامی عظیمی از محتوای تولید شده توسط رایانه را در هر بخش قابل تصوری امکان پذیر می کند».
در هر صورت، پلتفرمهای اشتراکگذاری ویدیو مانند TikTok و YouTube مجبور به مقابله با تعدیل محتوای تولید شده توسط هوش مصنوعی در مقیاس گسترده نبودهاند.
دیپفیکها – ویدیوهای مصنوعی که شبیه افراد موجود را جایگزین میکنند – چندین سال پیش با استفاده از ابزارهایی که تولید فیلمهای عمیق جعلی را آسانتر میکردند، در پلتفرمهایی مانند یوتیوب پر شد.
اما بر خلاف قانعکنندهترین دیپفیکهای امروزی، انواع ویدیوهایی که QuickVid ایجاد میکند، آشکارا به هیچ وجه توسط هوش مصنوعی تولید نمیشوند.
خطمشی جستجوی Google در مورد نوشتار تولید شده با هوش مصنوعی ممکن است پیشنمایشی از آنچه در دامنه ویدیو قرار دارد باشد.
Google با متن مصنوعی در مورد رتبهبندی جستجو، متفاوت از متن نوشته شده توسط انسان رفتار نمیکند، اما اقداماتی را در مورد محتوایی انجام میدهد که «به منظور دستکاری رتبهبندی جستجو و نه کمکی به کاربران است».
این شامل محتوایی است که از صفحات وب مختلف به هم پیوند خورده یا ترکیب شده است که «ارزش کافی اضافه نمیکند» و همچنین محتوای تولید شده از طریق فرآیندهای کاملاً خودکار، که هر دو ممکن است برای QuickVid اعمال شوند.
به عبارت دیگر، ویدئوهای تولید شده توسط هوش مصنوعی ممکن است به طور کامل از پلتفرمها منع نشوند، در صورتی که به صورت عمده شروع به کار کنند، بلکه صرفاً به هزینه انجام تجارت تبدیل میشوند.
این به احتمال زیاد ترس کارشناسانی را که معتقدند پلتفرم هایی مانند TikTok در حال تبدیل شدن به خانه جدیدی برای ویدیوهای گمراه کننده هستند، برطرف نمی کند، اما – همانطور که حبیب در طول مصاحبه گفت – “هیچ مانعی برای انقلاب مولد هوش مصنوعی وجود ندارد.”