Stability AI وارد بازی تولید ویدیو می شود
به گزارش اپ خونه، Stability AI، مدل Stable Video Diffusion را معرفی کرد ، یک مدل هوش مصنوعی که با متحرک سازی تصاویر موجود، ویدیو تولید می کند.
بر اساس مدل Stable Diffusion متن به تصویر موجود Stability، مدل Stable Video Diffusion یکی از معدود مدلهای تولیدکننده ویدیو است که در منبع باز یا به صورت تجاری در دسترس است.(اما نه برای همه)
Stable Video Diffusion در حال حاضر همان چیزی است که Stability به عنوان یک “پیش نمایش تحقیقاتی” توصیف می کند.
کسانی که مایل به اجرای این مدل هستند باید با شرایط استفاده خاصی موافقت کنند که برنامه های مورد نظر Stable Video Diffusion به عنوان مثال ابزارهای آموزشی یا خلاقانه، طراحی و سایر فرآیندهای هنری، و موارد غیرمنتظره مانند بازنمایی واقعی از افراد یا رویدادها را در بر گیرد.
با توجه به اینکه چگونه دیگر پیشنمایشهای تحقیقاتی هوش مصنوعی – از جمله خود Stability – از نظر تاریخی پیش رفتهاند، تعجب آور نیست که ببینیم این مدل به سرعت در دارک وب به گردش در میآید.
اگر اینطور باشد، با توجه به اینکه به نظر میرسد فیلتر محتوای داخلی ندارد، نگران راههایی هستیم که ممکن است از Stable Video سوء استفاده شود.
زمانی که Stable Diffusion منتشر شد، طولی نکشید که بازیگرانی با نیات مشکوک از آن برای ساختن محتوای غیر اخلاقی جعلی غیرموافق و حتی بدتر استفاده کردند .
Stable Video Diffusion به شکل دو مدل SVD و SVD-XT ارائه می شود.
اولین، SVD، تصاویر ثابت را به ویدیوهای ۵۷۶×۱۰۲۴ در ۱۴ فریم تبدیل میکند. SVD-XT از معماری یکسانی استفاده میکند، اما فریمها را به ۲۴ میبرد. هر دو میتوانند ویدیوهایی بین سه تا ۳۰ فریم در ثانیه تولید کنند.
بر اساس اعلامیه منتشر شده ، SVD و SVD-XT در ابتدا بر روی مجموعه داده ای متشکل از میلیون ها ویدیو آموزش داده شدند و سپس روی مجموعه ای بسیار کوچکتر از صدها هزار تا حدود یک میلیون کلیپ به خوبی تنظیم شدند.
این که آن ویدیوها از کجا آمده اند مشخص نیست – این مقاله نشان می دهد که بسیاری از آنها از مجموعه داده های تحقیقاتی عمومی بوده اند – بنابراین نمی توان تشخیص داد که آیا هر یک از آنها تحت حق چاپ هستند یا خیر.
اگر چنین بود، میتوانست کاربران Stability and Stable Video Diffusion را به چالشهای قانونی و اخلاقی در مورد حقوق استفاده باز کند . زمان مشخص خواهد کرد.
منبع دادههای آموزشی هرچه که باشد، مدلها – هم SVD و هم SVD-XT – کلیپهای چهار ثانیهای با کیفیت نسبتاً بالایی تولید میکنند.
بر اساس برآورد ها، نمونههای انتخاب شده در وبلاگ Stability میتوانند با خروجیهای مدل اخیر تولید ویدیوی متا و همچنین نمونههای تولید شده توسط هوش مصنوعی که از گوگل و استارتآپهای هوش مصنوعی Runway و Pika Labs دیدهایم، به اشتراک گذاشته شوند .
اما Stable Video Diffusion محدودیت هایی دارد.
Stability در این مورد شفاف است، روی صفحات Hugging Face مدلها – صفحاتی که محققان میتوانند از آنجا برای دسترسی به Stable Video Diffusion استفاده کنند – مینویسد که مدلها نمیتوانند بدون حرکت آهسته دوربین ویدیو تولید کنند، با متن کنترل شوند، متن رندر شوند ( حداقل نه به طور خوانا) یا به طور مداوم چهره ها و افراد را «به درستی» تولید کنند.
هنوز – در حالی که این روزهای اولیه است – Stability خاطرنشان می کند که مدل ها کاملاً توسعه پذیر هستند و می توانند برای استفاده از مواردی مانند ایجاد نمای ۳۶۰ درجه از اشیاء سازگار شوند.
بنابراین Stable Video Diffusion ممکن است به چه چیزی تبدیل شود؟ Stability میگوید که در حال برنامهریزی مدلهای متنوعی است که بر روی SVD و SVD-XT ساخته و گسترش میدهند و همچنین یک ابزار «متن به ویدیو» که پیامهای متنی را به مدلهای وب ارائه میکند.
به نظر می رسد هدف نهایی تجاری سازی باشد – Stability به درستی اشاره می کند که Stable Video Diffusion کاربردهای بالقوه ای در “تبلیغات، آموزش، سرگرمی و فراتر از آن” دارد.
مطمئناً، هدف Stability برای ضربه زدن به سرمایهگذاران در استارتآپ، فشار را افزایش میدهد.
در ماه آوریل، سمافور گزارش داد که هوش مصنوعی Stability از طریق نقدینگی در حال سوختن است، و این امر باعث شد تا تلاشهای اجرایی برای افزایش فروش افزایش یابد.
به گفته فوربس، این شرکت مکرراً دستمزدها و مالیات بر حقوق و دستمزد را به تعویق انداخته یا به طور کامل پرداخت نکرده است، که منجر به AWS شد – که Stability برای محاسبات برای آموزش مدلهای خود استفاده میکند – و تهدید میکند که دسترسی Stability به نمونههای GPU خود را لغو میکند.
هوش مصنوعی Stability اخیراً ۲۵ میلیون دلار از طریق یک اسکناس قابل تبدیل (یعنی بدهی که به سهام تبدیل می شود) جمع آوری کرده است که مجموع آن را به بیش از ۱۲۵ میلیون دلار رساند.
اما بودجه جدید را با ارزش بالاتر بسته نشده است. این استارت آپ آخرین بار ۱ میلیارد دلار ارزش داشت. گفته می شد که ثبات به دنبال چهار برابر شدن آن در چند ماه آینده ، علیرغم درآمدهای سرسختانه پایین و نرخ سوخت بالا است.
اخیراً با خروج اد نیوتن رکس، که کمی بیش از یک سال معاون صدا در این استارتاپ بود و نقش مهمی در راه اندازی ابزار تولید موسیقی، Stable Audio، داشت، Stability ضربه دیگری خورد .
در یک نامه عمومی، نیوتن رکس گفت که او Stability را به دلیل اختلاف نظر در مورد حق چاپ و نحوه استفاده از داده های دارای حق چاپ برای آموزش مدل های هوش مصنوعی ترک کرد.