Nvidia وارد دنیای مدل‌های جهان می‌شود: نسل جدید هوش مصنوعی برای شبیه‌سازی محیط‌های واقعی

دی 18, 1403 6۰28

به گزارش اپ خونه، Nvidia در حال ورود به حوزه جدیدی از هوش مصنوعی به نام «مدل‌های جهان» (World Models) است. این مدل‌ها از نحوه یادگیری انسان‌ها درباره محیط‌های اطرافشان الهام گرفته شده‌اند و تلاش می‌کنند شبیه‌سازی‌های واقعی‌تری از جهان ارائه دهند.

در نمایشگاه CES 2025 که در لاس‌وگاس برگزار شد، Nvidia اعلام کرد که یک مجموعه از مدل‌های جهان را به صورت عمومی در دسترس قرار داده است. این مدل‌ها قادرند ویدیوهای «آگاه از فیزیک» تولید کنند و پیش‌بینی‌های دقیقی از محیط‌های واقعی ارائه دهند. Nvidia این خانواده مدل‌ها را Cosmos World Foundation Models یا به اختصار Cosmos WFM نامیده است.

خروجی یکی از مدل‌های Cosmos World Foundation

این مدل‌ها از طریق API Nvidia ، کاتالوگ NGC، GitHub و پلتفرم Hugging Face برای توسعه‌دهندگان قابل دسترسی هستند.

Nvidia در یک پست وبلاگی نوشت:

«اولین موج مدل‌های Cosmos WFM برای شبیه‌سازی‌های فیزیکی و تولید داده‌های مصنوعی اکنون در دسترس محققان و توسعه‌دهندگان قرار گرفته است. این مدل‌ها تحت مجوز باز Nvidia عرضه می‌شوند و حتی برای استفاده تجاری نیز مشکلی ندارند.»

مدل‌های این خانواده به سه دسته تقسیم می‌شوند:

Nano – برای اپلیکیشن‌های کم‌تأخیر و لحظه‌ای
Super – مدل‌های استاندارد با عملکرد بالا
Ultra – مدل‌هایی با بیشترین کیفیت و دقت

این مدل‌ها از نظر اندازه بین ۴ تا ۱۴ میلیارد پارامتر دارند. هرچه تعداد پارامترها بیشتر باشد، مدل قدرت بیشتری در حل مسائل پیچیده خواهد داشت.

علاوه بر مدل‌های اصلی، Nvidia چند ویژگی جدید را هم معرفی کرده است:

مدل افزایش وضوح (Upsampling): برای رمزگشایی ویدیوهای واقعیت افزوده
مدل‌های ایمنی (Guardrail Models): برای اطمینان از استفاده مسئولانه از هوش مصنوعی
مدل‌های تخصصی: برای تولید داده‌های سنسور خودروهای خودران و ربات‌ها

Nvidia می‌گوید این مدل‌ها با ۹۰۰۰ تریلیون توکن داده آموزش دیده‌اند که شامل ۲۰ میلیون ساعت ویدیو از تعاملات انسانی، محیط‌های واقعی، صنعت، رباتیک و رانندگی می‌شود.

Nvidia هنوز دقیقاً نگفته که این داده‌ها از چه منابعی جمع‌آوری شده‌اند. اما گزارش‌هایی وجود دارد که نشان می‌دهد برخی از این داده‌ها ممکن است از ویدیوهای یوتیوب بدون اجازه استفاده شده باشد.

در پاسخ به این اتهامات، یکی از سخنگویان Nvidia گفت:

«مدل‌های Cosmos به گونه‌ای طراحی نشده‌اند که آثار محافظت‌شده را کپی یا نقض کنند. این مدل‌ها مانند انسان‌ها یاد می‌گیرند و اطلاعات درباره چگونگی کارکرد جهان را که مشمول قوانین کپی‌رایت نمی‌شود، جمع‌آوری می‌کنند.»

اگرچه Nvidia ادعا می‌کند که استفاده از داده‌ها با قوانین منطبق است، اما کارشناسان حقوقی درباره این ادعاها شک دارند. مسئله اینجاست که استفاده از داده‌های دارای حق کپی‌رایت برای آموزش مدل‌های هوش مصنوعی ممکن است تحت قوانین «استفاده منصفانه» (Fair Use) قابل توجیه باشد، اما هنوز این موضوع به‌طور قطعی در دادگاه‌ها تأیید نشده است.

Nvidia ادعا می‌کند که مدل‌های Cosmos WFM می‌توانند داده‌های مصنوعی با کیفیت بالا تولید کنند که برای آموزش مدل‌های هوش مصنوعی در حوزه‌هایی مانند رباتیک و خودروهای خودران مفید است.

به‌عنوان مثال، این مدل‌ها می‌توانند محیط‌هایی مانند کارخانه‌ها را شبیه‌سازی کنند. شرکت‌های بزرگی مانند Waabi، Wayve، Fortellix و Uber از همین حالا اعلام کرده‌اند که از این مدل‌ها برای جستجوی ویدیوها و ساخت مدل‌های خودران استفاده می‌کنند.

Cosmos می‌تواند محیط‌های واقعی مانند کف کارخانه‌ها را شبیه‌سازی کند

مدیرعامل اوبر، دارا خسروشاهی، در این باره گفت:

«هوش مصنوعی تولیدی، آینده صنعت حمل‌ونقل را متحول خواهد کرد و به داده‌های غنی و قدرت محاسباتی بالا نیاز دارد. ما با همکاری Nvidia مطمئن هستیم که می‌توانیم زمان‌بندی توسعه راه‌حل‌های خودران ایمن و مقیاس‌پذیر را تسریع کنیم.»

مدل‌های Cosmos به معنای واقعی متن‌باز (Open Source) نیستند. بر اساس تعریف رایج در دنیای هوش مصنوعی، برای متن‌باز بودن یک مدل باید اطلاعات کافی درباره طراحی و داده‌های آموزشی آن منتشر شود تا دیگران بتوانند آن را بازسازی کنند.

Nvidia هنوز اطلاعات دقیقی درباره داده‌های آموزشی مدل‌های Cosmos منتشر نکرده و ابزارهای لازم برای بازسازی این مدل‌ها را هم در دسترس قرار نداده است. به همین دلیل، این شرکت از اصطلاح «مدل‌های باز» استفاده کرده است، نه «متن‌باز».

جنسن هوانگ، مدیرعامل Nvidia ، در یک رویداد خبری گفت:

«ما امیدواریم Cosmos همان تأثیری را که مدل Llama در دنیای کسب‌وکارها گذاشت، در دنیای رباتیک و هوش مصنوعی صنعتی بگذارد.»