Nvidia وارد دنیای مدلهای جهان میشود: نسل جدید هوش مصنوعی برای شبیهسازی محیطهای واقعی
به گزارش اپ خونه، Nvidia در حال ورود به حوزه جدیدی از هوش مصنوعی به نام «مدلهای جهان» (World Models) است. این مدلها از نحوه یادگیری انسانها درباره محیطهای اطرافشان الهام گرفته شدهاند و تلاش میکنند شبیهسازیهای واقعیتری از جهان ارائه دهند.
در نمایشگاه CES 2025 که در لاسوگاس برگزار شد، Nvidia اعلام کرد که یک مجموعه از مدلهای جهان را به صورت عمومی در دسترس قرار داده است. این مدلها قادرند ویدیوهای «آگاه از فیزیک» تولید کنند و پیشبینیهای دقیقی از محیطهای واقعی ارائه دهند. Nvidia این خانواده مدلها را Cosmos World Foundation Models یا به اختصار Cosmos WFM نامیده است.
خروجی یکی از مدلهای Cosmos World Foundation
این مدلها از طریق API Nvidia ، کاتالوگ NGC، GitHub و پلتفرم Hugging Face برای توسعهدهندگان قابل دسترسی هستند.
Nvidia در یک پست وبلاگی نوشت:
«اولین موج مدلهای Cosmos WFM برای شبیهسازیهای فیزیکی و تولید دادههای مصنوعی اکنون در دسترس محققان و توسعهدهندگان قرار گرفته است. این مدلها تحت مجوز باز Nvidia عرضه میشوند و حتی برای استفاده تجاری نیز مشکلی ندارند.»
مدلهای این خانواده به سه دسته تقسیم میشوند:
- Nano – برای اپلیکیشنهای کمتأخیر و لحظهای
- Super – مدلهای استاندارد با عملکرد بالا
- Ultra – مدلهایی با بیشترین کیفیت و دقت
این مدلها از نظر اندازه بین ۴ تا ۱۴ میلیارد پارامتر دارند. هرچه تعداد پارامترها بیشتر باشد، مدل قدرت بیشتری در حل مسائل پیچیده خواهد داشت.
علاوه بر مدلهای اصلی، Nvidia چند ویژگی جدید را هم معرفی کرده است:
- مدل افزایش وضوح (Upsampling): برای رمزگشایی ویدیوهای واقعیت افزوده
- مدلهای ایمنی (Guardrail Models): برای اطمینان از استفاده مسئولانه از هوش مصنوعی
- مدلهای تخصصی: برای تولید دادههای سنسور خودروهای خودران و رباتها
Nvidia میگوید این مدلها با ۹۰۰۰ تریلیون توکن داده آموزش دیدهاند که شامل ۲۰ میلیون ساعت ویدیو از تعاملات انسانی، محیطهای واقعی، صنعت، رباتیک و رانندگی میشود.
Nvidia هنوز دقیقاً نگفته که این دادهها از چه منابعی جمعآوری شدهاند. اما گزارشهایی وجود دارد که نشان میدهد برخی از این دادهها ممکن است از ویدیوهای یوتیوب بدون اجازه استفاده شده باشد.
در پاسخ به این اتهامات، یکی از سخنگویان Nvidia گفت:
«مدلهای Cosmos به گونهای طراحی نشدهاند که آثار محافظتشده را کپی یا نقض کنند. این مدلها مانند انسانها یاد میگیرند و اطلاعات درباره چگونگی کارکرد جهان را که مشمول قوانین کپیرایت نمیشود، جمعآوری میکنند.»
اگرچه Nvidia ادعا میکند که استفاده از دادهها با قوانین منطبق است، اما کارشناسان حقوقی درباره این ادعاها شک دارند. مسئله اینجاست که استفاده از دادههای دارای حق کپیرایت برای آموزش مدلهای هوش مصنوعی ممکن است تحت قوانین «استفاده منصفانه» (Fair Use) قابل توجیه باشد، اما هنوز این موضوع بهطور قطعی در دادگاهها تأیید نشده است.
Nvidia ادعا میکند که مدلهای Cosmos WFM میتوانند دادههای مصنوعی با کیفیت بالا تولید کنند که برای آموزش مدلهای هوش مصنوعی در حوزههایی مانند رباتیک و خودروهای خودران مفید است.
بهعنوان مثال، این مدلها میتوانند محیطهایی مانند کارخانهها را شبیهسازی کنند. شرکتهای بزرگی مانند Waabi، Wayve، Fortellix و Uber از همین حالا اعلام کردهاند که از این مدلها برای جستجوی ویدیوها و ساخت مدلهای خودران استفاده میکنند.
Cosmos میتواند محیطهای واقعی مانند کف کارخانهها را شبیهسازی کند
مدیرعامل اوبر، دارا خسروشاهی، در این باره گفت:
«هوش مصنوعی تولیدی، آینده صنعت حملونقل را متحول خواهد کرد و به دادههای غنی و قدرت محاسباتی بالا نیاز دارد. ما با همکاری Nvidia مطمئن هستیم که میتوانیم زمانبندی توسعه راهحلهای خودران ایمن و مقیاسپذیر را تسریع کنیم.»
مدلهای Cosmos به معنای واقعی متنباز (Open Source) نیستند. بر اساس تعریف رایج در دنیای هوش مصنوعی، برای متنباز بودن یک مدل باید اطلاعات کافی درباره طراحی و دادههای آموزشی آن منتشر شود تا دیگران بتوانند آن را بازسازی کنند.
Nvidia هنوز اطلاعات دقیقی درباره دادههای آموزشی مدلهای Cosmos منتشر نکرده و ابزارهای لازم برای بازسازی این مدلها را هم در دسترس قرار نداده است. به همین دلیل، این شرکت از اصطلاح «مدلهای باز» استفاده کرده است، نه «متنباز».
جنسن هوانگ، مدیرعامل Nvidia ، در یک رویداد خبری گفت:
«ما امیدواریم Cosmos همان تأثیری را که مدل Llama در دنیای کسبوکارها گذاشت، در دنیای رباتیک و هوش مصنوعی صنعتی بگذارد.»