ایلان ماسک Grok-1.5 را معرفی کرد که به سطح GPT-4 نزدیک می شود

فروردین 11, 1403 4۰45

به گزارش اپ خونه، تنها چند هفته پس از منبع باز Grok-1 ، xAI ایلان ماسک نسخه ارتقا یافته ای از مدل اختصاصی زبان بزرگ (LLM) – Grok-1.5 را اعلام کرد.

Grok-1.5 که قرار است هفته آینده منتشر شود، قابلیت‌های استدلال و حل مسئله را افزایش می‌دهد و به عملکرد LLM‌های باز و بسته شناخته شده، از جمله GPT-4 OpenAI و Claude 3 از Anthropic نزدیک می‌شود .

همچنین قادر به پردازش زمینه های طولانی است اما پشت پنجره زمینه Gemini 1.5 Pro تا ۱ میلیون توکن باقی می ماند .

ماسک خاطرنشان کرد که Grok-1.5 چت بات چالش برانگیز xAI را در پلتفرم X تقویت می کند، در حالی که Grok-2، جانشین مدل جدید، هنوز در مرحله آموزش است.

او گفت که نسخه بعدی باید بتواند “در همه معیارها از هوش مصنوعی فعلی فراتر رود” اما جزئیاتی درباره زمان در دسترس شدن آن را به اشتراک نگذارد.

xAI در نوامبر گذشته Grok-1 را اعلام کرد و گفت که این هوش مصنوعی بر اساس یک راهنمای کهکشانی مدل‌سازی شده است و می‌تواند تقریباً به هر چیزی پاسخ دهد تا به بشریت در تلاش برای درک و دانش صرف نظر از پیشینه یا دیدگاه‌های سیاسی کمک کند .

در معیارهایی مانند GSM8K، HumanEval و MMLU که توسط xAI مشترک است ، Grok-1 بهتر از Llama-2-70B و GPT-3.5 عمل کرد.

اکنون، با انتشار Grok-1.5، این شرکت در حال ساخت بر روی آن کار است و پیشرفت های قابل توجهی را نسبت به مدل قبلی در تمام معیارهای اصلی، از جمله موارد مربوط به کدنویسی و وظایف مرتبط با ریاضی، ارائه می دهد.

xAI در یک پست وبلاگ اشاره کرد :

«در آزمایش‌های ما، Grok-1.5 به امتیاز ۵۰.۶ درصد در معیار MATH و ۹۰ درصد در معیار GSM8K، دو معیار ریاضی که طیف گسترده‌ای از مشکلات رقابت‌های مقطع متوسطه تا دبیرستان را پوشش می‌دهد، به دست آورد. علاوه بر این، در معیار HumanEval که تولید کد و توانایی‌های حل مسئله را ارزیابی می‌کند، امتیاز ۷۴.۱٪ را کسب کرد.»

در معیار MMLU، که قابلیت‌های درک زبان مدل‌های هوش مصنوعی را در وظایف مختلف ارزیابی می‌کند، مدل جدید امتیاز ۸۱.۳% را کسب کرد که با اختلاف قابل توجهی از Grok-1 با ۷۳% شکست خورد.

فراتر از این، xAI همچنین تأیید کرد که Grok-1.5 دارای یک پنجره زمینه تا ۱۲۸۰۰۰ توکن است (توکن ها تمام بخش ها یا زیربخش های کلمات، تصاویر، ویدیوها، صدا یا کد هستند).

این به مدل اجازه می دهد تا حجم وسیعی از اطلاعات را در یک لحظه دریافت و پردازش کند – ۱۶ برابر بیشتر از Grok-1، و آن را برای تجزیه و تحلیل، خلاصه کردن و استخراج اطلاعات از اسناد طولانی مناسب تر می کند.

حتی می‌تواند درخواست‌های طولانی‌تر و پیچیده‌تر را مدیریت کند و در عین حال قابلیت دنبال کردن دستورالعمل‌ها را حفظ کند.

با افزایش توانایی استدلال و حل مسئله، Grok-1.5 نه تنها نسبت به مدل قبلی خود در معیارها بهتر عمل می کند، بلکه به مدل های منبع باز و بسته محبوب موجود در بازار، از جمله Gemini 1.5 Pro، GPT-4 و Claude 3 نیز نزدیک می شود.

به عنوان مثال، در MMLU، امتیاز Grok-1.5 با ۸۱.۳% از Mistral Large که اخیراً معرفی شده است، می گذرد، اما پس از Gemini 1.5 Pro (83.7%)، GPT-4 (86.4٪ تا مارس ۲۰۲۳) و Claude 3 Opus (از مارس ۲۰۲۳) قرار دارد.

قابل ذکر است، تنها معیاری که به نظر می‌رسید Grok-1.5 در آن برتری داشت HumanEval بود که در آن از همه مدل‌ها به جز Claude 3 Opus برتری داشت.

xAI انتظار دارد این پیشرفت‌ها را ادامه دهد و دستاوردهای عملکردی بیشتری را با Grok-2 ارائه دهد، که به گفته ماسک، در تمام معیارها باید از هوش مصنوعی فعلی فراتر رود. این مدل در حال حاضر در حال آموزش است.

برایان رومل ، مشاور فناوری، گفت که بر اساس کارش با Grok-1، Grok-2 یکی از قدرتمندترین پلتفرم‌های هوش مصنوعی LLM در زمان عرضه خواهد بود. تقریباً در هر معیاری از OpenAI پیشی خواهد گرفت.

در مورد Grok-1.5، xAI قصد دارد هفته آینده استقرار خود را آغاز کند. این شرکت می‌گوید که این مدل در ابتدا برای آزمایش‌کنندگان اولیه و کسانی که قبلاً از چت ربات Grok در پلتفرم X (توئیتر) استفاده می‌کنند – با دسترسی بلادرنگ به همه پست‌ها در پلتفرم در دسترس خواهد بود .

عرضه به صورت مرحله‌ای انجام می‌شود و شرکت مدل را بهبود می‌بخشد و چندین ویژگی جدید – احتمالاً از جمله یک حالت سرگرم‌کننده جدید – را معرفی می‌کند و به تدریج آن را در اختیار طیف گسترده‌تری از کاربران قرار می‌دهد.

زمانی که ماسک Grok را در X در دسترس قرار داد، به عنوان حرکتی برای افزایش پذیرش برای Grok و X در نظر گرفته شد.

او با در دسترس قرار دادن هوش مصنوعی به عنوان بخشی از اشتراک “Premium+” پلتفرم با قیمت ۱۶ دلار در ماه شروع کرد. با این حال، چند روز پیش، میلیاردر به اشتراک گذاشت که ربات چت برای همه مشترکین Premium با پرداخت ۸ دلار در ماه نیز فعال خواهد شد.

در به‌روزرسانی دیگری ، او همچنین تأیید کرد که دنبال‌کنندگانی که سطح مشخصی از دنبال‌کنندگان مشترک تأیید شده دارند، از مزایای اشتراک Premium و Premium+، از جمله Grok، به‌صورت رایگان برخوردار خواهند شد.