معرفی Qwen3؛ نسل جدید مدل‌های هوش مصنوعی علی‌بابا که با مدل‌های گوگل و OpenAI رقابت می‌کند

اردیبهشت 9, 1404 0۰3

به گزارش اپ خونه، شرکت فناوری چینی علی‌بابا (Alibaba) به تازگی از خانواده جدیدی از مدل‌های هوش مصنوعی به نام Qwen3 رونمایی کرد؛ مدل‌هایی که به گفته این شرکت، از نظر عملکرد با بهترین مدل‌های گوگل و OpenAI برابری می‌کنند و در برخی موارد حتی از آن‌ها بهتر هستند.

اکثر این مدل‌ها — یا به‌زودی — با مجوز «باز» از طریق پلتفرم توسعه هوش مصنوعی Hugging Face و GitHub برای دانلود در دسترس خواهند بود.

منظور از «مجوز باز» (Open License) آن است که مدل‌های زبانی Qwen3 با شرایطی منتشر می‌شوند که به توسعه‌دهندگان، پژوهشگران و شرکت‌ها اجازه می‌دهد تا:

کد منبع یا وزن‌های مدل را دانلود و مورد استفاده قرار دهند؛
مدل‌ها را تغییر دهند، آموزش مجدد دهند یا سفارشی‌سازی کنند؛
و در برخی موارد، حتی از آن‌ها در پروژه‌های تجاری بهره‌برداری کنند.

نوع دقیق این مجوز بسته به شرایط تعیین‌شده توسط ناشر ممکن است متفاوت باشد، اما به‌طور معمول این مدل‌ها تحت مجوزهایی مانند Apache 2.0، MIT یا سایر مجوزهای متن‌باز مختص حوزه هوش مصنوعی (نظیر مجوزهای ارائه‌شده در پلتفرم Hugging Face) منتشر می‌شوند.

این مدل‌ها در نقطه مقابل مدل‌های بسته (Closed Source) قرار دارند؛ مدل‌هایی نظیر ChatGPT یا Gemini که تنها از طریق پلتفرم‌های رسمی شرکت‌های ارائه‌دهنده قابل دسترسی و استفاده هستند. در مقابل، مدل‌های دارای مجوز باز آزادی بیشتری را برای مطالعه، توسعه، و پیاده‌سازی در اختیار کاربران قرار می‌دهند.

اندازه Qwen3 از ۰.۶ میلیارد پارامتر تا ۲۳۵ میلیارد پارامتر متغیر است. پارامترها به‌طور تقریبی نشان‌دهنده توانایی حل مسئله مدل هستند و هرچه یک مدل پارامتر بیشتری داشته باشد، عملکرد بهتری دارد.

ظهور سری مدل‌های پیشرفته چینی مانند Qwen فشار بیشتری بر آزمایشگاه‌های آمریکایی همچون OpenAI وارد کرده تا فناوری‌های هوش مصنوعی قدرتمندتری ارائه دهند.

این روند همچنین سیاست‌گذاران را وادار کرده تا محدودیت‌هایی برای جلوگیری از دستیابی شرکت‌های چینی به چیپ‌های پیشرفته اعمال کنند؛ چیپ‌هایی که برای آموزش مدل‌های هوش مصنوعی حیاتی‌اند.

در معرفی رسمی Qwen3، تیم علی‌بابا اعلام کرده که این مدل‌ها ترکیبی (Hybrid) هستند؛ یعنی می‌توانند هم به سؤالات ساده پاسخ سریع بدهند و هم برای حل مسائل پیچیده، زمان بیشتری صرف «تفکر» کنند.

این ویژگی، امکان بررسی صحت پاسخ توسط خود مدل را فراهم می‌کند — مشابه مدل‌هایی مانند o3 از OpenAI — اما با هزینه تأخیر (Latency) بالاتر.

«ما دو حالت تفکری و غیرتفکری را یکپارچه کرده‌ایم تا کاربران بتوانند میزان مصرف منابع تفکر را کنترل کنند. این طراحی باعث می‌شود تا بودجه منابع بر اساس نوع وظیفه، به‌سادگی تنظیم شود.»
— از وبلاگ رسمی تیم Qwen

برخی از مدل‌ها همچنین از معماری MoE (مجموعه‌ای از متخصصان) بهره می‌برند. این معماری وظایف را به وظایف فرعی تقسیم کرده و به مدل‌های کوچک‌تر و تخصصی‌تر محول می‌کند که این کار باعث افزایش کارایی محاسباتی می‌شود.

مدل‌های Qwen3 از ۱۱۹ زبان پشتیبانی می‌کنند و با مجموعه داده‌ای شامل حدود ۳۶ تریلیون توکن آموزش دیده‌اند. توکن‌ها، کوچک‌ترین بخش‌های داده‌ای هستند که مدل پردازش می‌کند (۱ میلیون توکن تقریباً معادل ۷۵۰ هزار کلمه است). داده‌های آموزشی شامل کتاب‌های درسی، پرسش‌وپاسخ، کد، داده‌های تولید شده توسط هوش مصنوعی و موارد دیگر هستند.

بر اساس گفته‌های علی‌بابا، تمامی این پیشرفت‌ها باعث شده Qwen3 نسبت به نسخه قبلی خود (یعنی Qwen2) به‌شکل قابل توجهی ارتقا پیدا کند. اگرچه هیچ‌یک از مدل‌های Qwen3 به‌طور کامل از مدل‌های سطح بالای OpenAI مانند o3 و o4-mini پیشی نمی‌گیرند، اما در سطح رقابتی قرار دارند.

در وب‌سایت Codeforces، یکی از بسترهای رقابت برنامه‌نویسی، بزرگ‌ترین مدل Qwen3 یعنی Qwen-3-235B-A22B عملکرد بهتری نسبت به o3-mini از OpenAI و Gemini 2.5 Pro از گوگل داشته است. همچنین در آزمون‌های ریاضی پیشرفته AIME و ارزیابی توانایی استدلال (BFCL)، این مدل از o3-mini پیشی گرفته است.

البته، Qwen-3-235B-A22B هنوز برای عموم منتشر نشده است.

بزرگ‌ترین مدل عمومی Qwen3 یعنی Qwen3-32B نیز عملکرد قابل قبولی دارد و با مدل‌های معروف متن‌باز و اختصاصی رقابت می‌کند. این مدل حتی در برخی آزمایش‌ها مانند LiveCodeBench، عملکرد بهتری از مدل o1 شرکت OpenAI داشته است.

علی‌بابا می‌گوید Qwen3 در قابلیت‌هایی مانند استفاده از ابزارها (tool calling)، پیروی از دستورالعمل‌ها و کپی فرمت‌های خاص داده‌ای، بسیار توانمند است. افزون بر نسخه‌های قابل دانلود، این مدل‌ها از طریق ارائه‌دهندگان ابری نظیر Fireworks AI و Hyperbolic نیز در دسترس هستند.

سری‌واستاوا، هم‌بنیان‌گذار و مدیرعامل پلتفرم ابری Baseten، درباره Qwen3 چنین گفت:

«Qwen3 نمونه‌ای دیگر از روند مدل‌های متن‌باز است که از مدل‌های بسته مثل OpenAI عقب نمی‌مانند. ایالات متحده در حال تشدید محدودیت‌های فروش چیپ به چین و خرید از چین است، اما مدل‌هایی مانند Qwen3 که در سطح جهانی قرار دارند و متن‌باز هستند، قطعاً در داخل کشور چین مورد استفاده قرار خواهند گرفت.»

«این نشان می‌دهد که کسب‌وکارها هم در حال ساخت ابزارهای اختصاصی خود هستند و هم از محصولات آماده شرکت‌هایی مانند Anthropic و OpenAI استفاده می‌کنند.»