معرفی Qwen3؛ نسل جدید مدلهای هوش مصنوعی علیبابا که با مدلهای گوگل و OpenAI رقابت میکند
به گزارش اپ خونه، شرکت فناوری چینی علیبابا (Alibaba) به تازگی از خانواده جدیدی از مدلهای هوش مصنوعی به نام Qwen3 رونمایی کرد؛ مدلهایی که به گفته این شرکت، از نظر عملکرد با بهترین مدلهای گوگل و OpenAI برابری میکنند و در برخی موارد حتی از آنها بهتر هستند.
اکثر این مدلها — یا بهزودی — با مجوز «باز» از طریق پلتفرم توسعه هوش مصنوعی Hugging Face و GitHub برای دانلود در دسترس خواهند بود.
منظور از «مجوز باز» (Open License) آن است که مدلهای زبانی Qwen3 با شرایطی منتشر میشوند که به توسعهدهندگان، پژوهشگران و شرکتها اجازه میدهد تا:
-
کد منبع یا وزنهای مدل را دانلود و مورد استفاده قرار دهند؛
-
مدلها را تغییر دهند، آموزش مجدد دهند یا سفارشیسازی کنند؛
-
و در برخی موارد، حتی از آنها در پروژههای تجاری بهرهبرداری کنند.
نوع دقیق این مجوز بسته به شرایط تعیینشده توسط ناشر ممکن است متفاوت باشد، اما بهطور معمول این مدلها تحت مجوزهایی مانند Apache 2.0، MIT یا سایر مجوزهای متنباز مختص حوزه هوش مصنوعی (نظیر مجوزهای ارائهشده در پلتفرم Hugging Face) منتشر میشوند.
این مدلها در نقطه مقابل مدلهای بسته (Closed Source) قرار دارند؛ مدلهایی نظیر ChatGPT یا Gemini که تنها از طریق پلتفرمهای رسمی شرکتهای ارائهدهنده قابل دسترسی و استفاده هستند. در مقابل، مدلهای دارای مجوز باز آزادی بیشتری را برای مطالعه، توسعه، و پیادهسازی در اختیار کاربران قرار میدهند.
اندازه Qwen3 از ۰.۶ میلیارد پارامتر تا ۲۳۵ میلیارد پارامتر متغیر است. پارامترها بهطور تقریبی نشاندهنده توانایی حل مسئله مدل هستند و هرچه یک مدل پارامتر بیشتری داشته باشد، عملکرد بهتری دارد.
ظهور سری مدلهای پیشرفته چینی مانند Qwen فشار بیشتری بر آزمایشگاههای آمریکایی همچون OpenAI وارد کرده تا فناوریهای هوش مصنوعی قدرتمندتری ارائه دهند.
این روند همچنین سیاستگذاران را وادار کرده تا محدودیتهایی برای جلوگیری از دستیابی شرکتهای چینی به چیپهای پیشرفته اعمال کنند؛ چیپهایی که برای آموزش مدلهای هوش مصنوعی حیاتیاند.
در معرفی رسمی Qwen3، تیم علیبابا اعلام کرده که این مدلها ترکیبی (Hybrid) هستند؛ یعنی میتوانند هم به سؤالات ساده پاسخ سریع بدهند و هم برای حل مسائل پیچیده، زمان بیشتری صرف «تفکر» کنند.
این ویژگی، امکان بررسی صحت پاسخ توسط خود مدل را فراهم میکند — مشابه مدلهایی مانند o3 از OpenAI — اما با هزینه تأخیر (Latency) بالاتر.
«ما دو حالت تفکری و غیرتفکری را یکپارچه کردهایم تا کاربران بتوانند میزان مصرف منابع تفکر را کنترل کنند. این طراحی باعث میشود تا بودجه منابع بر اساس نوع وظیفه، بهسادگی تنظیم شود.»
— از وبلاگ رسمی تیم Qwen
برخی از مدلها همچنین از معماری MoE (مجموعهای از متخصصان) بهره میبرند. این معماری وظایف را به وظایف فرعی تقسیم کرده و به مدلهای کوچکتر و تخصصیتر محول میکند که این کار باعث افزایش کارایی محاسباتی میشود.
مدلهای Qwen3 از ۱۱۹ زبان پشتیبانی میکنند و با مجموعه دادهای شامل حدود ۳۶ تریلیون توکن آموزش دیدهاند. توکنها، کوچکترین بخشهای دادهای هستند که مدل پردازش میکند (۱ میلیون توکن تقریباً معادل ۷۵۰ هزار کلمه است). دادههای آموزشی شامل کتابهای درسی، پرسشوپاسخ، کد، دادههای تولید شده توسط هوش مصنوعی و موارد دیگر هستند.
بر اساس گفتههای علیبابا، تمامی این پیشرفتها باعث شده Qwen3 نسبت به نسخه قبلی خود (یعنی Qwen2) بهشکل قابل توجهی ارتقا پیدا کند. اگرچه هیچیک از مدلهای Qwen3 بهطور کامل از مدلهای سطح بالای OpenAI مانند o3 و o4-mini پیشی نمیگیرند، اما در سطح رقابتی قرار دارند.
در وبسایت Codeforces، یکی از بسترهای رقابت برنامهنویسی، بزرگترین مدل Qwen3 یعنی Qwen-3-235B-A22B عملکرد بهتری نسبت به o3-mini از OpenAI و Gemini 2.5 Pro از گوگل داشته است. همچنین در آزمونهای ریاضی پیشرفته AIME و ارزیابی توانایی استدلال (BFCL)، این مدل از o3-mini پیشی گرفته است.
البته، Qwen-3-235B-A22B هنوز برای عموم منتشر نشده است.
بزرگترین مدل عمومی Qwen3 یعنی Qwen3-32B نیز عملکرد قابل قبولی دارد و با مدلهای معروف متنباز و اختصاصی رقابت میکند. این مدل حتی در برخی آزمایشها مانند LiveCodeBench، عملکرد بهتری از مدل o1 شرکت OpenAI داشته است.
علیبابا میگوید Qwen3 در قابلیتهایی مانند استفاده از ابزارها (tool calling)، پیروی از دستورالعملها و کپی فرمتهای خاص دادهای، بسیار توانمند است. افزون بر نسخههای قابل دانلود، این مدلها از طریق ارائهدهندگان ابری نظیر Fireworks AI و Hyperbolic نیز در دسترس هستند.
سریواستاوا، همبنیانگذار و مدیرعامل پلتفرم ابری Baseten، درباره Qwen3 چنین گفت:
«Qwen3 نمونهای دیگر از روند مدلهای متنباز است که از مدلهای بسته مثل OpenAI عقب نمیمانند. ایالات متحده در حال تشدید محدودیتهای فروش چیپ به چین و خرید از چین است، اما مدلهایی مانند Qwen3 که در سطح جهانی قرار دارند و متنباز هستند، قطعاً در داخل کشور چین مورد استفاده قرار خواهند گرفت.»
«این نشان میدهد که کسبوکارها هم در حال ساخت ابزارهای اختصاصی خود هستند و هم از محصولات آماده شرکتهایی مانند Anthropic و OpenAI استفاده میکنند.»