توکن ها دلیل بزرگی برای کوتاهی هوش مصنوعی مولد امروزی هستند

تیر ۱۷, ۱۴۰۳ 1۰6

به گزارش اپ خونه، مدل‌های هوش مصنوعی مولد متن را مانند انسان‌ها پردازش نمی‌کنند.

اکثر مدل‌ها، از مدل‌های کوچک روی دستگاه مانند Gemma گرفته تا GPT-4o پیشرو در صنعت OpenAI، بر اساس معماری معروف به ترانسفورماتور ساخته شده‌اند.

با توجه به روشی که ترانسفورماتورها ارتباط بین متن و انواع دیگر داده ها را ایجاد می کنند، نمی توانند متن خام را وارد یا خروجی کنند .

بنابراین، به دلایلی کاربردی و فنی، مدل‌های ترانسفورماتور امروزی با متنی کار می‌کنند که به قطعات کوچک‌تر و کوچک‌تری به نام توکن‌ها تقسیم شده‌اند – فرآیندی که به نام توکن‌سازی شناخته می‌شود.

با استفاده از این روش، ترانسفورماتورها می توانند اطلاعات بیشتری (در معنای معنایی) قبل از رسیدن به حد بالایی که به عنوان پنجره زمینه شناخته می شود، دریافت کنند. اما نشانه‌سازی می‌تواند سوگیری‌هایی را نیز ایجاد کند.

برخی از توکن ها دارای فاصله عجیب و غریب هستند که می تواند ترانسفورماتور را از مسیر خارج کند . نتایج ممکن است کاملاً متفاوت باشد، زیرا مدل (همانطور که یک شخص می فهمد) معنی یکسان را درک نمی کند.

دور زدن این سوال که دقیقاً یک کلمه باید برای یک مدل زبان باشد، به نوعی سخت است، و حتی اگر متخصصان انسانی را بر سر یک واژگان کامل به توافق برسانیم، مدل‌ها احتمالاً هنوز هم برای مدل‌سازی مفید خواهند بود.

شریدان فوشت، دانشجوی دکترا که در حال مطالعه تفسیرپذیری مدل زبان بزرگ در دانشگاه نورث ایسترن است،گفت: حدس من این است که چیزی به نام توکنایزر کامل وجود ندارد.

این مدل مشکلات بیشتری را در زبان های دیگر به جز انگلیسی ایجاد می کند.

بسیاری از روش‌های توکن‌سازی فرض می‌کنند که یک فاصله در یک جمله، یک کلمه جدید را نشان می‌دهد. دلیلش این است که آنها با در نظر گرفتن زبان انگلیسی طراحی شده اند.

اما همه زبان ها از فاصله برای جداسازی کلمات استفاده نمی کنند. چینی ها و ژاپنی ها این کار را نمی کنند – کره ای ها یا تایلندی ها هم این کار را نمی کنند.

یک مطالعه آکسفورد در سال ۲۰۲۳ نشان داد که به دلیل تفاوت در نحوه توکن کردن زبان‌های غیرانگلیسی، ممکن است یک ترانسفورماتور دو برابر بیشتر طول بکشد تا کاری را که به زبان غیرانگلیسی بیان می‌شود در مقایسه با همان کاری که به زبان انگلیسی بیان می‌شود، انجام دهد.

همین مطالعه نشان داد که کاربران زبان‌های کمتر کارآمد توکن احتمالاً عملکرد مدل بدتری را مشاهده می‌کنند و در عین حال هزینه بیشتری برای استفاده می‌پردازند، با توجه به اینکه بسیاری از فروشندگان هوش مصنوعی برای هر توکن هزینه می‌کنند.

توکنایزرها اغلب با هر کاراکتر در سیستم‌های لوگوگرافی نوشتاری – سیستم‌هایی که در آنها نمادهای چاپی کلمات را بدون ارتباط با تلفظ نشان می‌دهند، مانند چینی – به عنوان یک نشانه متمایز برخورد می‌کنند که منجر به تعداد نشانه‌های بالا می‌شود.

به طور مشابه، توکنایزرهایی که زبان‌های ادغام‌شونده را پردازش می‌کنند – زبان‌هایی که در آنها کلمات از عناصر کلمه معنی‌دار کوچکی به نام تک‌واژ تشکیل شده‌اند، مانند ترکی – تمایل دارند هر تک‌واژ را به یک نشانه تبدیل کنند و تعداد کل نشانه‌ها را افزایش دهند. (کلمه معادل “سلام” در تایلندی، สวัสดี، شش نشانه است.)

در سال ۲۰۲۳، ینی جون، محقق هوش مصنوعی Google DeepMind تجزیه و تحلیلی را انجام داد که توکن سازی زبان های مختلف و اثرات پایین دستی آن را مقایسه کرد.

جون با استفاده از مجموعه داده‌ای از متون موازی که به ۵۲ زبان ترجمه شده‌اند، نشان داد که برخی از زبان‌ها به ۱۰ برابر نشانه‌های بیشتری نیاز دارند تا معنای مشابهی را در انگلیسی دریافت کنند.

فراتر از نابرابری های زبانی، نشانه گذاری ممکن است توضیح دهد که چرا مدل های امروزی در ریاضیات بد هستند .

به ندرت ارقام به طور مداوم نشانه گذاری می شوند. از آنجا که آنها واقعاً نمی دانند اعداد چیست ، توکن سازها ممکن است “۳۸۰” را به عنوان یک نشانه تلقی کنند، اما “۳۸۱” را به عنوان یک جفت نشان دهند (“۳۸” و “۱”) – به طور موثر روابط بین ارقام و نتایج را در معادلات و فرمول ها از بین می برد.

نتیجه سردرگمی ترانسفورماتور است. یک مقاله اخیر نشان داد که مدل‌ها برای درک الگوهای عددی تکراری و زمینه، به‌ویژه داده‌های زمانی تلاش می‌کنند. ( GPT-4 فکر می کند ۷۷۳۵ بزرگتر از ۷۹۲۶ است).

به همین دلیل است که مدل‌ها در حل مشکلات آناگرام یا معکوس کردن کلمات عالی نیستند .

بنابراین، توکن‌سازی به وضوح چالش‌هایی را برای هوش مصنوعی مولد ایجاد می‌کند. آیا می توان آنها را حل کرد؟

Feucht به مدل‌های فضای حالت «سطح Byte» مانند MambaByte اشاره می‌کند که می‌تواند با حذف کامل توکن‌سازی، داده‌های بسیار بیشتری نسبت به ترانسفورماتورها بدون عملکرد نامناسب دریافت کند.

MambaByte که مستقیماً با بایت‌های خام که متن و سایر داده‌ها را نشان می‌دهند کار می‌کند، با برخی از مدل‌های ترانسفورماتور در وظایف تجزیه و تحلیل زبان رقابت می‌کند و در عین حال بهتر از کلمات با کاراکترهای جابجا شده، فاصله و کاراکترهای بزرگ استفاده می‌کند.

با این حال، مدل هایی مانند MambaByte در مراحل اولیه تحقیقاتی هستند.

Feucht گفت: «احتمالاً بهتر است که مدل‌ها بدون اعمال توکن‌سازی مستقیماً به کاراکترها نگاه کنند، اما در حال حاضر این فقط از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدل‌های ترانسفورماتور، محاسبات به صورت درجه دوم با طول توالی مقیاس می‌شوند، بنابراین ما واقعاً می‌خواهیم از نمایش‌های متن کوتاه استفاده کنیم.»