توکن ها دلیل بزرگی برای کوتاهی هوش مصنوعی مولد امروزی هستند
به گزارش اپ خونه، مدلهای هوش مصنوعی مولد متن را مانند انسانها پردازش نمیکنند.
اکثر مدلها، از مدلهای کوچک روی دستگاه مانند Gemma گرفته تا GPT-4o پیشرو در صنعت OpenAI، بر اساس معماری معروف به ترانسفورماتور ساخته شدهاند.
با توجه به روشی که ترانسفورماتورها ارتباط بین متن و انواع دیگر داده ها را ایجاد می کنند، نمی توانند متن خام را وارد یا خروجی کنند .
بنابراین، به دلایلی کاربردی و فنی، مدلهای ترانسفورماتور امروزی با متنی کار میکنند که به قطعات کوچکتر و کوچکتری به نام توکنها تقسیم شدهاند – فرآیندی که به نام توکنسازی شناخته میشود.
با استفاده از این روش، ترانسفورماتورها می توانند اطلاعات بیشتری (در معنای معنایی) قبل از رسیدن به حد بالایی که به عنوان پنجره زمینه شناخته می شود، دریافت کنند. اما نشانهسازی میتواند سوگیریهایی را نیز ایجاد کند.
برخی از توکن ها دارای فاصله عجیب و غریب هستند که می تواند ترانسفورماتور را از مسیر خارج کند . نتایج ممکن است کاملاً متفاوت باشد، زیرا مدل (همانطور که یک شخص می فهمد) معنی یکسان را درک نمی کند.
دور زدن این سوال که دقیقاً یک کلمه باید برای یک مدل زبان باشد، به نوعی سخت است، و حتی اگر متخصصان انسانی را بر سر یک واژگان کامل به توافق برسانیم، مدلها احتمالاً هنوز هم برای مدلسازی مفید خواهند بود.
شریدان فوشت، دانشجوی دکترا که در حال مطالعه تفسیرپذیری مدل زبان بزرگ در دانشگاه نورث ایسترن است،گفت: حدس من این است که چیزی به نام توکنایزر کامل وجود ندارد.
این مدل مشکلات بیشتری را در زبان های دیگر به جز انگلیسی ایجاد می کند.
بسیاری از روشهای توکنسازی فرض میکنند که یک فاصله در یک جمله، یک کلمه جدید را نشان میدهد. دلیلش این است که آنها با در نظر گرفتن زبان انگلیسی طراحی شده اند.
اما همه زبان ها از فاصله برای جداسازی کلمات استفاده نمی کنند. چینی ها و ژاپنی ها این کار را نمی کنند – کره ای ها یا تایلندی ها هم این کار را نمی کنند.
یک مطالعه آکسفورد در سال ۲۰۲۳ نشان داد که به دلیل تفاوت در نحوه توکن کردن زبانهای غیرانگلیسی، ممکن است یک ترانسفورماتور دو برابر بیشتر طول بکشد تا کاری را که به زبان غیرانگلیسی بیان میشود در مقایسه با همان کاری که به زبان انگلیسی بیان میشود، انجام دهد.
همین مطالعه نشان داد که کاربران زبانهای کمتر کارآمد توکن احتمالاً عملکرد مدل بدتری را مشاهده میکنند و در عین حال هزینه بیشتری برای استفاده میپردازند، با توجه به اینکه بسیاری از فروشندگان هوش مصنوعی برای هر توکن هزینه میکنند.
توکنایزرها اغلب با هر کاراکتر در سیستمهای لوگوگرافی نوشتاری – سیستمهایی که در آنها نمادهای چاپی کلمات را بدون ارتباط با تلفظ نشان میدهند، مانند چینی – به عنوان یک نشانه متمایز برخورد میکنند که منجر به تعداد نشانههای بالا میشود.
به طور مشابه، توکنایزرهایی که زبانهای ادغامشونده را پردازش میکنند – زبانهایی که در آنها کلمات از عناصر کلمه معنیدار کوچکی به نام تکواژ تشکیل شدهاند، مانند ترکی – تمایل دارند هر تکواژ را به یک نشانه تبدیل کنند و تعداد کل نشانهها را افزایش دهند. (کلمه معادل “سلام” در تایلندی، สวัสดี، شش نشانه است.)
در سال ۲۰۲۳، ینی جون، محقق هوش مصنوعی Google DeepMind تجزیه و تحلیلی را انجام داد که توکن سازی زبان های مختلف و اثرات پایین دستی آن را مقایسه کرد.
جون با استفاده از مجموعه دادهای از متون موازی که به ۵۲ زبان ترجمه شدهاند، نشان داد که برخی از زبانها به ۱۰ برابر نشانههای بیشتری نیاز دارند تا معنای مشابهی را در انگلیسی دریافت کنند.
فراتر از نابرابری های زبانی، نشانه گذاری ممکن است توضیح دهد که چرا مدل های امروزی در ریاضیات بد هستند .
به ندرت ارقام به طور مداوم نشانه گذاری می شوند. از آنجا که آنها واقعاً نمی دانند اعداد چیست ، توکن سازها ممکن است “۳۸۰” را به عنوان یک نشانه تلقی کنند، اما “۳۸۱” را به عنوان یک جفت نشان دهند (“۳۸” و “۱”) – به طور موثر روابط بین ارقام و نتایج را در معادلات و فرمول ها از بین می برد.
نتیجه سردرگمی ترانسفورماتور است. یک مقاله اخیر نشان داد که مدلها برای درک الگوهای عددی تکراری و زمینه، بهویژه دادههای زمانی تلاش میکنند. ( GPT-4 فکر می کند ۷۷۳۵ بزرگتر از ۷۹۲۶ است).
به همین دلیل است که مدلها در حل مشکلات آناگرام یا معکوس کردن کلمات عالی نیستند .
بنابراین، توکنسازی به وضوح چالشهایی را برای هوش مصنوعی مولد ایجاد میکند. آیا می توان آنها را حل کرد؟
Feucht به مدلهای فضای حالت «سطح Byte» مانند MambaByte اشاره میکند که میتواند با حذف کامل توکنسازی، دادههای بسیار بیشتری نسبت به ترانسفورماتورها بدون عملکرد نامناسب دریافت کند.
MambaByte که مستقیماً با بایتهای خام که متن و سایر دادهها را نشان میدهند کار میکند، با برخی از مدلهای ترانسفورماتور در وظایف تجزیه و تحلیل زبان رقابت میکند و در عین حال بهتر از کلمات با کاراکترهای جابجا شده، فاصله و کاراکترهای بزرگ استفاده میکند.
با این حال، مدل هایی مانند MambaByte در مراحل اولیه تحقیقاتی هستند.
Feucht گفت: «احتمالاً بهتر است که مدلها بدون اعمال توکنسازی مستقیماً به کاراکترها نگاه کنند، اما در حال حاضر این فقط از نظر محاسباتی برای ترانسفورماتورها غیرممکن است. به طور خاص برای مدلهای ترانسفورماتور، محاسبات به صورت درجه دوم با طول توالی مقیاس میشوند، بنابراین ما واقعاً میخواهیم از نمایشهای متن کوتاه استفاده کنیم.»