Google DeepMind از سیستم هوش مصنوعی «فوق بشری» رونمایی کرد که در بررسی واقعیت، صرفه جویی در هزینه ها و بهبود دقت برتری دارد
به گزارش اپ خونه، یک مطالعه جدید از واحد تحقیقات DeepMind گوگل نشان میدهد که یک سیستم هوش مصنوعی میتواند در ارزیابی صحت اطلاعات تولید شده توسط مدلهای زبانی بزرگ، بهتر از حقیقتسنجی انسان عمل کند.
این مقاله با عنوان ” واقعیت با فرم طولانی در مدل های زبان بزرگ ” و منتشر شده در سرور پیش از چاپ arXiv ، روشی به نام ارزیابی واقعیت افزوده جستجو (SAFE) را معرفی می کند.
SAFE از یک مدل زبان بزرگ برای تجزیه متن تولید شده به حقایق فردی استفاده می کند و سپس از نتایج جستجوی گوگل برای تعیین صحت هر ادعا استفاده می کند.
SAFE از یک LLM استفاده می کند تا یک پاسخ طولانی را به مجموعه ای از حقایق فردی تجزیه کند و صحت هر واقعیت را با استفاده از یک فرآیند استدلال چند مرحله ای که شامل ارسال عبارت های جستجو به جستجوی گوگل و تعیین اینکه آیا یک واقعیت است را نشان می دهد.
محققان SAFE را در مقابل حاشیه نویسان انسانی بر اساس مجموعه داده ای از تقریباً ۱۶۰۰۰ واقعیت قرار دادند و دریافتند که ارزیابی های SAFE در ۷۲٪ مواقع با رتبه بندی های انسانی مطابقت دارد.
حتی مهمتر از آن، در یک نمونه از ۱۰۰ اختلاف بین SAFE و ارزیابیکنندگان انسانی، قضاوت SAFE در ۷۶٪ موارد صحیح بود.
در حالی که این مقاله ادعا می کند که “عوامل LLM می توانند به عملکرد رتبه بندی فوق بشری دست یابند”، برخی از کارشناسان این سوال را مطرح می کنند که “فوق بشر” واقعاً در اینجا به چه معناست.
گری مارکوس ، محقق مشهور هوش مصنوعی و منتقد مکرر ادعاهای پرهیجان، در توییتر پیشنهاد کرد که در این مورد، “فوق بشر” ممکن است به سادگی به معنای “بهتر از یک کارگر جمعی با حقوق کم، به جای یک حقیقت سنج واقعی انسانی باشد.”
او گفت: “این باعث می شود شخصیت پردازی گمراه کننده باشد.”
مارکوس یک نکته معتبر را مطرح می کند. برای نشان دادن واقعی عملکرد مافوق بشری، SAFE باید با بررسیکنندگان حقایق انسانی متخصص مقایسه شود، نه فقط با کارگران جمعسپاری.
جزئیات خاص ارزیابیکنندههای انسانی، مانند صلاحیتها، غرامت، و فرآیند بررسی واقعیت، برای ایجاد زمینه مناسب نتایج بسیار مهم است.
یکی از مزیت های واضح SAFE هزینه است – محققان دریافتند که استفاده از سیستم هوش مصنوعی حدود ۲۰ برابر ارزان تر از حقیقت سنجی انسانی است.
از آنجایی که حجم اطلاعات تولید شده توسط مدل های زبانی در حال افزایش است، داشتن یک روش اقتصادی و مقیاس پذیر برای تأیید ادعاها به طور فزاینده ای حیاتی خواهد بود.
تیم DeepMind از SAFE برای ارزیابی دقت واقعی ۱۳ مدل زبان برتر در ۴ خانواده (Gemini، GPT، Claude و PaLM-2) در معیار جدیدی به نام LongFact استفاده کرد. نتایج آنها نشان میدهد که مدلهای بزرگتر معمولاً خطاهای واقعی کمتری تولید میکنند.
با این حال، حتی مدل های با بهترین عملکرد نیز تعداد قابل توجهی ادعاهای نادرست ایجاد کردند. این امر بر خطرات ناشی از تکیه بیش از حد به مدلهای زبانی که میتوانند به روانی اطلاعات نادرست را بیان کنند، تأکید میکند.
ابزارهای خودکار بررسی حقایق مانند SAFE می توانند نقش کلیدی در کاهش این خطرات داشته باشند.
در حالی که کد SAFE و مجموعه داده LongFact منبع باز در GitHub هستند و به دیگر محققان اجازه میدهند کار را بررسی کنند و بر اساس آن کار کنند، هنوز شفافیت بیشتری در مورد خطوط پایه انسانی مورد استفاده در این مطالعه مورد نیاز است.
درک ویژگی های پیشینه و فرآیند کارگران جمعی برای ارزیابی قابلیت های SAFE در زمینه مناسب ضروری است.
از آنجایی که غولهای فناوری برای توسعه مدلهای زبانی قدرتمندتر برای برنامههای کاربردی از جستجو گرفته تا دستیارهای مجازی رقابت میکنند، توانایی بررسی خودکار خروجیهای این سیستمها میتواند بسیار مهم باشد.
ابزارهایی مانند SAFE گام مهمی در جهت ایجاد لایه جدیدی از اعتماد و مسئولیت پذیری است.
با این حال، بسیار مهم است که توسعه چنین فناوریهای نتیجهای در فضای باز و با ورودی طیف وسیعی از سهامداران فراتر از دیوارهای هر شرکتی اتفاق بیفتد.
معیار دقیق و شفاف در برابر متخصصان انسانی – نه فقط کارگران جمعی – برای اندازهگیری پیشرفت واقعی ضروری است. تنها در این صورت است که میتوانیم تأثیر واقعیتسنجی خودکار در دنیای واقعی را بر مبارزه با اطلاعات نادرست بسنجیم.