مدلهای متا Llama AI اکنون از تصاویر نیز پشتیبانی میکنند
به گزارش اپ خونه، بنجامین فرانکلین زمانی نوشت که هیچ چیز جز مرگ و مالیات قطعی نیست. اجازه دهید این عبارت را اصلاح کنیم تا هجوم فعلی هوش مصنوعی به جهان خود را منعکس کنیم:
هیچ چیز به جز مرگ، مالیات و مدلهای جدید هوش مصنوعی قطعی نیست.
اوایل این هفته، گوگل مدل های ارتقا یافته Gemini را منتشر کرد و در اوایل ماه، OpenAI از مدل o1 خود رونمایی کرد. اما روز چهارشنبه، نوبت متا بود که جدیدترین مدل خود را در کنفرانس سالانه توسعه دهندگان Meta Connect 2024 شرکت در منلو پارک به نمایش بگذارد.
خانواده مدلهای چند زبانه Llama متا به نسخه ۳.۲ رسیده است، با پیشرفت از ۳.۱ نشان میدهد که چندین مدل Llama اکنون چند وجهی هستند.
Llama 3.2 11B – یک مدل جمع و جور – و ۹۰B، که یک مدل بزرگتر و توانمندتر است، می تواند نمودارها، caption images، و اشیاء را در تصاویر با توضیحات ساده تفسیر کند.
برای مثال، با توجه به نقشهای از یک پارک، Llama 3.2 11B و ۹۰B میتوانند به سؤالاتی مانند «چه زمانی زمین شیبدارتر شود؟» و “فاصله این مسیر با من چقدر است؟” پاسخ دهند.
یا با ارائه نموداری که درآمد یک شرکت را در طول یک سال نشان میدهد، مدلها میتوانند به سرعت بهترین ماههای این دسته را به تصویر بکشند.
برای توسعهدهندگانی که میخواهند از این مدلها صرفاً برای برنامههای متنی استفاده کنند، متا میگوید که Llama 3.2 11B و ۹۰B بهعنوان جایگزینی برای نسخه ۳.۱ طراحی شدهاند.
۱۱B و ۹۰B را می توان با ابزار ایمنی جدید، Llama Guard Vision، که برای شناسایی متون و تصاویر بالقوه مضر (مثلاً مغرضانه یا سمی) طراحی شده است که به مدل ها داده شده یا تولید می شود، استفاده کرد.
در اکثر نقاط جهان، مدلهای چند وجهی Llama را میتوان از تعداد زیادی از پلتفرمهای ابری، از جمله Hugging Face، Microsoft Azure، Google Cloud و AWS دانلود کرد و از آن استفاده کرد.
متا همچنین آنها را در سایت رسمی Llama.com میزبانی می کند و از آنها برای تقویت دستیار هوش مصنوعی خود، Meta AI در واتس اپ، اینستاگرام و فیس بوک استفاده می کند.
اما Llama 3.2 11B و ۹۰B در اروپا قابل دسترسی نیستند. در نتیجه، چندین ویژگی Meta AI ، مانند تجزیه و تحلیل تصویر، برای کاربران اروپایی غیرفعال شده است. متا بار دیگر ماهیت “غیر قابل پیش بینی” محیط نظارتی bloc را مقصر دانست.
متا درباره قانون هوش مصنوعی، قانون اتحادیه اروپا که چارچوب قانونی و نظارتی را برای هوش مصنوعی ایجاد میکند، نگرانیهای خود را ابراز کرده و تعهد داوطلبانه ایمنی مرتبط با آن را رد کرده است.
قانون هوش مصنوعی شرکتهایی را که هوش مصنوعی را در اتحادیه اروپا توسعه میدهند، متعهد میسازد که مدلهایشان را در موقعیتهایی مانند پلیس راهاندازی کنند.
متا نگران است که ماهیت “باز” مدلهایش، که بینش کمی در مورد نحوه استفاده از مدلها به او میدهد، ممکن است پیروی از قوانین AI را دشوار کند.
همچنین برای Meta، مقرراتی در GDPR، قانون گسترده حریم خصوصی اتحادیه اروپا، مربوط به آموزش هوش مصنوعی مطرح است.
متا مدلهایی را بر روی دادههای عمومی کاربران اینستاگرام و فیسبوک که انصراف ندادهاند آموزش میدهد – دادههایی که در اروپا مشمول ضمانتهای GDPR هستند.
رگولاتورهای اتحادیه اروپا در اوایل سال جاری از متا درخواست کردند که آموزش در مورد داده های کاربران اروپایی را در حالی که آنها مطابقت با GDPR شرکت را ارزیابی می کنند، متوقف کند.
در اوایل این ماه، متا گفت که پس از «تلفیق بازخورد نظارتی» در فرآیند انصراف تجدیدنظر شده، آموزش دادههای کاربران بریتانیا را از سر خواهد گرفت. اما این شرکت هنوز بهروزرسانی در مورد آموزشهای خود در سایر بخشهای بلوک را به اشتراک نگذاشته است.
دیگر مدلهای جدید Llama – مدلهایی که با دادههای کاربران اروپایی آموزش ندیدهاند – در اروپا (و در سطح جهانی) عرضه میشوند.
Llama 3.2 1B و ۳B، دو مدل سبک وزن و فقط متنی که برای اجرا در گوشیهای هوشمند و سایر edge devices طراحی شدهاند، میتوانند برای کارهایی مانند خلاصهسازی و بازنویسی پاراگرافها (مثلاً در ایمیل) استفاده شوند.
متا می گوید که برای سخت افزار Arm از کوالکام و مدیاتک بهینه شده است، ۱B و ۳B همچنین می توانند از ابزارهایی مانند برنامه های تقویم با کمی پیکربندی استفاده کنند و به آنها اجازه می دهد به طور مستقل اقدامات خود را انجام دهند.
هیچ دنبالهای برای مدل پرچمدار Llama 3.1 405B که در ماه آگوست عرضه شد، چند وجهی یا غیر چندوجهی وجود ندارد.
با توجه به اندازه عظیم ۴۰۵B – ماه ها طول کشید تا آموزش داده شود – احتمالاً موضوع منابع محاسباتی محدود است.
Llama Stack جدید متا، مجموعهای از ابزارهای توسعهدهنده متمرکز بر Llama، میتواند برای تنظیم دقیق تمام مدلهای Llama 3.2 استفاده شود: ۱B، ۳B، ۱۱B، و ۹۰B.
متا میگوید صرفنظر از نحوه سفارشیسازی، مدلها میتوانند تا حدود ۱۰۰۰۰۰ کلمه را همزمان پردازش کنند.
متا ادعا می کند که مدل های Llama آن بیش از ۳۵۰ میلیون بار دانلود شده است و توسط شرکت های بزرگ از جمله Zoom، AT&T و Goldman Sachs استفاده می شود.
برای بسیاری از این توسعه دهندگان و شرکت ها، مهم نیست که مدل های Llama به معنای دقیق آن “باز” نباشند.
مجوز متا نحوه استفاده از برنامهنویسهای خاص را محدود میکند. پلتفرم هایی با بیش از ۷۰۰ میلیون کاربر ماهانه باید مجوز خاصی را از متا درخواست کنند که این شرکت بنا به صلاحدید خود اعطا می کند.
مسلماً پلتفرمهای زیادی با این اندازه بدون مدلهای داخلی خود وجود ندارند. اما متا در مورد این فرآیند شفاف نیست.
هیچکدام از مدلهای Llama 3.2 مشکلات اساسی هوش مصنوعی امروزی را حل نمیکنند، مانند تمایل آن به ایجاد چیزها و بازگردانی دادههای آموزشی مشکلساز (مانند کتابهای الکترونیکی دارای حق چاپ که ممکن است بدون اجازه استفاده شده باشند، که موضوع دعوای دستهجمعی علیه متا است ).