با DeepFloyd، هنر هوش مصنوعی مولد ارتقای متنی دریافت میکند
به گزارش اپ خونه، همانطور که میم های وایرال مانند Balenciaga Pope نشان می دهد ، هوش مصنوعی مولد این روزها از نظر وفاداری بسیار چشمگیر است .
جدیدترین سیستمها میتوانند مناظری را از خط افق شهر تا کافهها ایجاد کنند و تصاویری را ایجاد کنند که به طرز شگفتانگیزی واقعی به نظر میرسند – حداقل در نگاه اول.
اما یکی از ضعف های قدیمی مدل های هوش مصنوعی متن به تصویر، از قضا متن است. حتی بهترین مدلها هم برای تولید تصاویر با آرمهای خوانا، بسیار کمتر از متن، خوشنویسی یا فونت، تلاش میکنند.
اما ممکن است تغییر کند.
هفته گذشته، DeepFloyd، یک گروه تحقیقاتی تحت حمایت Stability AI ، از DeepFloyd IF ، یک مدل متن به تصویر که میتواند «هوشمندانه» متن را در تصاویر ادغام کند، رونمایی کرد .
DeepFloyd IF که بر روی مجموعه داده ای متشکل از بیش از یک میلیارد تصویر و متن آموزش دیده است، که برای اجرا به یک پردازنده گرافیکی با حداقل ۱۶ گیگابایت رم نیاز دارد، می تواند تصویری را از پیامی مانند “خرس عروسکی پوشیده از پیراهنی که “Deep Floyd” می پوشد به صورت اختیاری در طیف وسیعی از سبک ها ایجاد کند. ”
DeepFloyd IF به صورت متن باز در دسترس است، مجوز آن به گونه ای است که استفاده تجاری را در حال حاضر ممنوع می کند .
این محدودیت احتمالاً ناشی از وضعیت حقوقی ضعیف فعلی مدلهای هنری مولد هوش مصنوعی است.
چندین فروشنده مدل تجاری مورد انتقاد هنرمندانی قرار گرفتهاند که ادعا میکنند فروشندگان از کارشان سود میبرند، بدون اینکه به آنها غرامتی بدهند و بدون اجازه آن اثر را از وب پاک کنند.
اما NightCafe، پلتفرم هنری مولد، دسترسی زودهنگام به DeepFloyd IF را دریافت کرد.
مدیر عامل NightCafe، آنگوس راسل، در مورد اینکه چه چیزی DeepFloyd IF را از سایر مدلهای تبدیل متن به تصویر متمایز میکند و اینکه چرا ممکن است یک گام به جلو برای هوش مصنوعی مولد باشد، صحبت کرد.
به گفته راسل، طراحی DeepFloyd IF به شدت از مدل Imagen گوگل الهام گرفته شده است که هرگز به صورت عمومی منتشر نشد.
برخلاف مدلهایی مانند OpenAI’s DALL-E 2 و Stable Diffusion ، DeepFloyd IF از چندین فرآیند مختلف در یک معماری ماژولار برای تولید تصاویر استفاده میکند.
DeepFloyd IF
با یک مدل انتشار معمولی، مدل یاد میگیرد که چگونه به تدریج نویز را از یک تصویر شروع که تقریباً به طور کامل از نویز ساخته شده است کم کند و آن را گام به گام به اعلان هدف نزدیکتر کند.
DeepFloyd IF انتشار را نه یک بار بلکه چندین بار انجام می دهد و یک تصویر 64x64px ایجاد می کند و سپس تصویر را به 256x256px و در نهایت به 1024x1024px ارتقا می دهد.
چرا به مراحل انتشار چندگانه نیاز است؟ راسل توضیح داد که DeepFloyd IF مستقیماً با پیکسل ها کار می کند.
مدلهای انتشار در بیشتر موارد مدلهای انتشار پنهان هستند، که اساساً به این معنی است که در فضایی با ابعاد پایینتر کار میکنند که پیکسلهای بسیار بیشتری را نشان میدهد اما به روشی کمتر دقیق.
تفاوت کلیدی دیگر DeepFloyd IF و مدل هایی مانند Stable Diffusion و DALL-E 2 این است که اولی از یک مدل زبان بزرگ برای درک و نمایش اعلان ها به عنوان یک بردار، یک ساختار داده پایه، استفاده می کند.
با توجه به اندازه مدل زبان بزرگ تعبیه شده در معماری DeepFloyd IF، این مدل به ویژه در درک اعلان های پیچیده و حتی روابط فضایی توصیف شده در اعلان ها خوب است (مثلاً “مکعب قرمز در بالای یک کره صورتی”).
راسل افزود: «همچنین در تولید متن خوانا و املای صحیح در تصاویر بسیار خوب است و حتی میتواند اعلانها را در چندین زبان درک کند. از میان این قابلیتها، توانایی تولید متن خوانا در تصاویر، شاید بزرگترین پیشرفت برای متمایز کردن DeepFloyd IF از سایر الگوریتمها باشد.»
از آنجایی که DeepFloyd IF میتواند به خوبی متن را در تصاویر تولید کند، راسل انتظار دارد موجی از امکانات هنری مولد جدید را مانند طراحی لوگو، طراحی وب، پوسترها، بیلبوردها و حتی میمها باز کند .
او میگوید این مدل همچنین باید در تولید چیزهایی مانند دستها بسیار بهتر باشد، و – چون میتواند اعلانهای زبانهای دیگر را درک کند – ممکن است بتواند متنی را در آن زبانها نیز ایجاد کند.
راسل گفت :
« کاربران NightCafe در مورد DeepFloyd IF تا حد زیادی به دلیل امکاناتی که با تولید متن در تصاویر باز می شود، هیجان زده هستند. Stable Diffusion XL اولین الگوریتم منبع باز بود که در تولید متن پیشرفت کرد – گاهی اوقات می تواند یک یا دو کلمه را با دقت تولید کند – اما هنوز برای مواردی که متن مهم است به اندازه کافی خوب نیست.»
این بدان معنا نیست که DeepFloyd IF جام مقدس مدل های متن به تصویر است.
راسل خاطرنشان میکند که مدل پایه تصاویری را ایجاد نمیکند که از نظر زیباییشناختی به اندازه برخی مدلهای انتشاری خوشایند باشند، اگرچه او انتظار دارد که تنظیم دقیق آن را بهبود بخشد.
اما سوال بزرگتر این است که DeepFloyd IF تا چه حد از همان نقصهایی رنج میبرد که برادران هوش مصنوعی مولد خود دارند.
تعداد فزایندهای از تحقیقات به شکلهای نژادی، قومی، جنسیتی و سایر اشکال کلیشهای در هوش مصنوعی تولیدکننده تصویر، از جمله Stable Diffusion ، نشان دادهاند .
همین ماه، محققان استارتآپ Hugging Face و دانشگاه لایپزیگ ابزاری را منتشر کردند که نشان میدهد مدلهایی از جمله Stable Diffusion و OpenAI’s DALL-E 2 تمایل به تولید تصاویری از افرادی دارند که سفید و مرد به نظر میرسند، به ویژه زمانی که از آنها خواسته میشود افرادی را در موقعیتهای قدرتمند به تصویر بکشند.
تیم DeepFloyd، به اعتبار خود، به پتانسیل تعصبات در چاپ ظریف همراه با DeepFloyd IF اشاره می کند:
متون و تصاویر جوامع و فرهنگهایی که از زبانهای دیگر استفاده میکنند احتمالاً به اندازه کافی توضیح داده نمیشوند. این بر خروجی کلی مدل تأثیر می گذارد، زیرا فرهنگ های سفید و غربی اغلب به عنوان پیش فرض تنظیم می شوند.