هوش مصنوعی پایداری از تلاش برای آوردن یادگیری ماشینی به بیومد حمایت می کند
به گزارش اپ خونه، Stability AI، استارتآپ مخاطرهآمیز در پشت سیستم هوش مصنوعی متن به تصویر Stable Diffusion، تلاش گستردهای را برای اعمال هوش مصنوعی در مرزهای بیوتکنولوژی تامین میکند. اولین پروژههای این تلاش که OpenBioML نام دارد، بر رویکردهای مبتنی بر یادگیری ماشینی برای توالییابی DNA، تا کردن پروتئین و بیوشیمی محاسباتی متمرکز خواهد بود.
بنیانگذاران این شرکت OpenBioML را به عنوان یک “آزمایشگاه تحقیقاتی باز” توصیف می کنند و به گفته عماد مستاک، مدیر عامل هوش مصنوعی پایداری، هدف آن کشف تقاطع هوش مصنوعی و زیست شناسی در محیطی است که دانش آموزان، متخصصان و محققان می توانند در آن شرکت کنند و با هم همکاری کنند.
Mostaque در یک مصاحبه ایمیلی گفت: «OpenBioML یکی از جوامع تحقیقاتی مستقلی است که Stability از آن پشتیبانی می کند. ثبات به دنبال توسعه و دموکراتیزه کردن هوش مصنوعی است و از طریق OpenBioML، ما فرصتی برای پیشبرد وضعیت هنر در علوم، بهداشت و پزشکی می بینیم.»
با توجه به بحث و جدل پیرامون Stable Diffusion – سیستم هوش مصنوعی Stability AI که هنر را از توضیحات متن ایجاد می کند، مشابه DALL-E 2 OpenAI – ممکن است به طور قابل درک در مورد اولین سرمایه گذاری Stability AI در مراقبت های بهداشتی محتاط باشیم. این استارتآپ یک رویکرد آزادانه برای حاکمیت در پیش گرفته است و به توسعه دهندگان این امکان را میدهد تا از این سیستم هر طور که میخواهند استفاده کنند، از جمله برای دیپفیکهای افراد مشهور .
گذشته از تصمیمات اخلاقی مشکوک هوش مصنوعی پایداری، یادگیری ماشینی در پزشکی یک میدان مین است. در حالی که این فناوری با موفقیت برای تشخیص بیماریهایی مانند بیماریهای پوستی و چشمی از جمله موارد دیگر استفاده شده است، تحقیقات نشان داده است که الگوریتمها میتوانند سوگیریهایی ایجاد کنند که منجر به مراقبت بدتر برای برخی از بیماران میشود. به عنوان مثال، یک مطالعه آوریل ۲۰۲۱ نشان داد که مدلهای آماری مورد استفاده برای پیشبینی خطر خودکشی در بیماران سلامت روان برای بیماران سفیدپوست و آسیایی عملکرد خوبی داشتند اما برای بیماران سیاهپوست ضعیف بودند.
OpenBioML با قلمرو امن تر، عاقلانه شروع می شود. اولین پروژه های آن عبارتند از:
_BioLM، که به دنبال استفاده از تکنیک های پردازش زبان طبیعی (NLP) در زمینه های زیست شناسی محاسباتی و شیمی است.
_DNA-Diffusion، که هدف آن توسعه هوش مصنوعی است که می تواند توالی های DNA را از پیام های متنی تولید کند
_LibreFold، که به نظر میرسد دسترسی به سیستمهای پیشبینی ساختار پروتئین هوش مصنوعی مشابه AlphaFold 2 DeepMind را افزایش دهد.
هر پروژه توسط محققان مستقل هدایت می شود، اما هوش مصنوعی پایداری در قالب دسترسی به خوشه میزبان AWS با بیش از ۵۰۰۰ پردازنده گرافیکی Nvidia A100 برای آموزش سیستم های هوش مصنوعی پشتیبانی می کند. به گفته نیکولو زانیچلی، دانش آموخته علوم کامپیوتر در دانشگاه پارما و یکی از محققین اصلی OpenBioML، این قدرت پردازشی و ذخیره سازی کافی برای در نهایت آموزش تا ۱۰ سیستم مختلف شبیه به AlphaFold 2 به صورت موازی خواهد بود.
«بسیاری از تحقیقات زیستشناسی محاسباتی در حال حاضر به انتشار منبع باز منجر شده است. با این حال، بیشتر آن در سطح یک آزمایشگاه اتفاق می افتد و بنابراین معمولاً توسط منابع محاسباتی ناکافی محدود می شود. ما میخواهیم این را با تشویق همکاریهای در مقیاس بزرگ تغییر دهیم و به لطف حمایت از هوش مصنوعی پایداری، از این همکاریها با منابعی که تنها بزرگترین آزمایشگاههای صنعتی به آن دسترسی دارند، حمایت کنیم.»
تولید توالی DNA
از پروژههای در حال انجام OpenBioML، DNA-Diffusion – که توسط آزمایشگاه پروفسور آسیبشناسی لوکا پینلو در بیمارستان عمومی ماساچوست و دانشکده پزشکی هاروارد رهبری میشود، شاید بلندپروازانهترین آنها باشد. هدف استفاده از سیستمهای هوش مصنوعی مولد برای یادگیری و اعمال قوانین توالیهای «تنظیمی» DNA یا بخشهایی از مولکولهای اسید نوکلئیک است که بر بیان ژنهای خاص در یک ارگانیسم تأثیر میگذارند. بسیاری از بیماریها و اختلالات نتیجه ژنهای تنظیم نادرست هستند، اما علم هنوز فرآیند قابل اعتمادی را برای شناسایی این توالیهای تنظیمی – بسیار کمتر در حال تغییر – کشف نکرده است.
DNA-Diffusion استفاده از یک نوع سیستم هوش مصنوعی معروف به مدل انتشار را برای تولید توالیهای DNA تنظیمکننده خاص نوع سلول پیشنهاد میکند. مدلهای انتشار – که زیربنای مولدهای تصویر مانند Stable Diffusion و OpenAI’s DALL-E 2 هستند – با یادگیری نحوه از بین بردن و بازیابی بسیاری از نمونههای موجود داده، دادههای جدیدی (مانند توالیهای DNA) ایجاد میکنند. همانطور که نمونهها را تغذیه میکنند، مدلها در بازیابی تمام دادههایی که قبلاً برای تولید آثار جدید نابود کرده بودند، بهتر میشوند.
زانیچلی میگوید: انتشار موفقیت گستردهای در مدلهای مولد چندوجهی داشته است و اکنون در زیستشناسی محاسباتی بهعنوان مثال برای تولید ساختارهای پروتئینی جدید استفاده میشود. با انتشار DNA، اکنون در حال بررسی کاربرد آن در توالیهای ژنومی هستیم.
اگر همه چیز طبق برنامه پیش برود، پروژه DNA-Diffusion یک مدل انتشار تولید میکند که میتواند توالیهای DNA تنظیمی را از دستورالعملهای متنی تولید کند، مانند «توالی که یک ژن را به حداکثر سطح بیان آن در سلول نوع X فعال میکند» و «توالی که یک ژن را در کبد و قلب فعال می کند، اما در مغز نه».
زانیچلی میگوید چنین مدلی میتواند به تفسیر اجزای توالیهای تنظیمی نیز کمک کند – درک جامعه علمی از نقش توالیهای تنظیمی در بیماریهای مختلف را بهبود میبخشد.
شایان ذکر است که این تا حد زیادی تئوری است. زانیچلی اذعان میکند که در حالی که تحقیقات اولیه در مورد استفاده از دیفیوژن در تا کردن پروتئین امیدوارکننده به نظر میرسد، اما زانیچلی اذعان میکند که این روزهای بسیار ابتدایی است – از این رو فشار برای مشارکت گستردهتر جامعه هوش مصنوعی است.
پیش بینی ساختارهای پروتئینی
LibreFold OpenBioML، اگرچه از نظر وسعت کوچکتر است، به احتمال زیاد فوراً نتیجه می دهد. این پروژه به دنبال دستیابی به درک بهتری از سیستم های یادگیری ماشینی است که ساختارهای پروتئین را علاوه بر راه هایی برای بهبود آنها پیش بینی می کند.
همانطور که همکار من دوین کولدیوی در مقاله خود درباره کار DeepMind روی AlphaFold 2 توضیح داد، سیستمهای هوش مصنوعی که شکل پروتئین را به طور دقیق پیشبینی میکنند در صحنه نسبتاً جدید هستند اما از نظر پتانسیلشان دگرگونکننده هستند. پروتئین ها شامل دنباله هایی از اسیدهای آمینه هستند که برای انجام وظایف مختلف در موجودات زنده به شکل تا می شوند. فرآیند تعیین اینکه یک توالی اسیدها چه شکلی ایجاد می کند، زمانی یک کار سخت و مستعد خطا بود. سیستم های هوش مصنوعی مانند AlphaFold 2 این را تغییر دادند. به لطف آنها، بیش از ۹۸٪ از ساختارهای پروتئین در بدن انسان برای علم امروز شناخته شده است، و همچنین صدها هزار ساختار دیگر در موجوداتی مانند E. coli و مخمر.
گروه های کمی از تخصص مهندسی و منابع لازم برای توسعه این نوع هوش مصنوعی برخوردار هستند. DeepMind روزها را صرف آموزش AlphaFold 2 روی واحدهای پردازش تانسور (TPUs)، سخت افزار گران قیمت شتاب دهنده هوش مصنوعی گوگل کرد. و مجموعه داده های آموزش توالی اسید اغلب اختصاصی هستند یا تحت مجوزهای غیرتجاری منتشر می شوند.
پروتئین ها در ساختار سه بعدی خود تا می شوند
زانیچلی با اشاره به مدل آموزش دیده AlphaFold 2 که DeepMind در سال گذشته منتشر کرد، گفت: “این مایه تاسف است، زیرا اگر به آنچه جامعه توانسته است در بالای ایست بازرسی AlphaFold 2 که توسط DeepMind منتشر شده است نگاه کنید، به سادگی باورنکردنی است.” . به عنوان مثال، تنها چند روز پس از انتشار، مینکیونگ باک، استاد دانشگاه ملی سئول، ترفندی را در توییتر گزارش کرد که به مدل اجازه میدهد ساختارهای چهارتایی را پیشبینی کند – چیزی که کمتر کسی انتظار داشت که مدل قادر به انجام آن باشد. نمونههای بسیار بیشتری از این نوع وجود دارد، پس چه کسی میداند که اگر جامعه علمی گستردهتر توانایی آموزش روشهای کاملاً جدید پیشبینی ساختار پروتئینی مشابه آلفا فولد را داشته باشد، چه چیزی میتواند بسازد؟
LibreFold با تکیه بر کار RoseTTAFold و OpenFold، دو تلاش مداوم جامعه برای تکرار AlphaFold 2، آزمایشهای «مقیاس بزرگ» را با سیستمهای مختلف پیشبینی تاخوردگی پروتئین تسهیل میکند. به گفته زانیچلی، تمرکز LibreFold که توسط محققان دانشگاه کالج لندن، هاروارد و استکهلم رهبری میشود، به دست آوردن درک بهتری از آنچه که سیستمها میتوانند انجام دهند و چرا انجام میدهند، خواهد بود.
«LibreFold در قلب خود یک پروژه برای جامعه است، توسط جامعه. همین امر در مورد انتشار هر دو مدل بازرسی و مجموعه دادهها صدق میکند، زیرا ممکن است تنها یک یا دو ماه طول بکشد تا ما شروع به انتشار اولین محصولات تحویلی کنیم یا به طور قابل توجهی بیشتر طول بکشد. “به گفته من، شهود من این است که اولی محتمل تر است.”
استفاده از NLP در بیوشیمی
در افق زمانی طولانی تری پروژه BioLM OpenBioML است که مأموریت مبهم “به کارگیری تکنیک های مدل سازی زبان برگرفته از NLP در توالی های بیوشیمیایی” را دارد. با همکاری EleutherAI، یک گروه تحقیقاتی که چندین مدل منبع باز تولید متن را منتشر کرده است، BioLM امیدوار است که «مدل های زبان بیوشیمیایی» جدید را برای طیف وسیعی از وظایف، از جمله تولید توالی پروتئین، آموزش دهد و منتشر کند.
زانیچلی به ProGen Salesforce به عنوان نمونه ای از انواع کارهایی که BioLM ممکن است شروع کند اشاره می کند. ProGen با توالی اسیدهای آمینه مانند کلمات در یک جمله رفتار می کند. این مدل که بر روی مجموعه داده ای از بیش از ۲۸۰ میلیون توالی پروتئین و ابرداده مرتبط آموزش دیده است، مجموعه بعدی آمینو اسیدها را از آمینو اسیدهای قبلی، مانند مدل زبانی که پایان یک جمله را از ابتدای آن پیش بینی می کند، پیش بینی می کند.
انویدیا در اوایل سال جاری یک مدل زبان به نام MegaMolBART منتشر کرد که بر روی مجموعه دادهای متشکل از میلیونها مولکول برای جستجوی اهداف دارویی بالقوه و پیشبینی واکنشهای شیمیایی آموزش دیده بود. متا همچنین اخیراً یک NLP به نام ESM-2 را بر روی توالی پروتئین ها آموزش داده است، رویکردی که شرکت ادعا می کند به آن اجازه می دهد توالی بیش از ۶۰۰ میلیون پروتئین را تنها در دو هفته پیش بینی کند.
ساختارهای پروتئینی پیش بینی شده توسط سیستم متا
نگاهی به آینده
در حالی که علایق OpenBioML گسترده است (و در حال گسترش است)، Mostaque می گوید که آنها با تمایل به “به حداکثر رساندن پتانسیل مثبت یادگیری ماشینی و هوش مصنوعی در زیست شناسی” با پیروی از سنت تحقیقات باز در علم و پزشکی متحد شده اند.
Mostaque ادامه داد: «”ما به دنبال این هستیم که محققان را قادر کنیم تا کنترل بیشتری بر خط لوله آزمایشی خود برای اهداف یادگیری فعال یا اعتبار سنجی مدل به دست آورند.” ما همچنین به دنبال ارتقای وضعیت هنر با مدلهای بیوتکنولوژی عمومی به طور فزایندهای هستیم، برخلاف معماریهای تخصصی و اهداف یادگیری که در حال حاضر بیشتر زیستشناسی محاسباتی را مشخص میکند.»
اما – همانطور که ممکن است از یک استارتآپ با پشتوانه VC که اخیراً بیش از ۱۰۰ میلیون دلار جمعآوری کرده است انتظار میرود – Stability AI OpenBioML را یک تلاش صرفاً بشردوستانه نمیبیند. Mostaque میگوید که شرکت برای کاوش تجاریسازی فناوری از OpenBioML “زمانی که به اندازه کافی پیشرفته و ایمن باشد و زمانی که زمان مناسب باشد” آماده است.