پلتفرم تولید صدا ElevenLabs نوزده میلیون دلار جمع آوری می کند و ابزار تشخیص را راه اندازی می کند
به گزارش اپ خونه، ElevenLabs ، پلتفرم مبتنی بر هوش مصنوعی برای ایجاد صداهای مصنوعی، دور جدیدی از پول نقد را جمع آوری کرده است.
این استارتآپ بسته شدن دوره ۱۹ میلیون دلاری سری A را به رهبری کارآفرینان نات فریدمن و دانیل گراس در کنار آندریسن هوروویتز اعلام کرد.
سایر شرکتکنندگان شامل Creator Ventures، SV Angel، بنیانگذار اینستاگرام، مایک کریگر، بنیانگذار Oculus، برندان آیریب، بنیانگذار Deepmind و Inflection AI مصطفی سلیمان و موسس O’Reilly Media، تیم اوریلی بودند.
یک منبع آگاه میگوید که ارزش بخش ElevenLabs نود و نه میلیون دلار است که رقم قابلاعتمادی می باشد، بهویژه با توجه به اینکه این استارتآپ کمی بیش از یک سال پیش راهاندازی شد.
Mati Staniszewski یکی از بنیانگذاران و مدیرعامل شرکت گفت:
“این سرمایه گذاری برای ادامه ساخت مرکز تحقیقاتی پیشرفته ElevenLab برای هوش مصنوعی صوتی و راه اندازی طیف وسیعی از محصولات اضافی برای پشتیبانی از بازارهای عمودی خاص مانند انتشار، بازی، سرگرمی و برنامه های مکالمه استفاده خواهد شد. “
ElevenLabs، که طی چند ماه گذشته به دلایل خوب و نفرت انگیز تیتر خبرها شده بود، توسط استانیسفسکی، که قبلا در Palantir کار می کرد، و دوست دوران کودکی اش پیوتر دابکوفسکی، کارمند سابق گوگل، تاسیس شد.
این دو نفر با الهام از دوبله متوسط فیلمهای آمریکایی که در لهستان، کشور مادری خود، تماشا میکردند، به طراحی پلتفرمی مبتنی بر هوش مصنوعی پرداختند که میتوانست بهتر عمل کند.
ElevenLabs میتواند متن را با استفاده از صداهای مصنوعی، صداهای شبیهسازیشده یا صداهای کاملاً جدید مصنوعی که صدای افراد با جنسیتها، سنین و قومیتهای مختلف را تقلید میکند، به گفتار تبدیل کند.
مدلهای تبدیل متن به گفتار هوش مصنوعی این شرکت دارای زبانی ناشناس هستند و به مشتریان شرکتی اجازه میدهند تا آنها را تنظیم کنند و مدلهای گفتاری اختصاصی خود را در بالا بسازند.
همزمان با افزایش دستمزدهای سری آ ، ElevenLabs با ۱۵ کارمند پروژهها را راهاندازی میکند، که یک گردش کار برای ویرایش و ایجاد محتوای گفتاری طولانی است.
با پروژه ها، کاربران می توانند بخش های گفتگو و حتی کتاب های صوتی را بدون نیاز به ترک پلت فرم تولید کنند.
Staniszewski میگوید:
«برای شرکای تجاری، فناوری ما میتواند در زمینههایی مانند ایجاد کتابهای صوتی مقیاسپذیر و چندزبانه، بیان شخصیتها در بازیهای ویدیویی، بیان مقالات دیجیتال، پشتیبانی از افراد کم بینا برای دسترسی به محتوای نوشتاری آنلاین و تقویت رادیو هوش مصنوعی استفاده شود. »
ElevenLabs، که در اواخر ژانویه در نسخه بتا راه اندازی شد، به دلیل کیفیت بسیار بالای صداهای تولید شده، زمان تولید سریع و سطح رایگان سخاوتمندانه، به سرعت وایرال شد.
اما همانطور که قبلا اشاره شد، تبلیغات همیشه مثبت نبوده است – به ویژه زمانی که بازیگران بد شروع به سوء استفاده از پلت فرم برای اهداف خود کردند.
4chan، تابلوی پیام بدنام که به خاطر محتوای توطئهآمیزش شناخته میشود، از ابزار ElevenLabs برای به اشتراک گذاشتن پیامهای نفرتانگیز با تقلید از افراد مشهوری مانند بازیگر اما واتسون استفاده کرد .
در پاسخ، ElevenLabs گفت که مجموعهای از پادمانهای جدید مانند محدود کردن شبیهسازی صوتی به حسابهای پولی، ممنوعیت کاربرانی که مکرراً شرایط خدمات آن را نقض میکنند و ارائه یک ابزار تشخیص هوش مصنوعی جدید معرفی میکند.
ابزار تشخیص اکنون راه اندازی می شود. این AI Speech Classifier نامیده می شود و به عنوان یک API برای شرکای انتخابی در دسترس است، برای تشخیص اینکه آیا یک نمونه صوتی آپلود شده حاوی محتوای تولید شده توسط هوش مصنوعی ElevenLabs است یا خیر، طراحی شده است.
استانیسفسکی گفت:
«حصول اطمینان از استفاده ایمن از پلتفرمهای هوش مصنوعی یک چالش کلیدی برای کل بخش تولید شده با هوش مصنوعی، از جمله پلتفرمهای متن، تصویر و صدا است.
ما باید اطمینان حاصل کنیم که مردم در مورد ماهیت چشم انداز رسانه های مولد آموزش دیده اند و بدانند که چنین محتوایی در آنجا وجود دارد – ما متعهد به ساخت ابزارهایی برای کمک به مردم برای شناسایی محتوای تولید شده توسط هوش مصنوعی به منظور شفافیت هستیم.»
یک ابزار تشخیص داوطلبانه – با فرض اینکه حتی همانطور که تبلیغ می شود کار کند – لزوماً از رفتار بد جلوگیری نمی کند. اما مورد دیگر وجود دارد که ElevenLabs به آن توجه نکرده است: تهدیدی که فناوری آن برای صداپیشه ها ایجاد می کند.
Motherboard در مورد این است که چگونه از صداپیشگان به طور فزایندهای خواسته میشود تا حقوق صدای خود را امضا کنند تا مشتریان بتوانند از هوش مصنوعی برای تولید نسخههای مصنوعی استفاده کنند که در نهایت میتواند جایگزین آنها شود و گاهی اوقات بدون پرداخت هزینه اضافی است .
در همین حال ، ایمیلهای داخلی دیدهشده توسط نیویورک تایمز نشان میدهد که Activision Blizzard، یکی از بزرگترین ناشران بازی در جهان، در حال کار بر روی ابزارهایی برای شبیهسازی صدا با کمک هوش مصنوعی است.
به نظر میرسد که ElevenLabs این را پیشرفت طبیعی همه چیز میداند و کار خود را با ناشرانی مانند Storytel و پلتفرمهای رسانهای مانند TheSoul Publishing و MNTN برای کتابهای صوتی، بازیهای ویدیویی و محتوای رادیویی تبلیغ میکند. (Storytel و TheSoul Publishing سرمایه گذاران استراتژیک هستند.)
این شرکت ادعا می کند که بیش از یک میلیون کاربر ثبت شده در فضاهای خلاقانه، سرگرمی و انتشاراتی دارد که ده سال محتوای صوتی ایجاد کرده اند.
ElevenLabs قصد دارد در نهایت مدلهای هوش مصنوعی خود را به دوبله صوتی گسترش دهد و به دنبال راهاندازی استارتآپهایی مانند Papercup و Deepdub باشد و آنچه را که «بنیانی برای انتقال احساسات و لحن از زبانی به زبان دیگر» مینامد، بسازد.
ElevenLabs در یک بیانیه مطبوعاتی می نویسد:
“این امکان را فراهم می کند تا هر ویدیویی به هر زبانی به روشی جذاب، موثر و مقیاس پذیر دوبله شود، همه اینها در عین حفظ صدای گوینده اصلی است. ما در حال انجام تعدادی آزمایش با شرکای صنعتی برای فعال کردن دوبله هوش مصنوعی در مقیاس هستیم.”
ElevenLabs با ۲۱ میلیون دلار در بانک (که ۲ میلیون دلار آن از یک دور اولیه در ژانویه به دست آمد) بر روی غلبه بر رقبای خود در فضای رو به رشد صدای مولد متمرکز شده است.
آنها شامل شرکتهایی مانند آمازون، گوگل و مایکروسافت و همچنین استارتآپهایی مانند Murf ، Tavus ، Resemble AI ، Respeecher ، Play.ht و Lovo هستند .