sora (سورا) هوش مصنوعی مولد ویدیوی Open AI؛ امکانات و نحوه‌ی استفاده

حسین رضائی
زمان مطالعه: 10 دقیقه

هوش مصنوعی Sora یک مدل ساخت ویدیوی مبتنی بر یادگیری ماشین (machine-learning) است. مولد ویدیوی سورا (Sora) توسط Open AI طراحی و قابلیت ایجاد صحنه‌های واقعی و تخیلی را از دستورات متنی دارد. سورا در نمایش‌های اولیه قابلیت‌های خیره‌کننده‌ای به نمایش گذاشت با این حال کاستی‌هایی نیز دارد. شرکت Open AI در حال رفع کاستی‌هاست تا این مولد ویدیوی جادویی را برای عرضه عمومی آماده کند.

چند سال پیش شاهد رونمایی از اولین مولد‌های ویدیوی مبتنی بر هوش مصنوعی بودیم که سوژه تمسخر بسیاری از کاربران فضای مجازی شد. حالا بعد از گذشت مدت کوتاهی هوش مصنوعی‌های مولد ویدیو به قدری پیشرفت کرده‌اند که حتی مخاطرات زیادی برای جهان با خود به همراه آورده‌اند. در حال شرکت‌های هوش مصنوعی بسیاری اقدام به ساخت مدل‌های هوش مصنوعی مولد ویدیوی خود کرده‌اند.

هوش مصنوعی مولد ویدیو و شرکت‌های مختلف

شرکت Open AI مالک Chat GPT، بزرگترین چت بات هوش مصنوعی جهان و بزرگترین پرچمدار هوش مصنوعی است. Open AI در حال حاضر امکانات و قابلیت‌های متعددی هوش مصنوعی در زمینه صوت و تصویر دارد. جای خالی مولد ویدیو در خدمات این شرکت حس می‌شد. در همین زمان که شرکت‌های بزرگ همچون گوگل و Open AI محصولی به بازار عرضه نکرده‌ بودند، شرکت‌های کوچکی همچون Runway و Pika از فرصت استفاده کردند. شرکت‌های کوچک مولد‌های ویدیوی خود مبتنی بر هوش مصنوعی و با استفاده از دستورات متنی را به بازار عرضه کردند.

گوگل هر روزه گزارشاتی از تحقیقاتش روی مدل‌های مختلف هوش مصنوعی را منتشر که از مولد ویدیو تا ساخت بازی دو بعدی از روی تصاویر را شامل می‌شود. چندی پیش نیز شاهد رونمایی از مدل ساخت ویدیویی با نام Video Poet از این شرکت بودیم که چندان خوش ‌آیند نبود ولی هنوز در مراحل آزمایشی قرار دارد و عرضه نشده است.

Open AI در اقدامی غیر منتظره از هوش مصنوعی مولد ویدیوی Sora رونمایی کرد. هوش مصنوعی سورا قابلیت‌هایی که شرکت‌های بزرگ انیمیشن سازی نظیر دیزنی و پیکسار برای ساخت آنها میلیون‌ها دلار هزینه می‌کنند به راحتی و با دستورات متنی آنها را ایجاد می‌کند. هوش مصنوعی‌های مولد ویدیو نیاز به صحنه، دوربین‌های گران قیمت، کارگردان، ادیتور و بسیاری از مشاغل و هزینه‌های هنگفت فیلم سازی را به زودی از بین خواهند برد.

Sora یک کلمه‌ی ژاپنی و به معنای آسمان است. به نظر می‌رسد Open AI برای بیان بی حد و حصر بودن این مدل هوش مصنوعی سورا را برای آن انتخاب کرده باشد.

قابلیت‌ها و عملکرد هوش مصنوعی Sora

طبق اطلاعات و ویدیوهای منتشره Open AI، هوش مصنوعی Sora قابلیت‌های زیر را پشتیبانی می‌کند:

ساخت ویدیو با استفاده از دستورات متنی (پرامپت): برای ساخت ویدیو به وسیله‌ی دستورات متنی کاملا مشابه مدل های فعلی، دنیای مد نظر خود را برای سورا شرح می‌دهیم تا با استفاده از پردازش‌های هوش مصنوعی این جهان را در قالب یک ویدیوی ۶۰ ثانیه‌ای برای ما خلق کند.
تغییر محیط یا اجزای یک ویدیو با استفاده از دستورات متنی: تغییر محیط و اجزای آن قابلیت دیگری است که توسط Open AI برای سورا طراحی شده است. در این قابلیت شما با استفاده از یک ویدیوی منبع که به هوش مصنوعی سورا می‌دهید از آن می‌خواهید تا برای شما برای مثال محیط اطراف را تغییر دهد یا به محیط جزئیاتی را اضافه و از آن حذف کند که در ویدیوی اصلی وجود نداشته است. هوش مصنوعی ‌های مطرح مولد ویدیو در حال حاضر این عملکرد را ندارند.
تبدیل تصاویر به ویدیو: تبدیل تصویر به ویدیو یکی از قابلیت‌های محبوب مدل‌های مبتنی بر یادگیری ماشین است که در حوزه ساخت ویدیو فعالیت می‌کنند. شاید ببینید در ویدیوهای مختلف تصاویری قرار می‌گیرد که ادیتورها با استفاده از زوم و آن زوم یا حتی حرکت روی عکس زوم شده سعی می‌کنند به تصویر حس زنده بودن بدهند. این قابلیت توسط هوش مصنوعی‌های مولد ویدیوی نظیر Runway و Pika به خوبی انجام می‌شود.
ترکیب چند ویدیو با یکدیگر: ترکیب چند ویدیو با یکدیگر توسط مولد ویدیوی Open AI بسیار خلاقانه و نو‌آورانه رخ می‌دهد به طوری که از ویدیوهای هوش مولد Sora به وجد می‌آیید. نمونه‌هایی از این ویدیوها را در ادامه می‌توانید ببینید.

بررسی نمونه‌ی ویدیوهای ساخته شده با Sora

هوش مصنوعی سورا در نمایش ویدیوهای پیچیده نیز عملکرد قابل قبولی ارائه می‌دهد. وقتی از آن بخواهیم برای ما یک موزه با آثار هنری را نمایش دهد، خواهیم دید این کار را با دقت و ظرافت بالایی انجام خواهد داد. اگر از هوش مولد Sora بخواهیم برای ما تعداد زیادی تلویزیون قدیمی را در حال نمایش فیلم‌های زمان خودشان با ژانرهای متفاوت نشان دهد، می‌بینیم که از پس این کار هم بر خواهد آمد که نشان از قدرت بالای این هوش مصنوعی در خلق و به تصویر کشیدن و همچنین نمایش جزئیات قابل توجه این دستورات متنی می‌دهد.

ویدیوهای هوش مصنوعی سورا نشان می‌دهد که این ویژگی‌ها واقعا به نحوی عالی در ویدیوها پیاده می‌شوند:

نورپردازی عالی از فضا و پخش شدن عالی نور
تفکیک خوب جمعیت و افراد در فضاهای شلوغ
نمایش عالی لباس‌ها ، کرک و پشم حیوانات و موهای کارکترها
تفکیک عالی دانه‌ها و اجزای ریز محیط مثل برف و شن و حفظ ساختار آنها

محدودیت و کاستی‌های مولد ویدیوی Sora

هوش مصنوعی در سال‌های اولیه تکامل خود قرار دارد به طوری که رئیس شرکت Open AI، سم آلتمن توانایی هوش مصنوعی در برهه‌ی فعلی را مشابه تلفن‌های همراه قدیمی که نمایشگر سیاه و سفید داشتند می‌داند. سم آلتمن معتقد است هوش مصنوعی چند سال آینده ما را شگفت زده می‌کند. هوش مصنوعی Sora نیز همانند سایر قابلیت‌های هوش مصنوعی که برای اولین بار عرضه می‌شوند محدودیت‌هایی دارد که خود شرکت Open AI نیز آنها را در سایت رسمی بیان و حتی نمونه‌هایی از آنها را نمایش می‌دهد.

ضعف‌های هوش مصنوعی مولد ویدیوی سورا از زبان Open AI:

در شبیه سازی دقیق فیزیک یک ‌صحنه‌ی پیچیده ممکن است با مشکل مواجه شود.
ممکن است در بعضی موارد یک اتفاق و نتیجه‌ی آن را درک نکند مثل گاز زدن یک کیک و اثر دندان بعد از آن.
در اجرای دستورات فضایی مثل نحوه‌ی حرکت دوربین و جهات چپ و راست ممکن است اشتباه کند.

علاوه بر ضعف‌های اعلامی توسط Open AI این موارد هم در بررسی ویدیو‌های ساخته شده به چشم می‌خورد:

ساخت ویدیوها به صورت اسلوموشن
عدم هماهنگی بعضی افراد با اتفاق ویدیو
مشکل در هماهنگی لبه‌های تصویر یا جاده و حرکت اشیا
خلق یا تغییر ناگهانی در اشکال موجود در ویدیو
پدیدار و محو شدن ناگهانی بعضی اجزای ویدیو
عبور از اجزای فیزیکی داخل ویدیو و عدم برخورد به آنها
ساخت چیزهایی که ممکن است با حقیقت مطابقت نداشته باشند
اشتباه در نمایش سایز بعضی اجسام و ارتفاع آنها در محیط

با توجه به نمونه‌ی اولیه‌ی Sora مطمئنا مشابه هوش مصنوعی‌های مولد تصویر در آپدیت‌های بعدی این کاستی‌هایی که با دقت زیاد باید متوجه آنها شد، حل می‌شوند. عدم توانایی ساخت فیلم‌های بلند با این فناوری نیز از ایرادات آن است و نمی‌توان به وسیله‌ی آن فیلم‌های سینمایی بلند و یکپارچه تولید کرد و نهایتا به ساخت ویدیو‌های ۱ دقیقه‌ای و کنار هم گذاشتن آنها می‌توان ویدیوی بلند تولید کرد.

مقایسه‌ی هوش مصنوعی سورا با Runway و Pika

چندی پیش دو شرکت با نام‌های Runway و Pika در زمینه‌ی ساخت ویدیو با هوش مصنوعی ظهور کردند. عملکرد خیره‌ کننده‌ی این دو هوش مصنوعی در زمینه‌ی ساخت ویدیو به قدری تحسین برانگیز و سریع بود که با استقبال زیادی مواجه شدند. حالا بیایید مقایسه‌ای میان Runway و Pika با هوش مصنوعی Sora داشته باشیم.

هوش مصنوعی Runway قابلیتی با نام موشن براش دارد. شما می‌توانید با استفاده از آن هرکدام از اجزای تصویر را با براش زدن متحرک کنید. Runway عملکرد فوق‌العاده جذاب و کم نقصی دارد و علاوه بر آن طیف وسیعی از امکانات را در اختیار شما قرار می‌دهد. این در حالی است که هوش مصنوعی Runway در ساخت ویدیو نقص‌های عمده‌ای از قبیل به هم ریختگی تصاویر در هنگام حرکت آنها دارد. مثل حرکت یک خودرو و به هم ریختن تصویر آن در یک خیابان شلوغ حین عوض کردن لاین. هوش مصنوعی Sora در مقایسه با Runway این مشکلات را ندارد ولی در عوض قابلیتی مثل موشن براش در آن مشاهده نمی‌شود.

دیالوگ و تکان دادن لب در هوش مصنوعی

به تازگی قابلیت دیالوگ خوانی به هوش مصنوعی Pika اضافه شد. درحالی که شرکت‌های بزرگ نظیر Open AI و گوگل هوش مصنوعی مولد ویدیوی خود را نظیر Sora و Video Poet را آزمایش می‌کنند؛ شرکت Pika اعلام کرده قابلیت اضافه کردن دیالوگ به ویدیوهای هوش مصنوعی با نام Lip Sync به این هوش مصنوعی اضافه که عملکردش را تکان دادن لب‌های شخصیت در ویدیو می‌توانید ببینید. این در حالی است که در ویدیوهای سورا خبری از حرف زدن یا تکان دادن لب‌ها نیست.تکان دادن لب‌ها و دیالوگ خوانی ممکن است بزودی به مولد ویدیوی Open AI اضافه شود.

در حال حاضر خیره کننده‌ترین قابلیت لب‌خوانی متعلق به شرکت چینی علی بابا است. شرکت علی بابا به تازگی هوش مصنوعی با نام EMO رونمایی کرده است. این هوش مصنوعی قادر است تصاویر را سخنگو یا حتی آنها را آواز خوان کند. Emote Portrait Alive با بیش از ۲۵۰ ساعت ویدیوی سخنرانی‌ها، فیلم‌ها، نمایش‌های تلویزیونی و حتی اجرای خوانندگان آموزش دیده است. هوش مصنوعی علی بابا نسبت به سایر رقبا نظیر Pika که به تازگی قابلیت تکان دادن لب‌ها و حرف زدن را اضافه کرده است، طبیعی‌تر و احساسی‌تر عمل می‌کند. حرکت 3D چهره و حالت‌های تکان دادن آن خیره کننده و بی نقص به نظر می‌رسد. برای کار کردن با EMO کافی است به آن تصویر مد نظر و فایل صوتی را بدهیم که ویژگی‌های آن و توانایی‌اش خیره کننده است.

نحوه‌ی استفاده از Sora و زمان انتشار عمومی

هوش مصنوعی Sora فعلا به صورت عمومی در دسترس نیست و صرفا در دسترس گروه هدف مشخصی برای انجام آزمایشات اولیه و رفع چالش‌های فنی و نگرانی‌های امنیتی است. ویدیوهای منتشره از هوش مصنوعی مولد ویدیوی سورا توسط Open AI در اینترنت قرار گرفته‌اند. میرا موراتی مدیر ارشد فناوری شرکت Open AI به وال استریت ژورنال اعلام کرد تا چند ماه آینده در همین امسال (۲۰۲۴)، مولد ویدیوی Sora در درسترس عموم قرار می گیرد. میرا موراتی همچنین گفت برای واقعی تر شدن ویدیوهای سورا قصد داریم برای آن ابزار ایجاد صدا تولید کنیم.

برای استفاده از سورا احتمالا همانند سایر خدمات شرکت Open AI نیاز به ثبت‌نام در سایت رسمی این شرکت است. ابتدا باید وارد سایت Open AI و در آن ثبت‌نام کنید. توجه کنید دسترسی به سایت با ip ایران ممکن نیست و علاوه بر این برای ثبت‌نام نیازی به شماره تلفن نیست و حتی با حساب گوگل هم می‌توانید ثبت‌نام کنید.

قیمت احتمالی اشتراک سورا

اشتراک هوش مصنوعی Sora احتمالا مشابه DALL-E باشد. برای استفاده از سورا احتمالا به credit نیاز دارید. شرکت Open AI به شما هر ماه تعدادی کردیت به صورت رایگان خواهد داد که بعد از یک ماه دوباره موجودی شما پر خواهد شد. اگر مشابه DALL-E به سورا نگاه کنیم Open AI در صورت ثبت‌نام به شما ۵۰ کردیت می‌دهد. هر ماه نیز ۱۵ عدد رایگان حساب شما را شارژ خواهد کرد. قیمت احتمالی credit با تعداد ۱۱۵ تا، ۱۵ دلار خواهد بود. باید ببینیم برای ساخت یک ویدیوی ۱ دقیقه‌ای Sora به چه میزان کردیت نیاز داریم.

آیا Sora به کوپایلوت اضافه می‌شود؟

مایکروسافت با داشتن حدود ۵۰٪ سهام شرکت Open AI عملا مالک آن است. این مالکیت و سلطه موجب شد این غول فناوری همه‌ی خدمات شرکت را به صورت رایگان برای کاربرانش عرضه کند که نمونه‌ی آن کوپایلوت پرو بود.کوپایلوت (Copilot) دستیار هوش مصنوعی مایکروسافت است که استفاده از آن رایگان بوده و قابلیت‌های Chat GPT را در اختیار کاربران قرار می‌دهد.

با پرداخت ماهانه ۲۰ دلار همه‌ی ویژگی‌ها و مدل‌های هوش مصنوعی Open AI را مایکروسافت در قالب Copilot به شما عرضه می‌کند، آن هم زودتر از خود اوپن ای‌آی. ممکن است ارائه خدمات Open AI توسط مایکروسافت به وسیله سلطه روی این شرکت در دراز مدت درآمد شرکت مالک Chat GPT را کاهش دهد.

حالا خبرها حاکی از این است هوش مصنوعی Sora به Copilot اضافه می‌شود. مدیر تبلیغات شرکت مایکروسافت در ایکس بیان کرده Sora برای ادغام با کوپایلوت به زمان نیازمند است. اما این امر صورت خواهد گرفت.

بررسی تخصصی نحوه‌ی عملکرد مولد ویدیوی Open AI

هوش مصنوعی Sora یک مدل هوش مصنوعی دیفیوژن (diffusion model) است. مدل‌های دیفیوژن الگوریتم‌های ماشینی پیشرفته‌ای هستند که داده‌های با کیفیت‌ را در ابتدا نویزدار و به تدریج با معکوس کردن این فرایند و حذف نویز آموزش می‌بینند. برای حذف نویز و تولید تصاویر نهایی مراحل زیادی باید طی شود.

سورا برای ساخت ویدیو می‌‌تواند محتوا را به دو صورت یکباره و تدریجی تولید کند. در روش اول همه‌ی ویدیوی مد نظر شما به طور کامل ایجاد و به تدریج تغییرات لازم از قبیل حذف نویز و بقیه‌ی کارها صورت می‌گیرد.در روش تولید تدریجی در ابتدا بخش‌های مختلف و کوچکی از ویدیو ایجاد و کم‌کم محتوای بیشتری برای کامل شدن به آن افزوده می‌شود.

تحقیقات پایه‌ای سورا

مولد ویدیوی Sora بر پایه‌ی تحقیقات مدل زبانی بزرگ Open AI یعنی همان ChatGPT و هوش مصنوعی مولد تصویر (DALL-E) این شرکت ساخته شده است. مولد ویدیوی Open AI سازوکاری مشابه Chat GPT دارد. هوش مصنوعی Sora از واحدهای کوچک اطلاعاتی با نام patch استفاده می‌کند. پچ‌ها (patches) مشابه توکن (token) در GPT هستند. patch ها به وسیله‌ی یک الگوریتم پچ ساز ی ایجاد و شامل بخش‌های مختلفی از تصویر هستند که آن را به بخش‌های متمایز تبدیل می‌کند. استفاده از سازوکار هایی نظیر patch شرکت Open AI را در آموزش ترانسفورمر ها قادر می‌کند تا بتواند طیف وسیع‌تری از داده‌های تصویری نسبت به مدل‌های یادگیری ماشینی گذشته داشته باشد.

Open AI معتقد است استفاده از واحدهای کوچک نظیر پچ نه تنها ما را قادر به آموزش هوش مصنوعی در طیف وسیع‌تری می‌کند بلکه به ما این امکان را می‌دهد تا با افزایش مقیاس مدل‌های تولید ویدیو یک مسیر موفق برای شبیه سازی دنیای واقعی خلق کنیم.

انتقاد در مورد بخش شبیه ساز دنیای واقعی توسط هوش مصنوعی Sora

Yann LeCun دانشمند ارشد متا در مورد قابلیت شبیه سازی همه منظوره به Open AI هشدار می‌دهد که رفتن به این سمت مطلقا اشتباه است. یان لی‌کان (Yann LeCun) معتقد است این اتفاق باعث می‌شود هوش مصنوعی داده‌های بی ارزش را استنتاج کند. مثال داده‌های بی‌ارزش اینگونه است که در حرکت یک توپ ما با در نظر گرفتن اجزای سازنده در حرکت صرفا فشار زیادی روی سخت‌افزار وارد می‌کنیم و اینکه قرار نیست این‌ داده‌ها در مولد‌های ویدیو اهمیتی در حد و اندازه‌ی جرم و وزن آن شئ را در حرکت داشته باشند.

او همچنین اضافه می‌کند استفاده از ساختاری مانند پچ‌ها شاید با ساختاری تحت عنوان توکن در GPT به عنوان روشی موثر عمل کند ولی علت آن محدود بودن این داده‌ها در بحثی مانند نوشتار است چون در نوشتار از تعداد معدودی نماد متمایز استفاده می‌کنیم.

مهندسان شرکت Open AI در ساخت مولد تصویر Sora سعی کرده‌اند تمام اجزای تصویر را حتی وقتی که از کادر خارج می‌شوند نیز رهگیری کنند تا ویدیوها با صحت و دقت هرچه تمام‌تر تولید و این از مواردی است که در هوش مصنوعی سورا برای پیاده سازی آن تلاش زیادی شده است.

طبق اطلاعات ارسالی کاربران در ردیت به نظر می‌رسد استفاده از سورا برای ساخت ویدیوهای ۱ دقیقه‌ای به زمانی معادل ۱ ساعت نیاز است. طبق نظرات متفاوتی که در این باره مطرح می‌شود به نظر می‌رسد علت زمان زیاد برای ساخت ویدیو توسط سورا ممکن است موارد زیر باشد:

استفاده از ساختاری مانند پچ‌ها برای ساخت ویدیو در صورتی که این روش برای مدل زبانی Open AI به خوبی عمل کرده است.
عدم تامین زیر ساخت سخت‌افزاری کافی از طرف شرکت برای پیاده سازی هوش مصنوعی Sora که علت آن را نیز تکاپوی سم ‌آلتمن برای سرمایه گذاری ۷ میلیارد دلاری در صنعت ساخت تراشه برای هوش مصنوعی می‌دانند.

خطرات هوش مصنوعی Sora و راهکار‌های Open AI

هوش مصنوعی مولد نظیر سورا و سایر هوش مصنوعی های تولید تصویر و ویدیو همواره با چالش سو استفاده توسط افراد مختلف مواجه هستند. استفاده از این ابزارها ممکن است باعث خلق محتواهای غیر واقعی بسیاری در بستر وب شود. این امر چالش‌‌ها و نگرانی‌ها را بابت این فناوری هر روز بیشتر و بیشتر می‌کند.

مولذ ویدیوی Open AI همانند سایر خدمات این شرکت سیاست‌های خدمات دهی خاصی برای Sora وضع کرده است:

جلوگیری از تولید ویدیوهایی با اطلاعات نادرست
محتواهای نفرت انگیز و سوگیرانه
محتواهای گمراه کننده زمانی

شرکت همچنین برای مولد ویدیوی سورا ابزاری نیز طراحی که ویدیوهای ناقض قوانین را به صورت فریم بر فریم بررسی کند. این ابزار ویدیوهایی نظیر:

تصاویر و ویدیوهای جنسی
محتوای نفرت‌انگیز
شباهت به افراد معروف

را بررسی تا از انتشار آنها جلوگیری کند. مولد ویدیوی سورا در حال حاضر در دسترس هنرمندان، سیاستگذاران و افراد متخصص است تا بر اساس نگرانی‌ها و چالش‌های جامعه‌ی امروزی این هوش مصنوعی مولد ویدیو مورد بازبینی قرار بگیرد.

داده‌های سورا توسط واترمارک و همچنین جایگذاری کد درون آنها مشخص می‌شوند. به نظر می‌رسد که حذف این دو مورد از محتوای تولیدی مشکل نباشد. مگر اینکه Open AI ابزاری برای بررسی محتواهای مختلف بسازد. تا اینجا از انجام آن ناتوان بوده که شاهد نمونه‌های آن در تشخیص محتوای ساختگی با هوش مصنوعی بودیم که در ابتدا متن و بعد از آن تصویر بود که هردو با شکست مواجه شدند.

جمع‌بندی نهایی هوش مصنوعی مولد ویدیوی Open AI

سورا نیز همانند معرفی بسیاری از هوش مصنوعی‌های مختلف با شور و هیجان زیادی به علت نو بودن این فناوری‌ها همراه است. باید ببینیم بعد از عرضه از عملکرد آن چگونه یاد می‌شود. با توجه به ویدیوهای منتشره توسط Open AI از این فناوری به نظر می‌رسد به قدر کافی جذاب و توانمند باشد. سورا مطمئنا در صورت داشتن کاستی در آینده‌ای نه چندان دور اصلاح می‌شود. در سال های پیش‌رو از تکنولوژی هوش مصنوعی مولد ویدیو شگفت زده می‌شویم.

سایت رسمی Open AI

جزئیات تخصصی در مورد Sora