هوش مصنوعی Sora یک مدل ساخت ویدیوی مبتنی بر یادگیری ماشین (machine-learning) است. مولد ویدیوی سورا (Sora) توسط Open AI طراحی و قابلیت ایجاد صحنههای واقعی و تخیلی را از دستورات متنی دارد. سورا در نمایشهای اولیه قابلیتهای خیرهکنندهای به نمایش گذاشت با این حال کاستیهایی نیز دارد. شرکت Open AI در حال رفع کاستیهاست تا این مولد ویدیوی جادویی را برای عرضه عمومی آماده کند.
چند سال پیش شاهد رونمایی از اولین مولدهای ویدیوی مبتنی بر هوش مصنوعی بودیم که سوژه تمسخر بسیاری از کاربران فضای مجازی شد. حالا بعد از گذشت مدت کوتاهی هوش مصنوعیهای مولد ویدیو به قدری پیشرفت کردهاند که حتی مخاطرات زیادی برای جهان با خود به همراه آوردهاند. در حال شرکتهای هوش مصنوعی بسیاری اقدام به ساخت مدلهای هوش مصنوعی مولد ویدیوی خود کردهاند.
آنچه در این مطلب میخوانید
- هوش مصنوعی مولد ویدیو و شرکتهای مختلف
- قابلیتها و عملکرد هوش مصنوعی Sora
- محدودیت و کاستیهای مولد ویدیوی Sora
- مقایسهی هوش مصنوعی سورا با Runway و Pika
- نحوهی استفاده از Sora و زمان انتشار عمومی
- بررسی تخصصی نحوهی عملکرد مولد ویدیوی Open AI
- خطرات هوش مصنوعی Sora و راهکارهای Open AI
- جمعبندی نهایی هوش مصنوعی مولد ویدیوی Open AI
هوش مصنوعی مولد ویدیو و شرکتهای مختلف
شرکت Open AI مالک Chat GPT، بزرگترین چت بات هوش مصنوعی جهان و بزرگترین پرچمدار هوش مصنوعی است. Open AI در حال حاضر امکانات و قابلیتهای متعددی هوش مصنوعی در زمینه صوت و تصویر دارد. جای خالی مولد ویدیو در خدمات این شرکت حس میشد. در همین زمان که شرکتهای بزرگ همچون گوگل و Open AI محصولی به بازار عرضه نکرده بودند، شرکتهای کوچکی همچون Runway و Pika از فرصت استفاده کردند. شرکتهای کوچک مولدهای ویدیوی خود مبتنی بر هوش مصنوعی و با استفاده از دستورات متنی را به بازار عرضه کردند.
گوگل هر روزه گزارشاتی از تحقیقاتش روی مدلهای مختلف هوش مصنوعی را منتشر که از مولد ویدیو تا ساخت بازی دو بعدی از روی تصاویر را شامل میشود. چندی پیش نیز شاهد رونمایی از مدل ساخت ویدیویی با نام Video Poet از این شرکت بودیم که چندان خوش آیند نبود ولی هنوز در مراحل آزمایشی قرار دارد و عرضه نشده است.
Open AI در اقدامی غیر منتظره از هوش مصنوعی مولد ویدیوی Sora رونمایی کرد. هوش مصنوعی سورا قابلیتهایی که شرکتهای بزرگ انیمیشن سازی نظیر دیزنی و پیکسار برای ساخت آنها میلیونها دلار هزینه میکنند به راحتی و با دستورات متنی آنها را ایجاد میکند. هوش مصنوعیهای مولد ویدیو نیاز به صحنه، دوربینهای گران قیمت، کارگردان، ادیتور و بسیاری از مشاغل و هزینههای هنگفت فیلم سازی را به زودی از بین خواهند برد.
Sora یک کلمهی ژاپنی و به معنای آسمان است. به نظر میرسد Open AI برای بیان بی حد و حصر بودن این مدل هوش مصنوعی سورا را برای آن انتخاب کرده باشد.
قابلیتها و عملکرد هوش مصنوعی Sora
طبق اطلاعات و ویدیوهای منتشره Open AI، هوش مصنوعی Sora قابلیتهای زیر را پشتیبانی میکند:
- ساخت ویدیو با استفاده از دستورات متنی (پرامپت): برای ساخت ویدیو به وسیلهی دستورات متنی کاملا مشابه مدل های فعلی، دنیای مد نظر خود را برای سورا شرح میدهیم تا با استفاده از پردازشهای هوش مصنوعی این جهان را در قالب یک ویدیوی ۶۰ ثانیهای برای ما خلق کند.
- تغییر محیط یا اجزای یک ویدیو با استفاده از دستورات متنی: تغییر محیط و اجزای آن قابلیت دیگری است که توسط Open AI برای سورا طراحی شده است. در این قابلیت شما با استفاده از یک ویدیوی منبع که به هوش مصنوعی سورا میدهید از آن میخواهید تا برای شما برای مثال محیط اطراف را تغییر دهد یا به محیط جزئیاتی را اضافه و از آن حذف کند که در ویدیوی اصلی وجود نداشته است. هوش مصنوعی های مطرح مولد ویدیو در حال حاضر این عملکرد را ندارند.
- تبدیل تصاویر به ویدیو: تبدیل تصویر به ویدیو یکی از قابلیتهای محبوب مدلهای مبتنی بر یادگیری ماشین است که در حوزه ساخت ویدیو فعالیت میکنند. شاید ببینید در ویدیوهای مختلف تصاویری قرار میگیرد که ادیتورها با استفاده از زوم و آن زوم یا حتی حرکت روی عکس زوم شده سعی میکنند به تصویر حس زنده بودن بدهند. این قابلیت توسط هوش مصنوعیهای مولد ویدیوی نظیر Runway و Pika به خوبی انجام میشود.
- ترکیب چند ویدیو با یکدیگر: ترکیب چند ویدیو با یکدیگر توسط مولد ویدیوی Open AI بسیار خلاقانه و نوآورانه رخ میدهد به طوری که از ویدیوهای هوش مولد Sora به وجد میآیید. نمونههایی از این ویدیوها را در ادامه میتوانید ببینید.
بررسی نمونهی ویدیوهای ساخته شده با Sora
هوش مصنوعی سورا در نمایش ویدیوهای پیچیده نیز عملکرد قابل قبولی ارائه میدهد. وقتی از آن بخواهیم برای ما یک موزه با آثار هنری را نمایش دهد، خواهیم دید این کار را با دقت و ظرافت بالایی انجام خواهد داد. اگر از هوش مولد Sora بخواهیم برای ما تعداد زیادی تلویزیون قدیمی را در حال نمایش فیلمهای زمان خودشان با ژانرهای متفاوت نشان دهد، میبینیم که از پس این کار هم بر خواهد آمد که نشان از قدرت بالای این هوش مصنوعی در خلق و به تصویر کشیدن و همچنین نمایش جزئیات قابل توجه این دستورات متنی میدهد.
ویدیوهای هوش مصنوعی سورا نشان میدهد که این ویژگیها واقعا به نحوی عالی در ویدیوها پیاده میشوند:
- نورپردازی عالی از فضا و پخش شدن عالی نور
- تفکیک خوب جمعیت و افراد در فضاهای شلوغ
- نمایش عالی لباسها ، کرک و پشم حیوانات و موهای کارکترها
- تفکیک عالی دانهها و اجزای ریز محیط مثل برف و شن و حفظ ساختار آنها
محدودیت و کاستیهای مولد ویدیوی Sora
هوش مصنوعی در سالهای اولیه تکامل خود قرار دارد به طوری که رئیس شرکت Open AI، سم آلتمن توانایی هوش مصنوعی در برههی فعلی را مشابه تلفنهای همراه قدیمی که نمایشگر سیاه و سفید داشتند میداند. سم آلتمن معتقد است هوش مصنوعی چند سال آینده ما را شگفت زده میکند. هوش مصنوعی Sora نیز همانند سایر قابلیتهای هوش مصنوعی که برای اولین بار عرضه میشوند محدودیتهایی دارد که خود شرکت Open AI نیز آنها را در سایت رسمی بیان و حتی نمونههایی از آنها را نمایش میدهد.
ضعفهای هوش مصنوعی مولد ویدیوی سورا از زبان Open AI:
- در شبیه سازی دقیق فیزیک یک صحنهی پیچیده ممکن است با مشکل مواجه شود.
- ممکن است در بعضی موارد یک اتفاق و نتیجهی آن را درک نکند مثل گاز زدن یک کیک و اثر دندان بعد از آن.
- در اجرای دستورات فضایی مثل نحوهی حرکت دوربین و جهات چپ و راست ممکن است اشتباه کند.
علاوه بر ضعفهای اعلامی توسط Open AI این موارد هم در بررسی ویدیوهای ساخته شده به چشم میخورد:
- ساخت ویدیوها به صورت اسلوموشن
- عدم هماهنگی بعضی افراد با اتفاق ویدیو
- مشکل در هماهنگی لبههای تصویر یا جاده و حرکت اشیا
- خلق یا تغییر ناگهانی در اشکال موجود در ویدیو
- پدیدار و محو شدن ناگهانی بعضی اجزای ویدیو
- عبور از اجزای فیزیکی داخل ویدیو و عدم برخورد به آنها
- ساخت چیزهایی که ممکن است با حقیقت مطابقت نداشته باشند
- اشتباه در نمایش سایز بعضی اجسام و ارتفاع آنها در محیط
با توجه به نمونهی اولیهی Sora مطمئنا مشابه هوش مصنوعیهای مولد تصویر در آپدیتهای بعدی این کاستیهایی که با دقت زیاد باید متوجه آنها شد، حل میشوند. عدم توانایی ساخت فیلمهای بلند با این فناوری نیز از ایرادات آن است و نمیتوان به وسیلهی آن فیلمهای سینمایی بلند و یکپارچه تولید کرد و نهایتا به ساخت ویدیوهای ۱ دقیقهای و کنار هم گذاشتن آنها میتوان ویدیوی بلند تولید کرد.
مقایسهی هوش مصنوعی سورا با Runway و Pika
چندی پیش دو شرکت با نامهای Runway و Pika در زمینهی ساخت ویدیو با هوش مصنوعی ظهور کردند. عملکرد خیره کنندهی این دو هوش مصنوعی در زمینهی ساخت ویدیو به قدری تحسین برانگیز و سریع بود که با استقبال زیادی مواجه شدند. حالا بیایید مقایسهای میان Runway و Pika با هوش مصنوعی Sora داشته باشیم.
هوش مصنوعی Runway قابلیتی با نام موشن براش دارد. شما میتوانید با استفاده از آن هرکدام از اجزای تصویر را با براش زدن متحرک کنید. Runway عملکرد فوقالعاده جذاب و کم نقصی دارد و علاوه بر آن طیف وسیعی از امکانات را در اختیار شما قرار میدهد. این در حالی است که هوش مصنوعی Runway در ساخت ویدیو نقصهای عمدهای از قبیل به هم ریختگی تصاویر در هنگام حرکت آنها دارد. مثل حرکت یک خودرو و به هم ریختن تصویر آن در یک خیابان شلوغ حین عوض کردن لاین. هوش مصنوعی Sora در مقایسه با Runway این مشکلات را ندارد ولی در عوض قابلیتی مثل موشن براش در آن مشاهده نمیشود.
دیالوگ و تکان دادن لب در هوش مصنوعی
به تازگی قابلیت دیالوگ خوانی به هوش مصنوعی Pika اضافه شد. درحالی که شرکتهای بزرگ نظیر Open AI و گوگل هوش مصنوعی مولد ویدیوی خود را نظیر Sora و Video Poet را آزمایش میکنند؛ شرکت Pika اعلام کرده قابلیت اضافه کردن دیالوگ به ویدیوهای هوش مصنوعی با نام Lip Sync به این هوش مصنوعی اضافه که عملکردش را تکان دادن لبهای شخصیت در ویدیو میتوانید ببینید. این در حالی است که در ویدیوهای سورا خبری از حرف زدن یا تکان دادن لبها نیست.تکان دادن لبها و دیالوگ خوانی ممکن است بزودی به مولد ویدیوی Open AI اضافه شود.
در حال حاضر خیره کنندهترین قابلیت لبخوانی متعلق به شرکت چینی علی بابا است. شرکت علی بابا به تازگی هوش مصنوعی با نام EMO رونمایی کرده است. این هوش مصنوعی قادر است تصاویر را سخنگو یا حتی آنها را آواز خوان کند. Emote Portrait Alive با بیش از ۲۵۰ ساعت ویدیوی سخنرانیها، فیلمها، نمایشهای تلویزیونی و حتی اجرای خوانندگان آموزش دیده است. هوش مصنوعی علی بابا نسبت به سایر رقبا نظیر Pika که به تازگی قابلیت تکان دادن لبها و حرف زدن را اضافه کرده است، طبیعیتر و احساسیتر عمل میکند. حرکت ۳D چهره و حالتهای تکان دادن آن خیره کننده و بی نقص به نظر میرسد. برای کار کردن با EMO کافی است به آن تصویر مد نظر و فایل صوتی را بدهیم که ویژگیهای آن و تواناییاش خیره کننده است.
نحوهی استفاده از Sora و زمان انتشار عمومی
هوش مصنوعی Sora فعلا به صورت عمومی در دسترس نیست و صرفا در دسترس گروه هدف مشخصی برای انجام آزمایشات اولیه و رفع چالشهای فنی و نگرانیهای امنیتی است. ویدیوهای منتشره از هوش مصنوعی مولد ویدیوی سورا توسط Open AI در اینترنت قرار گرفتهاند. میرا موراتی مدیر ارشد فناوری شرکت Open AI به وال استریت ژورنال اعلام کرد تا چند ماه آینده در همین امسال (۲۰۲۴)، مولد ویدیوی Sora در درسترس عموم قرار می گیرد. میرا موراتی همچنین گفت برای واقعی تر شدن ویدیوهای سورا قصد داریم برای آن ابزار ایجاد صدا تولید کنیم.
برای استفاده از سورا احتمالا همانند سایر خدمات شرکت Open AI نیاز به ثبتنام در سایت رسمی این شرکت است. ابتدا باید وارد سایت Open AI و در آن ثبتنام کنید. توجه کنید دسترسی به سایت با ip ایران ممکن نیست و علاوه بر این برای ثبتنام نیازی به شماره تلفن نیست و حتی با حساب گوگل هم میتوانید ثبتنام کنید.
قیمت احتمالی اشتراک سورا
اشتراک هوش مصنوعی Sora احتمالا مشابه DALL-E باشد. برای استفاده از سورا احتمالا به credit نیاز دارید. شرکت Open AI به شما هر ماه تعدادی کردیت به صورت رایگان خواهد داد که بعد از یک ماه دوباره موجودی شما پر خواهد شد. اگر مشابه DALL-E به سورا نگاه کنیم Open AI در صورت ثبتنام به شما ۵۰ کردیت میدهد. هر ماه نیز ۱۵ عدد رایگان حساب شما را شارژ خواهد کرد. قیمت احتمالی credit با تعداد ۱۱۵ تا، ۱۵ دلار خواهد بود. باید ببینیم برای ساخت یک ویدیوی ۱ دقیقهای Sora به چه میزان کردیت نیاز داریم.
آیا Sora به کوپایلوت اضافه میشود؟
مایکروسافت با داشتن حدود ۵۰٪ سهام شرکت Open AI عملا مالک آن است. این مالکیت و سلطه موجب شد این غول فناوری همهی خدمات شرکت را به صورت رایگان برای کاربرانش عرضه کند که نمونهی آن کوپایلوت پرو بود.کوپایلوت (Copilot) دستیار هوش مصنوعی مایکروسافت است که استفاده از آن رایگان بوده و قابلیتهای Chat GPT را در اختیار کاربران قرار میدهد.
با پرداخت ماهانه ۲۰ دلار همهی ویژگیها و مدلهای هوش مصنوعی Open AI را مایکروسافت در قالب Copilot به شما عرضه میکند، آن هم زودتر از خود اوپن ایآی. ممکن است ارائه خدمات Open AI توسط مایکروسافت به وسیله سلطه روی این شرکت در دراز مدت درآمد شرکت مالک Chat GPT را کاهش دهد.
حالا خبرها حاکی از این است هوش مصنوعی Sora به Copilot اضافه میشود. مدیر تبلیغات شرکت مایکروسافت در ایکس بیان کرده Sora برای ادغام با کوپایلوت به زمان نیازمند است. اما این امر صورت خواهد گرفت.
بررسی تخصصی نحوهی عملکرد مولد ویدیوی Open AI
هوش مصنوعی Sora یک مدل هوش مصنوعی دیفیوژن (diffusion model) است. مدلهای دیفیوژن الگوریتمهای ماشینی پیشرفتهای هستند که دادههای با کیفیت را در ابتدا نویزدار و به تدریج با معکوس کردن این فرایند و حذف نویز آموزش میبینند. برای حذف نویز و تولید تصاویر نهایی مراحل زیادی باید طی شود.
سورا برای ساخت ویدیو میتواند محتوا را به دو صورت یکباره و تدریجی تولید کند. در روش اول همهی ویدیوی مد نظر شما به طور کامل ایجاد و به تدریج تغییرات لازم از قبیل حذف نویز و بقیهی کارها صورت میگیرد.در روش تولید تدریجی در ابتدا بخشهای مختلف و کوچکی از ویدیو ایجاد و کمکم محتوای بیشتری برای کامل شدن به آن افزوده میشود.
تحقیقات پایهای سورا
مولد ویدیوی Sora بر پایهی تحقیقات مدل زبانی بزرگ Open AI یعنی همان ChatGPT و هوش مصنوعی مولد تصویر (DALL-E) این شرکت ساخته شده است. مولد ویدیوی Open AI سازوکاری مشابه Chat GPT دارد. هوش مصنوعی Sora از واحدهای کوچک اطلاعاتی با نام patch استفاده میکند. پچها (patches) مشابه توکن (token) در GPT هستند. patch ها به وسیلهی یک الگوریتم پچ ساز ی ایجاد و شامل بخشهای مختلفی از تصویر هستند که آن را به بخشهای متمایز تبدیل میکند. استفاده از سازوکار هایی نظیر patch شرکت Open AI را در آموزش ترانسفورمر ها قادر میکند تا بتواند طیف وسیعتری از دادههای تصویری نسبت به مدلهای یادگیری ماشینی گذشته داشته باشد.
Open AI معتقد است استفاده از واحدهای کوچک نظیر پچ نه تنها ما را قادر به آموزش هوش مصنوعی در طیف وسیعتری میکند بلکه به ما این امکان را میدهد تا با افزایش مقیاس مدلهای تولید ویدیو یک مسیر موفق برای شبیه سازی دنیای واقعی خلق کنیم.
انتقاد در مورد بخش شبیه ساز دنیای واقعی توسط هوش مصنوعی Sora
- استفاده از ساختاری مانند پچها برای ساخت ویدیو در صورتی که این روش برای مدل زبانی Open AI به خوبی عمل کرده است.
- عدم تامین زیر ساخت سختافزاری کافی از طرف شرکت برای پیاده سازی هوش مصنوعی Sora که علت آن را نیز تکاپوی سم آلتمن برای سرمایه گذاری ۷ میلیارد دلاری در صنعت ساخت تراشه برای هوش مصنوعی میدانند.
خطرات هوش مصنوعی Sora و راهکارهای Open AI
هوش مصنوعی مولد نظیر سورا و سایر هوش مصنوعی های تولید تصویر و ویدیو همواره با چالش سو استفاده توسط افراد مختلف مواجه هستند. استفاده از این ابزارها ممکن است باعث خلق محتواهای غیر واقعی بسیاری در بستر وب شود. این امر چالشها و نگرانیها را بابت این فناوری هر روز بیشتر و بیشتر میکند.
مولذ ویدیوی Open AI همانند سایر خدمات این شرکت سیاستهای خدمات دهی خاصی برای Sora وضع کرده است:
- جلوگیری از تولید ویدیوهایی با اطلاعات نادرست
- محتواهای نفرت انگیز و سوگیرانه
- محتواهای گمراه کننده زمانی
شرکت همچنین برای مولد ویدیوی سورا ابزاری نیز طراحی که ویدیوهای ناقض قوانین را به صورت فریم بر فریم بررسی کند. این ابزار ویدیوهایی نظیر:
- تصاویر و ویدیوهای جنسی
- محتوای نفرتانگیز
- شباهت به افراد معروف
را بررسی تا از انتشار آنها جلوگیری کند. مولد ویدیوی سورا در حال حاضر در دسترس هنرمندان، سیاستگذاران و افراد متخصص است تا بر اساس نگرانیها و چالشهای جامعهی امروزی این هوش مصنوعی مولد ویدیو مورد بازبینی قرار بگیرد.
دادههای سورا توسط واترمارک و همچنین جایگذاری کد درون آنها مشخص میشوند. به نظر میرسد که حذف این دو مورد از محتوای تولیدی مشکل نباشد. مگر اینکه Open AI ابزاری برای بررسی محتواهای مختلف بسازد. تا اینجا از انجام آن ناتوان بوده که شاهد نمونههای آن در تشخیص محتوای ساختگی با هوش مصنوعی بودیم که در ابتدا متن و بعد از آن تصویر بود که هردو با شکست مواجه شدند.
جمعبندی نهایی هوش مصنوعی مولد ویدیوی Open AI
سورا نیز همانند معرفی بسیاری از هوش مصنوعیهای مختلف با شور و هیجان زیادی به علت نو بودن این فناوریها همراه است. باید ببینیم بعد از عرضه از عملکرد آن چگونه یاد میشود. با توجه به ویدیوهای منتشره توسط Open AI از این فناوری به نظر میرسد به قدر کافی جذاب و توانمند باشد. سورا مطمئنا در صورت داشتن کاستی در آیندهای نه چندان دور اصلاح میشود. در سال های پیشرو از تکنولوژی هوش مصنوعی مولد ویدیو شگفت زده میشویم.