سازندگان ویدیوهای کوتاه مبتنی بر Sora نقاط قوت و محدودیتهای ویدیوی تولید شده توسط هوش مصنوعی را توضیح میدهند
ابزار تولید ویدیوی OpenAI، Sora، در ماه فوریه جامعه هوش مصنوعی را با ویدئوی روان و واقع گرایانه که فرسنگ ها جلوتر از رقبا به نظر می رسد، غافلگیر کرد. اما اولین نمایشی که به دقت مدیریت شده بود، جزئیات زیادی را حذف کرد – جزئیاتی که توسط یک فیلمساز به زودی برای ایجاد یک فیلم کوتاه با استفاده از Sora پر شده است.
Shy Kids یک تیم تولید دیجیتال مستقر در تورنتو است که توسط OpenAI به عنوان یکی از معدود برای تولید فیلمهای کوتاه اساساً برای اهداف تبلیغاتی OpenAI انتخاب شد، اگرچه به آنها آزادی خلاقیت قابلتوجهی در ایجاد «سر هوا» داده شد. پاتریک سدربرگ، هنرمند پس از تولید، در مصاحبهای با نشریه خبری جلوههای بصری fxguide، «در واقع از Sora استفاده میکند» به عنوان بخشی از کار خود توضیح داد.
شاید مهمترین نکته برای اکثر افراد این باشد: در حالی که پست OpenAI در مورد برجسته کردن شورتها به خواننده این امکان را میدهد که آنها کم و بیش کاملاً از Sora بیرون آمدهاند، واقعیت این است که اینها تولیدات حرفهای بودند، با استوریبوردینگ قوی، ویرایش، تصحیح رنگ. و پس از انجام کارهایی مانند روتوسکوپی و VFX. همانطور که اپل میگوید «عکسبرداری روی آیفون» اما بعد از این واقعیت، تنظیمات استودیو، نورپردازی حرفهای و رنگها را نشان نمیدهد، پست Sora فقط در مورد آنچه که به مردم اجازه میدهد انجام دهند صحبت میکند، نه اینکه واقعاً چگونه آن را انجام دادهاند.
مصاحبه سدربرگ جالب و کاملا غیر فنی است، بنابراین اگر اصلاً به آن علاقه دارید، به fxguide بروید و آن را بخوانید. اما در اینجا چند قطعه جالب در مورد استفاده از Sora وجود دارد که به ما میگوید، به همان اندازه که چشمگیر است، این مدل شاید کمتر از آنچه فکر میکردیم جهش بزرگی به جلو داشته باشد.
کنترل هنوز هم مطلوب ترین و همچنین گریزان ترین چیز در این مرحله است. … نزدیک ترین چیزی که می توانستیم به دست آوریم این بود که در درخواست هایمان بیش از حد توصیفی باشیم. توضیح کمد لباس برای شخصیتها، و همچنین نوع بادکنک، راه ما را در کنار هم قرار داد، زیرا شات به شات / نسل به نسل، هنوز این ویژگی برای کنترل کامل بر ثبات وجود ندارد.
به عبارت دیگر، مسائلی که در فیلمسازی سنتی ساده هستند، مانند انتخاب رنگ لباس یک شخصیت، راهحلها و بررسیهای دقیقی را در یک سیستم مولد انجام میدهند، زیرا هر پلان مستقل از دیگران خلق میشود. این بدیهی است که می تواند تغییر کند، اما مطمئناً در حال حاضر بسیار پر زحمت تر است.
خروجیهای Sora باید برای عناصر ناخواسته نیز مورد توجه قرار میگرفت: سدربرگ توضیح داد که چگونه این مدل به طور معمول چهرهای را روی بالون ایجاد میکند که شخصیت اصلی آن را برای سر دارد، یا یک ریسمان آویزان از جلو. اگر نمیتوانستند درخواست حذف آنها را دریافت کنند، باید در پست حذف میشد، فرآیندی زمانبر دیگر.
زمانبندی دقیق و حرکات شخصیتها یا دوربین واقعاً امکانپذیر نیست: «کمی کنترل زمانی وجود دارد که این اقدامات مختلف در نسل واقعی کجا اتفاق میافتد، اما دقیق نیست… این یک عکس در تاریکی است.» سدربرگ.
برای مثال، زمانبندی یک ژست مانند یک موج، برخلاف انیمیشنهای دستی، فرآیندی بسیار تقریبی و مبتنی بر پیشنهاد است. و یک نما مانند یک تابه به سمت بالا روی بدن کاراکتر ممکن است منعکس کننده خواسته های فیلمساز باشد یا نباشد – بنابراین تیم در این مورد یک نما را در جهت پرتره ارائه کرد و یک برش پان در پست انجام داد. کلیپ های تولید شده نیز اغلب بدون دلیل خاصی در حرکت آهسته بودند.
سدربرگ گفت، در واقع، استفاده از زبان روزمره فیلمسازی، مانند “پنینگ سمت راست” یا “تصاویر ردیابی” به طور کلی ناسازگار بود، که تیم بسیار شگفتانگیز بود.
او گفت: «محققان قبل از اینکه به هنرمندان برای بازی با این ابزار نزدیک شوند، واقعاً مانند فیلمسازان فکر نمی کردند.
در نتیجه، تیم صدها نسل، هر کدام 10 تا 20 ثانیه انجام داد و در نهایت تنها از تعداد انگشت شماری استفاده کرد. سدربرگ این نسبت را 300:1 تخمین زد – اما مطمئناً همه ما احتمالاً از این نسبت در یک عکس معمولی شگفت زده خواهیم شد.
اگر کنجکاو هستید، تیم در واقع یک ویدیوی کوچک از پشت صحنه انجام داد و برخی از مشکلاتی را که با آن مواجه شد توضیح داد. مانند بسیاری از محتوای مجاور با هوش مصنوعی، نظرات نسبت به کل تلاش بسیار انتقادی هستند – اگرچه به اندازه تبلیغی که اخیراً شاهد آن بودیم با کمک هوش مصنوعی قوی نیست.
آخرین چروک جالب مربوط به کپی رایت است: اگر از سورا بخواهید یک کلیپ «جنگ ستارگان» را به شما بدهد، آن را رد می کند. و اگر سعی کنید با “مردی با شمشیر لیزری روی یک سفینه فضایی آینده نگر” دور آن بچرخید، آن نیز امتناع می کند، زیرا با مکانیسمی تشخیص می دهد که شما چه کاری را انجام می دهید. همچنین از انجام “عکس از نوع آرونوفسکی” یا “زوم هیچکاک” خودداری کرد.
از یک طرف، کاملا منطقی است. اما این سؤال را ایجاد میکند: اگر سورا بداند اینها چیست، آیا این بدان معناست که مدل بر روی آن محتوا آموزش داده شده است، بهتر است تشخیص دهد که نقضکننده است؟ OpenAI، که کارت های داده آموزشی خود را نزدیک به جلیقه نگه می دارد – تا حد پوچی، همانطور که با مصاحبه CTO میرا موراتی با جوانا استرن – تقریباً مطمئناً هرگز به ما نخواهد گفت.
در مورد سورا و استفاده از آن در فیلمسازی، واضح است که در جای خود ابزاری قدرتمند و مفید است، اما جایگاه آن «خلق فیلم از پارچه کامل» نیست. هنوز. همانطور که یک شرور دیگر به قول معروف، “این بعداً می آید.”