سازندگان ویدیوهای کوتاه مبتنی بر Sora نقاط قوت و محدودیت‌های ویدیوی تولید شده توسط هوش مصنوعی را توضیح می‌دهند

techcrunchشنبه ۸ اردیبهشت ۱۴۰۳ - ۵:۲۱ ب.ظ

۰ خواندن این مطلب ۴ دقیقه زمان میبرد

سازندگان ویدیوهای کوتاه مبتنی بر Sora نقاط قوت و محدودیت‌های ویدیوی تولید شده توسط هوش مصنوعی را توضیح می‌دهند

ابزار تولید ویدیوی OpenAI، Sora، در ماه فوریه جامعه هوش مصنوعی را با ویدئوی روان و واقع گرایانه که فرسنگ ها جلوتر از رقبا به نظر می رسد، غافلگیر کرد. اما اولین نمایشی که به دقت مدیریت شده بود، جزئیات زیادی را حذف کرد – جزئیاتی که توسط یک فیلمساز به زودی برای ایجاد یک فیلم کوتاه با استفاده از Sora پر شده است.

Shy Kids یک تیم تولید دیجیتال مستقر در تورنتو است که توسط OpenAI به عنوان یکی از معدود برای تولید فیلم‌های کوتاه اساساً برای اهداف تبلیغاتی OpenAI انتخاب شد، اگرچه به آن‌ها آزادی خلاقیت قابل‌توجهی در ایجاد «سر هوا» داده شد. پاتریک سدربرگ، هنرمند پس از تولید، در مصاحبه‌ای با نشریه خبری جلوه‌های بصری fxguide، «در واقع از Sora استفاده می‌کند» به عنوان بخشی از کار خود توضیح داد.

شاید مهم‌ترین نکته برای اکثر افراد این باشد: در حالی که پست OpenAI در مورد برجسته کردن شورت‌ها به خواننده این امکان را می‌دهد که آنها کم و بیش کاملاً از Sora بیرون آمده‌اند، واقعیت این است که اینها تولیدات حرفه‌ای بودند، با استوری‌بوردینگ قوی، ویرایش، تصحیح رنگ. و پس از انجام کارهایی مانند روتوسکوپی و VFX. همانطور که اپل می‌گوید «عکس‌برداری روی آیفون» اما بعد از این واقعیت، تنظیمات استودیو، نورپردازی حرفه‌ای و رنگ‌ها را نشان نمی‌دهد، پست Sora فقط در مورد آنچه که به مردم اجازه می‌دهد انجام دهند صحبت می‌کند، نه اینکه واقعاً چگونه آن را انجام داده‌اند.

مصاحبه سدربرگ جالب و کاملا غیر فنی است، بنابراین اگر اصلاً به آن علاقه دارید، به fxguide بروید و آن را بخوانید. اما در اینجا چند قطعه جالب در مورد استفاده از Sora وجود دارد که به ما می‌گوید، به همان اندازه که چشمگیر است، این مدل شاید کمتر از آنچه فکر می‌کردیم جهش بزرگی به جلو داشته باشد.

کنترل هنوز هم مطلوب ترین و همچنین گریزان ترین چیز در این مرحله است. … نزدیک ترین چیزی که می توانستیم به دست آوریم این بود که در درخواست هایمان بیش از حد توصیفی باشیم. توضیح کمد لباس برای شخصیت‌ها، و همچنین نوع بادکنک، راه ما را در کنار هم قرار داد، زیرا شات به شات / نسل به نسل، هنوز این ویژگی برای کنترل کامل بر ثبات وجود ندارد.

به عبارت دیگر، مسائلی که در فیلم‌سازی سنتی ساده هستند، مانند انتخاب رنگ لباس یک شخصیت، راه‌حل‌ها و بررسی‌های دقیقی را در یک سیستم مولد انجام می‌دهند، زیرا هر پلان مستقل از دیگران خلق می‌شود. این بدیهی است که می تواند تغییر کند، اما مطمئناً در حال حاضر بسیار پر زحمت تر است.

خروجی‌های Sora باید برای عناصر ناخواسته نیز مورد توجه قرار می‌گرفت: سدربرگ توضیح داد که چگونه این مدل به طور معمول چهره‌ای را روی بالون ایجاد می‌کند که شخصیت اصلی آن را برای سر دارد، یا یک ریسمان آویزان از جلو. اگر نمی‌توانستند درخواست حذف آنها را دریافت کنند، باید در پست حذف می‌شد، فرآیندی زمان‌بر دیگر.

زمان‌بندی دقیق و حرکات شخصیت‌ها یا دوربین واقعاً امکان‌پذیر نیست: «کمی کنترل زمانی وجود دارد که این اقدامات مختلف در نسل واقعی کجا اتفاق می‌افتد، اما دقیق نیست… این یک عکس در تاریکی است.» سدربرگ.

برای مثال، زمان‌بندی یک ژست مانند یک موج، برخلاف انیمیشن‌های دستی، فرآیندی بسیار تقریبی و مبتنی بر پیشنهاد است. و یک نما مانند یک تابه به سمت بالا روی بدن کاراکتر ممکن است منعکس کننده خواسته های فیلمساز باشد یا نباشد – بنابراین تیم در این مورد یک نما را در جهت پرتره ارائه کرد و یک برش پان در پست انجام داد. کلیپ های تولید شده نیز اغلب بدون دلیل خاصی در حرکت آهسته بودند.

نمونه ای از یک شات که از سورا بیرون آمد و چگونه در کوتاه شد. اعتبار تصویر: بچه های خجالتی

سدربرگ گفت، در واقع، استفاده از زبان روزمره فیلمسازی، مانند “پنینگ سمت راست” یا “تصاویر ردیابی” به طور کلی ناسازگار بود، که تیم بسیار شگفت‌انگیز بود.

او گفت: «محققان قبل از اینکه به هنرمندان برای بازی با این ابزار نزدیک شوند، واقعاً مانند فیلمسازان فکر نمی کردند.

در نتیجه، تیم صدها نسل، هر کدام 10 تا 20 ثانیه انجام داد و در نهایت تنها از تعداد انگشت شماری استفاده کرد. سدربرگ این نسبت را 300:1 تخمین زد – اما مطمئناً همه ما احتمالاً از این نسبت در یک عکس معمولی شگفت زده خواهیم شد.

اگر کنجکاو هستید، تیم در واقع یک ویدیوی کوچک از پشت صحنه انجام داد و برخی از مشکلاتی را که با آن مواجه شد توضیح داد. مانند بسیاری از محتوای مجاور با هوش مصنوعی، نظرات نسبت به کل تلاش بسیار انتقادی هستند – اگرچه به اندازه تبلیغی که اخیراً شاهد آن بودیم با کمک هوش مصنوعی قوی نیست.

آخرین چروک جالب مربوط به کپی رایت است: اگر از سورا بخواهید یک کلیپ «جنگ ستارگان» را به شما بدهد، آن را رد می کند. و اگر سعی کنید با “مردی با شمشیر لیزری روی یک سفینه فضایی آینده نگر” دور آن بچرخید، آن نیز امتناع می کند، زیرا با مکانیسمی تشخیص می دهد که شما چه کاری را انجام می دهید. همچنین از انجام “عکس از نوع آرونوفسکی” یا “زوم هیچکاک” خودداری کرد.

از یک طرف، کاملا منطقی است. اما این سؤال را ایجاد می‌کند: اگر سورا بداند اینها چیست، آیا این بدان معناست که مدل بر روی آن محتوا آموزش داده شده است، بهتر است تشخیص دهد که نقض‌کننده است؟ OpenAI، که کارت های داده آموزشی خود را نزدیک به جلیقه نگه می دارد – تا حد پوچی، همانطور که با مصاحبه CTO میرا موراتی با جوانا استرن – تقریباً مطمئناً هرگز به ما نخواهد گفت.

در مورد سورا و استفاده از آن در فیلمسازی، واضح است که در جای خود ابزاری قدرتمند و مفید است، اما جایگاه آن «خلق فیلم از پارچه کامل» نیست. هنوز. همانطور که یک شرور دیگر به قول معروف، “این بعداً می آید.”

منبع techcrunch

techcrunchشنبه ۸ اردیبهشت ۱۴۰۳ - ۵:۲۱ ب.ظ

۰ خواندن این مطلب ۴ دقیقه زمان میبرد

نوشته های مشابه