هوش مصنوعی ویدیوساز: از Sora تا Kling و چیزهایی که باید بدانید

1404/09/15

77 بازدید

مقدمه

در ماه‌های اخیر، کلیپ‌های ویدیویی ساخته‌شده توسط هوش مصنوعی مانند Sora و Kling اینترنت را به تسخیر خود درآورده‌اند. از گربه‌هایی که ماشین می‌رانند تا صحنه‌های سینمایی فوق‌واقع‌گرایانه، این دموها نویدبخش انقلابی در تولید محتوا هستند. اما وقتی از هیجان اولیه عبور می‌کنیم و عمیق‌تر به این فناوری نگاه می‌کنیم، متوجه می‌شویم که واقعیت بسیار پیچیده‌تر، ظریف‌تر و شگفت‌انگیزتر از آن چیزی است که به نظر می‌رسد. این مقاله، حاصل یک بررسی عمیق از نحوه کار این ابزارها، روش‌های استفاده از آن‌ها و اکوسیستم پیرامونشان است و پنج یافته کلیدی را که تصور شما را از آینده تولید ویدیو تغییر خواهد داد، ارائه می‌دهد.

——————————————————————————–

۱. شما نمی‌توانید این مدل‌ها را روی لپ‌تاپ خود اجرا کنید (و جایگزین‌ها «رویاهای تب‌آلود» هستند)

دموهای خیره‌کننده مدل‌هایی مانند Kling و Sora کیفیتی باورنکردنی را به نمایش می‌گذارند، اما یک واقعیت بزرگ در مورد آن‌ها وجود دارد: اجرای این مدل‌ها به قدرت محاسباتی عظیمی نیاز دارد که فقط در مراکز داده بزرگ یافت می‌شود. این‌ها ابزارهایی نیستند که بتوانید روی کامپیوتر شخصی خود اجرا کنید؛ این مدل‌ها روی صدها یا حتی هزاران پردازنده H100 اجرا می‌شوند که قیمت هر کدام ۴۰ هزار دلار است. این سطح از قدرت برای کاربر معمولی یا حتی توسعه‌دهندگان مستقل غیرقابل دسترس است.

در مقابل، علاقه‌مندان و توسعه‌دهندگانی که امیدوارند ابزارهای مشابهی را به صورت محلی اجرا کنند، با جایگزین‌های متن‌باز مواجه می‌شوند که از نظر کیفیت فرسنگ‌ها با مدل‌های پیشرفته فاصله دارند. این شکاف کیفی آنقدر زیاد است که تجربه کار با جایگزین‌های محلی، اغلب ناامیدکننده توصیف می‌شود.

همانطور که یکی از کاربران این تجربه را توصیف می‌کند:

«به‌عنوان کسی که با هوش مصنوعی ویدیوساز محلی کار می‌کند… باید بگویم که این ابزارها کیلومترها از مدل‌های پیشرفته عقب هستند. مثل این است که Craiyon را با DALL-E 3 مقایسه کنید، شاید هم بدتر. یعنی چیزی تولید می‌کنند، اما بیشتر شبیه رویاهای تب‌آلود دو ثانیه‌ای است.»

این تمرکز قدرت محاسباتی در دست چند شرکت بزرگ، چشم‌انداز فعلی هوش مصنوعی را شکل می‌دهد و نشان می‌دهد که دسترسی به قدرتمندترین ابزارها، حداقل در کوتاه‌مدت، محدود باقی خواهد ماند.

——————————————————————————–

۲. دوران «فیلم صامت» هوش مصنوعی به پایان رسیده است

تا همین اواخر، فرآیند تولید ویدیوی هوش مصنوعی یک کار چند مرحله‌ای و خسته‌کننده بود. ابتدا یک ویدیوی صامت تولید می‌کردید، سپس باید به صورت جداگانه صداگذاری، افکت‌های صوتی و موسیقی را ایجاد و با زحمت به ویدیو اضافه می‌کردید. این فرآیند نه تنها زمان‌بر بود، بلکه هماهنگ کردن صدا با تصویر، به‌ویژه لب‌خوانی (lip-sync)، یک چالش بزرگ محسوب می‌شد.

اما با معرفی Kling 2.6، این دوران به پایان رسیده است. این مدل یک پیشرفت بزرگ را معرفی کرد: تولید همزمان و یکپارچه ویدیو و صدا. Kling 2.6 می‌تواند در یک مرحله، ویدیو را به همراه صدای دیالوگ، صداهای محیطی و افکت‌های صوتی هماهنگ تولید کند.

این قابلیت یک نقطه عطف اساسی است. هوش مصنوعی اکنون می‌تواند به طور خودکار لب‌خوانی دقیق را انجام دهد و صداهای متناسب با صحنه (مانند صدای باران، بوق ماشین یا قدم زدن) را طراحی کند. این ویژگی محتوای تولید شده را بسیار آماده‌تر برای تولید نهایی می‌کند و فرآیند کاری خالقان محتوا را به شکل چشمگیری سرعت می‌بخشد و انسجام محصول نهایی را بهبود می‌دهد.

——————————————————————————–

۳. پرامپت شما یک جمله نیست؛ بلکه یک شات‌لیست کارگردانی است

برای گرفتن نتایج باکیفیت از مدل‌های پیشرفته‌ای مانند Kling، نوشتن یک جمله ساده مانند «مردی در حال قدم زدن در خیابان» کافی نیست. هنر «پرامپت‌نویسی» به سرعت در حال تبدیل شدن به یک مهارت پیچیده است که بیشتر به یک «دستورالعمل کارگردانی» یا «شات‌لیست» شباهت دارد تا یک توصیف ساده. در واقع، شما نقش کارگردان، مدیر فیلمبرداری و طراح صدا را همزمان ایفا می‌کنید.

یک پرامپت قدرتمند از اجزای مختلفی تشکیل شده است. برای اینکه هوش مصنوعی دقیقاً همان چیزی را که در ذهن دارید بسازد، باید جزئیات کلیدی را لایه‌بندی کنید:

سوژه: چه کسی یا چه چیزی در مرکز توجه است؟ (مثلاً «مردی میانسال با عینک و ژاکت قرمز»)
عمل: سوژه در حال انجام چه کاری است؟ (مثلاً «با ولع در حال خوردن یک کاسه رامن داغ با چاپستیک»)
محیط: این اتفاق کجا می‌افتد؟ (مثلاً «در یک بازار شلوغ و نئونی در توکیو»)
سبک و حال‌وهوا: لحن بصری و احساسی چیست؟ (مثلاً «سینمایی، هایپررئال، نورپردازی دراماتیک»)
قاب دوربین: صحنه چگونه باید فیلمبرداری شود؟ (مثلاً «نمای واید، کلوزآپ، نمای هوایی»)

برای درک بهتر، به این نمونه ساختاریافته از یک پرامپت حرفه‌ای توجه کنید که تمام این عناصر را در خود جای داده است:

[صحنه] کوچه‌ای باریک و نئونی در شب، سنگفرش خیس از باران، عمق میدان کم.
[دوربین] ۳ ثانیه، حرکت آهسته به سمت داخل از مدیوم به کلوزآپ، روی دست، لرزش جزئی، لنز ۲۴ میلی‌متر.
[شخصیت‌ها] مارکو (مرد، ۴۰ ساله، خسته)، ظاهر: کت چرمی کهنه، موی خیس.
[دیالوگ] مارکو: «فکر می‌کردم تا الان رفته باشیم.» (لحن: تسلیم شده، نفس‌آلود)
[صدا] زبان: انگلیسی، صدا: مرد، ۴۰ ساله، آرام؛ محیط: باران + صدای بوق ماشین از دور؛ افکت صوتی: صدای پاشیدن آب در ۱.۴ ثانیه؛ موسیقی: پیانوی مینور آرام از ثانیه ۰.
[سبک] سینمایی، گرین فیلمیک، درجه‌بندی رنگی آبی-نارنجی، 1080p، ۸ ثانیه.

ظهور مفاهیمی مانند «کارگردان ایجنت هوش مصنوعی» (مانند Nolan در پلتفرم Reelmind) این ایده را تقویت می‌کند که آینده تولید محتوا، یک همکاری نزدیک بین انسان و هوش مصنوعی در سطح کارگردانی است. این تحول، پرامپت‌نویسی را به یک مهارت خلاقانه جدید تبدیل کرده است که ترکیبی از نویسندگی و دانش فنی کارگردانی فیلم است.

——————————————————————————–

۴. خطرات واقعی فقط دیپ‌فیک نیستند

وقتی صحبت از خطرات هوش مصنوعی ویدیوساز می‌شود، ذهن همه فوراً به سمت دیپ‌فیک (جعل عمیق) و انتشار اطلاعات نادرست می‌رود. این یک نگرانی کاملاً معتبر است؛ گزارش‌ها نشان می‌دهد که تلاش برای کلاهبرداری با استفاده از دیپ‌فیک در سال‌های اخیر بیش از ۲۱۰۰ درصد افزایش یافته است. اما خطرات این فناوری به همین‌جا ختم نمی‌شود و ابعاد دیگری نیز دارد.

دو ریسک مهم دیگر که اغلب نادیده گرفته می‌شوند عبارتند از:

۱. سانسور دولتی: مدل Kling تحت قوانین سختگیرانه سانسور که با مقررات دولت چین هماهنگ است، عمل می‌کند. این بدان معناست که این ابزار از تولید محتوا در مورد موضوعات حساس سیاسی، اعتراضات یا انتقاد از دولت جلوگیری می‌کند. این مسئله، لایه‌ای از ریسک ژئوپلیتیکی را به این فناوری اضافه می‌کند.

۲. بدافزارها و کلاهبرداری: محبوبیت بالای ابزارهایی مانند Kling، بازیگران مخرب را نیز به خود جذب کرده است. کمپین‌های بدافزاری شناسایی شده‌اند که با استفاده از وب‌سایت‌ها و تبلیغات جعلی برای Kling، کاربران را فریب داده و بدافزارهای سارق اطلاعات (infostealer) را روی سیستم‌های آن‌ها نصب می‌کنند.

این مسائل نشان می‌دهد که خطرات پیرامون هوش مصنوعی ویدیوساز بسیار فراتر از دیپ‌فیک است و شامل ابعاد پیچیده‌ای از امنیت سایبری و سیاست‌های بین‌المللی نیز می‌شود که به همان اندازه فوری و مهم هستند.

——————————————————————————–

۵. «قاتل Sora» وجود ندارد؛ بلکه یک جعبه‌ابزار کامل وجود دارد

روایت رسانه‌ای اغلب به دنبال معرفی یک «قاتل Sora» است و رقابت در حوزه هوش مصنوعی ویدیوساز را به یک مسابقه دو اسبی تقلیل می‌دهد. اما واقعیت این است که این حوزه بیشتر شبیه یک اکوسیستم از ابزارهای تخصصی است تا یک میدان نبرد برای تعیین یک برنده نهایی.

مدل‌های مختلف، نقاط قوت متفاوتی دارند. برای مثال، Sora در تولید صحنه‌های فوق‌واقع‌گرایانه (photorealism) و مدیریت صحنه‌های پیچیده برتری دارد. در آزمون‌های مستقیم، Sora توانست یک شیر باشکوه را بر روی صخره‌ای به شکلی واقع‌گرایانه رندر کند، در حالی که تلاش Kling یک «ترکیب شیر-ببر» را تولید کرد که بدنی شبیه شیر اما پاهایی با خطوط راه‌راه ببر داشت. این مثال به خوبی نشان می‌دهد که مدل‌ها درک متفاوتی از مفاهیم پیچیده دارند.

این اکوسیستم فراتر از Sora و Kling است و شامل ابزارهای تخصصی دیگری نیز می‌شود. برای مثال، Runway به دلیل کیفیت سینمایی و ابزارهای حرفه‌ای‌اش شناخته می‌شود و Flux به خاطر کیفیت انقلابی‌اش در تولید تصویر شهرت دارد.

در نهایت، «برنده» به نیاز spécifique کاربر بستگی دارد. آینده این حوزه نه در سلطه یک مدل بر دیگران، بلکه در یادگیری خالقان برای استفاده از یک جعبه‌ابزار متنوع از ایجنت‌های هوش مصنوعی تخصصی نهفته است.

——————————————————————————–

نتیجه‌گیری

دنیای هوش مصنوعی ویدیوساز بسیار ظریف‌تر و جذاب‌تر از آن چیزی است که عناوین خبری نشان می‌دهند. این حوزه با شکاف‌های عظیم قدرت محاسباتی، گردش‌کارهای خلاقانه جدید، ریسک‌های غیرمنتظره و اکوسیستمی رو به رشد از ابزارهای تخصصی تعریف می‌شود. همانطور که این فناوری به تکامل خود ادامه می‌دهد، خالقان محتوا نیز باید مهارت‌های خود را برای هدایت این ابزارهای قدرتمند تطبیق دهند.

در این عصر جدید از خلق محتوا، کدام مهارت‌ها برای یک خالق اثر ارزشمندتر خواهد بود: تخیل هنری یا مهارت در کارگردانی هوش مصنوعی؟

دسته بندی ها: هوش مصنوعی