⏱ این مطلب چقدر از وقت شما را میگیرد؟
حدود 7 دقیقه
ادوبی در کنفرانس سالانه Max خود، مجموعهای از ابزارهای آزمایشی مبتنی بر هوش مصنوعی (AI) را معرفی کرد که پتانسیل تغییر بنیادین در فرآیندهای خلاقانه تدوین ویدیو و ویرایش عکس را دارند. این ابزارها با هدف سادهسازی کارهای پیچیده و زمانبر، مرزهای ویرایش محتوای چندرسانهای را جابجا میکنند. تمرکز اصلی این ابزارها بر کاهش وابستگی به دانش فنی عمیق در زمینه ماسکگذاریهای پیچیده، نورپردازی دقیق و ویرایشهای زمانبر صوتی است. در ادامه، به تشریح مفصل هر یک از این پروژههای پیشگامانه میپردازیم.
۱. Project Frame Forward: حذف و افزودن سوژهها در ویدیو با یک کلیک
مهمترین و کاربردیترین ابزار رونمایی شده، Project Frame Forward است. این ابزار با بهرهگیری از هوش مصنوعی مولد (Generative AI)، فرآیند «Masking» (ماسکگذاری یا انتخاب سوژه) که معمولاً یکی از خستهکنندهترین و دقیقترین مراحل در نرمافزارهایی مانند Adobe Premiere Pro و After Effects است را کاملاً حذف میکند. این فناوری جدید، امکان دستکاری دینامیک محتوای ویدیویی را در مقیاسهای زمانی و مکانی فراهم میآورد.
1.1. حذف هوشمند سوژه (Object Removal)
قابلیت اصلی این ابزار، حذف کامل یک سوژه از کادر ویدیو، فارغ از حرکت آن یا پیچیدگی پسزمینه، است.
جزئیات عملکرد:
- انتخاب سوژه: کاربر تنها با یک کلیک یا کشیدن یک کادر کوچک روی سوژه مورد نظر در یک فریم مشخص (مثلاً یک فرد، یک وسیله نقلیه، یا یک شیء مزاحم)، آن سوژه را برای حذف انتخاب میکند.
- ردیابی و ماسکگذاری خودکار: هوش مصنوعی به صورت خودکار حرکت و تغییر شکل سوژه را در طول تمام فریمهای ویدیو ردیابی میکند. این مرحله، که در روشهای سنتی نیازمند Keyframing و Track Matteهای متعدد بود، اکنون به طور کامل خودکار صورت میگیرد.
- بازسازی پسزمینه (Inpainting): پس از شناسایی کامل سوژه در هر فریم، چالش اصلی بازسازی فضای خالی باقیمانده است. هوش مصنوعی Frame Forward با تحلیل فریمهای قبل و بعد و همچنین اطلاعات بصری محیط اطراف، یک پسزمینه مصنوعی و یکپارچه تولید میکند. این بازسازی باید از نظر بافت، عمق میدان (Depth of Field) و حرکت دوربین کاملاً با سکانس اصلی هماهنگ باشد.
مثال پیشرفته: اگر یک فرد در یک صحنه شلوغ که در حال حرکت است حذف شود، هوش مصنوعی باید جزئیاتی مانند سایه فرد حذف شده، انعکاس آن روی سطوح براق نزدیک، و حرکت جزئی اشیای پشت سر فرد را به درستی شبیهسازی کند.

1.2. افزودن محتوای جدید (Inpainting/Outpainting)
بر خلاف ابزارهای سنتی که صرفاً بر حذف تمرکز داشتند، Frame Forward اجازه میدهد تا عناصر کاملاً جدیدی به ویدیو اضافه شوند. این کار صرفاً با استفاده از یک پرامپت متنی (Text Prompt) انجام میگیرد، مشابه عملکرد Firefly در ویرایش عکس، اما در بستر ویدیو.
هماهنگی پیشرفته:
نکته قابل توجه، هماهنگی دقیق عناصر جدید با محیط و نورپردازی موجود در صحنه است.
- نورپردازی و سایهزنی: هوش مصنوعی پارامترهای نور صحنه (جهت نور، شدت، رنگ) را محاسبه کرده و شیء جدید را طوری رندر میکند که سایهها و هایلایتهای آن به طور طبیعی روی سطوح دیگر بیفتد.
- فرمول تقریبی مدلسازی نور (مفهومی): اگر $I_{new}$ شدت نور شیء جدید، $L_{scene}$ بردار نور محیطی، و $S$ هندسه صحنه باشد، هوش مصنوعی سعی میکند $I_{render} = f(I_{new}, L_{scene}, S)$ را به گونهای محاسبه کند که در ویدیو یکپارچه به نظر برسد.
- بازتابها و تعاملات محیطی: در مثال ذکر شده، افزودن یک گربه در یک گودال آبی، نیازمند محاسبه بازتاب دقیق قطرات آب و نور محیط روی بدن گربه و همچنین بازتاب خود گربه در سطح آب است. این سطح از تعامل، نشاندهنده عمق محاسباتی این ابزار است.
۲. Project Light Touch: کنترل دینامیک نورپردازی در عکسها
این پروژه مستقیماً بر ویرایش عکس، به ویژه در محیط Adobe Photoshop، متمرکز است و از قدرت هوش مصنوعی مولد برای اصلاح یا تغییر کامل فیزیک نورپردازی بهره میبرد. در ویرایش سنتی، تغییر جهت نور یا ایجاد سایههای جدید نیازمند استفاده از ابزارهای پیچیده Dodge & Burn، نورهای موضعی و ماسکهای دقیق بود. Light Touch این فرآیند را به یک دستور متنی تبدیل میکند.
امکانات ویرایش نور با هوش مصنوعی:
2.1. تغییر جهت نور (Relighting):
کاربر میتواند منبع نور اصلی در تصویر را جابجا کند. این تغییر فقط بر روشنایی سطح سوژه تأثیر نمیگذارد، بلکه بر شکل و جهت سایهها نیز اثر میگذارد.
- مکانیک: هوش مصنوعی ابتدا نقشهای سهبعدی یا حداقل یک نقشه ارتفاعی (Normal Map) تقریبی از صحنه استخراج میکند. سپس، با تعریف مختصات جدید منبع نور (مثلاً جابجایی آن از بالا به سمت چپ)، سایههای جدید بر اساس این مختصات جدید ترسیم میشوند.
- دقت در سایهها: سایههای تولید شده باید با لبههای اشیا همخوانی داشته باشند. اگر شیء دارای لبههای تیز باشد (مانند معماری)، سایه باید مرزهای واضحی داشته باشد، در حالی که سایههای اشیاء نرمتر، محو خواهند بود.
2.2. شبیهسازی روشن شدن منابع نور خاموش:
یکی از چالشبرانگیزترین ویرایشها، افزودن منابع نوری است که در عکس اصلی حضور نداشتهاند (مانند یک لامپ رومیزی خاموش).
- تولید نور از خلاء: هوش مصنوعی لامپ خاموش را شناسایی کرده و سپس بر اساس مشخصات بصری لامپ (نوع حباب، رنگ شیشه)، یک اثر نوری واقعگرایانه تولید میکند. این شامل:
- ایجاد گرمای رنگی (Color Temperature) مشخص در اطراف لامپ.
- رندر سایههایی که توسط این نور جدید ایجاد میشوند (اگر منبع نور دیگری در صحنه وجود داشته باشد، نور جدید باید با سایههای آن تداخل پیدا کند).
2.3. نورپردازی پویا و تغییر کامل محیط:
این قابلیت امکان دگرگونی کامل فضا را فراهم میکند.
- تعامل واقعگرایانه: اضافه کردن نورهایی که به صورت واقعگرایانه با سوژهها تعامل دارند. این امر نیازمند درک فیزیک مواد است. برای مثال، نور اضافه شده از یک منبع باید در یک سطح فلزی بازتاب کند، در یک سطح مات جذب شود و از یک سطح شیشهای عبور کند.
- تغییر روز به شب (Time Warp): این ابزار میتواند کل پالت رنگی صحنه را به گونهای تغییر دهد که گویی زمان از ظهر آفتابی به نیمه شب تغییر کرده است، بدون اینکه جزئیات سوژهها (مانند بافت پوست یا لباس) از بین برود و بافت اصلی حفظ شود. این کار شامل تنظیم مجدد تمام هایلایتها و سایههای محیطی مطابق با نور ماه یا نورهای شهری است.

۳. Project Clean Take: ویرایش صدای گوینده بدون ضبط مجدد
ابزار Project Clean Take به طور خاص برای ویرایش پیشرفته صدا در نرمافزارهایی مانند Adobe Audition طراحی شده است و نیاز به رفتن به استودیو برای ضبط مجدد جملات (ADR) را از بین میبرد. این فناوری بر اساس مدلهای پیشرفته تبدیل متن به گفتار (TTS) و تبدیل گفتار به گفتار (STT) عمل میکند که قادر به تقلید دقیق از صدای اصلی گوینده هستند.
ویژگیهای ویرایش صدای مبتنی بر متن:
3.1. تغییر لحن و احساس (Emotional Transfer):
کاربر میتواند با استفاده از دستورات متنی، نحوه بیان یا احساسات پشت کلمات اصلی را تغییر دهد، در حالی که هویت صوتی گوینده ثابت میماند.
- مکانیزم عملکرد: هوش مصنوعی ابتدا پارامترهای آکوستیک گفتار اصلی (Pitch، Timbre، Rhythm) را از گفتار اصلی تفکیک میکند. سپس، با اعمال پارامترهای احساسی جدید (مثلاً “با لحن پرسشی”، “با صدای بلند و هیجانزده” یا “با عصبانیت خفیف”)، این پارامترها را به مدل صدای اصلی تزریق میکند.
- کنترل زیر و بمی (Pitch Control): امکان افزایش یا کاهش زیر و بمی کلمات خاص به صورت موضعی، برای ایجاد طنز یا تأکید.
3.2. جایگزینی کلمات (Word Replacement):
این قابلیت به کاربر اجازه میدهد تا کلمات یا عباراتی را در دیالوگ اصلی جایگزین کند، بدون اینکه تشخیص داده شود که آن بخشها توسط فرد دیگری ضبط شدهاند.
- حفظ کامل کیفیت: موفقیت این ابزار در گرو توانایی آن در حفظ کامل ویژگیهای صوتی منحصر به فرد گوینده (مانند تنفسها، لهجههای خاص یا ویژگیهای فرکانسی) هنگام تولید کلمات جدید است.
- واژگان سفارشی: در صورت نیاز، میتوان واژگان فنی یا اسامی خاصی را که در مجموعه دادههای آموزشی اولیه مدل نبوده، به آن آموزش داد.
2.3. حذف نویز انتخابی و اصلاح فرکانسی:
این ابزار فراتر از حذف نویز عمومی عمل میکند و امکان مداخله بسیار دقیق در طیف فرکانسی صدا را فراهم میسازد.
- جداسازی نویز: هوش مصنوعی میتواند صداهای ناخواسته (مانند صدای سرفه، صدای ترافیک، یا صدای کولر) را از صدای اصلی دیالوگ جدا کند، حتی اگر در همان فرکانسهای صوتی گوینده قرار داشته باشند.
- تنظیم نویز: به جای حذف کامل، کاربر میتواند سطح نویز پسزمینه را تنظیم کند. مثلاً، اگر یک هواپیما از دور عبور میکند، میتوان سطح صدای آن را به میزان ( -12 \text{ dB} ) کاهش داد، اما آن را کاملاً حذف نکرد تا حس واقعگرایی محیطی حفظ شود.
وضعیت فعلی و آینده نگری
ادوبی تأکید کرده است که این ابزارها در حال حاضر در مرحله آزمایشی (Experimental) هستند و بخشی از مجموعه ابزارهای آزمایشی ادوبی (Adobe Labs) محسوب میشوند. زمان مشخصی برای انتشار عمومی آنها در مجموعه نرمافزارهای Creative Cloud (مانند نسخه بعدی فتوشاپ یا پریمیر پرو) اعلام نشده است.
با این حال، این رونماییها نشاندهنده تعهد جدی ادوبی به یکپارچهسازی عمیق هوش مصنوعی مولد در قلب محصولات خود است. این ابزارها نه تنها فرآیند تولید محتوا را برای متخصصین به طرز چشمگیری تسریع میبخشند، بلکه دسترسی به سطوح بالایی از ویرایش حرفهای را برای کاربران عادی نیز فراهم خواهند کرد. این تحولات نشان میدهد که در آینده نزدیک، تعریف «ویرایش» در حوزه چندرسانهای به شدت تغییر خواهد کرد و محدودیتهای فنی جای خود را به محدودیتهای خلاقانه خواهند داد.

دیدگاه کاربران (2 دیدگاه)