moghzafzar

ابزارهای انقلابی ادوبی: هوش مصنوعی چگونه تدوین ویدیو و ویرایش عکس را متحول می‌کند؟

⏱ این مطلب چقدر از وقت شما را میگیرد؟

حدود 7 دقیقه

ادوبی در کنفرانس سالانه Max خود، مجموعه‌ای از ابزارهای آزمایشی مبتنی بر هوش مصنوعی (AI) را معرفی کرد که پتانسیل تغییر بنیادین در فرآیندهای خلاقانه تدوین ویدیو و ویرایش عکس را دارند. این ابزارها با هدف ساده‌سازی کارهای پیچیده و زمان‌بر، مرزهای ویرایش محتوای چندرسانه‌ای را جابجا می‌کنند. تمرکز اصلی این ابزارها بر کاهش وابستگی به دانش فنی عمیق در زمینه ماسک‌گذاری‌های پیچیده، نورپردازی دقیق و ویرایش‌های زمان‌بر صوتی است. در ادامه، به تشریح مفصل هر یک از این پروژه‌های پیشگامانه می‌پردازیم.


۱. Project Frame Forward: حذف و افزودن سوژه‌ها در ویدیو با یک کلیک

مهم‌ترین و کاربردی‌ترین ابزار رونمایی شده،  Project Frame Forward  است. این ابزار با بهره‌گیری از هوش مصنوعی مولد (Generative AI)، فرآیند «Masking» (ماسک‌گذاری یا انتخاب سوژه) که معمولاً یکی از خسته‌کننده‌ترین و دقیق‌ترین مراحل در نرم‌افزارهایی مانند Adobe Premiere Pro و After Effects است را کاملاً حذف می‌کند. این فناوری جدید، امکان دستکاری دینامیک محتوای ویدیویی را در مقیاس‌های زمانی و مکانی فراهم می‌آورد.

1.1. حذف هوشمند سوژه (Object Removal)

قابلیت اصلی این ابزار، حذف کامل یک سوژه از کادر ویدیو، فارغ از حرکت آن یا پیچیدگی پس‌زمینه، است.

جزئیات عملکرد:

  1. انتخاب سوژه: کاربر تنها با یک کلیک یا کشیدن یک کادر کوچک روی سوژه مورد نظر در یک فریم مشخص (مثلاً یک فرد، یک وسیله نقلیه، یا یک شیء مزاحم)، آن سوژه را برای حذف انتخاب می‌کند.
  2. ردیابی و ماسک‌گذاری خودکار: هوش مصنوعی به صورت خودکار حرکت و تغییر شکل سوژه را در طول تمام فریم‌های ویدیو ردیابی می‌کند. این مرحله، که در روش‌های سنتی نیازمند Keyframing و Track Matteهای متعدد بود، اکنون به طور کامل خودکار صورت می‌گیرد.
  3. بازسازی پس‌زمینه (Inpainting): پس از شناسایی کامل سوژه در هر فریم، چالش اصلی بازسازی فضای خالی باقی‌مانده است. هوش مصنوعی Frame Forward با تحلیل فریم‌های قبل و بعد و همچنین اطلاعات بصری محیط اطراف، یک پس‌زمینه مصنوعی و یکپارچه تولید می‌کند. این بازسازی باید از نظر بافت، عمق میدان (Depth of Field) و حرکت دوربین کاملاً با سکانس اصلی هماهنگ باشد.

مثال پیشرفته: اگر یک فرد در یک صحنه شلوغ که در حال حرکت است حذف شود، هوش مصنوعی باید جزئیاتی مانند سایه فرد حذف شده، انعکاس آن روی سطوح براق نزدیک، و حرکت جزئی اشیای پشت سر فرد را به درستی شبیه‌سازی کند.

1.2. افزودن محتوای جدید (Inpainting/Outpainting)

بر خلاف ابزارهای سنتی که صرفاً بر حذف تمرکز داشتند، Frame Forward اجازه می‌دهد تا عناصر کاملاً جدیدی به ویدیو اضافه شوند. این کار صرفاً با استفاده از یک پرامپت متنی (Text Prompt) انجام می‌گیرد، مشابه عملکرد Firefly در ویرایش عکس، اما در بستر ویدیو.

هماهنگی پیشرفته:

نکته قابل توجه، هماهنگی دقیق عناصر جدید با محیط و نورپردازی موجود در صحنه است.

  • نورپردازی و سایه‌زنی: هوش مصنوعی پارامترهای نور صحنه (جهت نور، شدت، رنگ) را محاسبه کرده و شیء جدید را طوری رندر می‌کند که سایه‌ها و هایلایت‌های آن به طور طبیعی روی سطوح دیگر بیفتد.
    • فرمول تقریبی مدل‌سازی نور (مفهومی): اگر $I_{new}$ شدت نور شیء جدید، $L_{scene}$ بردار نور محیطی، و $S$ هندسه صحنه باشد، هوش مصنوعی سعی می‌کند $I_{render} = f(I_{new}, L_{scene}, S)$ را به گونه‌ای محاسبه کند که در ویدیو یکپارچه به نظر برسد.
  • بازتاب‌ها و تعاملات محیطی: در مثال ذکر شده، افزودن یک گربه در یک گودال آبی، نیازمند محاسبه بازتاب دقیق قطرات آب و نور محیط روی بدن گربه و همچنین بازتاب خود گربه در سطح آب است. این سطح از تعامل، نشان‌دهنده عمق محاسباتی این ابزار است.

۲. Project Light Touch: کنترل دینامیک نورپردازی در عکس‌ها

این پروژه مستقیماً بر ویرایش عکس، به ویژه در محیط Adobe Photoshop، متمرکز است و از قدرت هوش مصنوعی مولد برای اصلاح یا تغییر کامل فیزیک نورپردازی بهره می‌برد. در ویرایش سنتی، تغییر جهت نور یا ایجاد سایه‌های جدید نیازمند استفاده از ابزارهای پیچیده Dodge & Burn، نورهای موضعی و ماسک‌های دقیق بود. Light Touch این فرآیند را به یک دستور متنی تبدیل می‌کند.

امکانات ویرایش نور با هوش مصنوعی:

2.1. تغییر جهت نور (Relighting):

کاربر می‌تواند منبع نور اصلی در تصویر را جابجا کند. این تغییر فقط بر روشنایی سطح سوژه تأثیر نمی‌گذارد، بلکه بر شکل و جهت سایه‌ها نیز اثر می‌گذارد.

  • مکانیک: هوش مصنوعی ابتدا نقشه‌ای سه‌بعدی یا حداقل یک نقشه ارتفاعی (Normal Map) تقریبی از صحنه استخراج می‌کند. سپس، با تعریف مختصات جدید منبع نور (مثلاً جابجایی آن از بالا به سمت چپ)، سایه‌های جدید بر اساس این مختصات جدید ترسیم می‌شوند.
  • دقت در سایه‌ها: سایه‌های تولید شده باید با لبه‌های اشیا همخوانی داشته باشند. اگر شیء دارای لبه‌های تیز باشد (مانند معماری)، سایه باید مرزهای واضحی داشته باشد، در حالی که سایه‌های اشیاء نرم‌تر، محو خواهند بود.

2.2. شبیه‌سازی روشن شدن منابع نور خاموش:

یکی از چالش‌برانگیزترین ویرایش‌ها، افزودن منابع نوری است که در عکس اصلی حضور نداشته‌اند (مانند یک لامپ رومیزی خاموش).

  • تولید نور از خلاء: هوش مصنوعی لامپ خاموش را شناسایی کرده و سپس بر اساس مشخصات بصری لامپ (نوع حباب، رنگ شیشه)، یک اثر نوری واقع‌گرایانه تولید می‌کند. این شامل:
    1. ایجاد گرمای رنگی (Color Temperature) مشخص در اطراف لامپ.
    2. رندر سایه‌هایی که توسط این نور جدید ایجاد می‌شوند (اگر منبع نور دیگری در صحنه وجود داشته باشد، نور جدید باید با سایه‌های آن تداخل پیدا کند).

2.3. نورپردازی پویا و تغییر کامل محیط:

این قابلیت امکان دگرگونی کامل فضا را فراهم می‌کند.

  • تعامل واقع‌گرایانه: اضافه کردن نورهایی که به صورت واقع‌گرایانه با سوژه‌ها تعامل دارند. این امر نیازمند درک فیزیک مواد است. برای مثال، نور اضافه شده از یک منبع باید در یک سطح فلزی بازتاب کند، در یک سطح مات جذب شود و از یک سطح شیشه‌ای عبور کند.
  • تغییر روز به شب (Time Warp): این ابزار می‌تواند کل پالت رنگی صحنه را به گونه‌ای تغییر دهد که گویی زمان از ظهر آفتابی به نیمه شب تغییر کرده است، بدون اینکه جزئیات سوژه‌ها (مانند بافت پوست یا لباس) از بین برود و بافت اصلی حفظ شود. این کار شامل تنظیم مجدد تمام هایلایت‌ها و سایه‌های محیطی مطابق با نور ماه یا نورهای شهری است.

۳. Project Clean Take: ویرایش صدای گوینده بدون ضبط مجدد

ابزار Project Clean Take به طور خاص برای ویرایش پیشرفته صدا در نرم‌افزارهایی مانند Adobe Audition طراحی شده است و نیاز به رفتن به استودیو برای ضبط مجدد جملات (ADR) را از بین می‌برد. این فناوری بر اساس مدل‌های پیشرفته تبدیل متن به گفتار (TTS) و تبدیل گفتار به گفتار (STT) عمل می‌کند که قادر به تقلید دقیق از صدای اصلی گوینده هستند.

ویژگی‌های ویرایش صدای مبتنی بر متن:

3.1.  تغییر لحن و احساس (Emotional Transfer):

کاربر می‌تواند با استفاده از دستورات متنی، نحوه بیان یا احساسات پشت کلمات اصلی را تغییر دهد، در حالی که هویت صوتی گوینده ثابت می‌ماند.

  • مکانیزم عملکرد: هوش مصنوعی ابتدا پارامترهای آکوستیک گفتار اصلی (Pitch، Timbre، Rhythm) را از گفتار اصلی تفکیک می‌کند. سپس، با اعمال پارامترهای احساسی جدید (مثلاً “با لحن پرسشی”، “با صدای بلند و هیجان‌زده” یا “با عصبانیت خفیف”)، این پارامترها را به مدل صدای اصلی تزریق می‌کند.
  • کنترل زیر و بمی (Pitch Control): امکان افزایش یا کاهش زیر و بمی کلمات خاص به صورت موضعی، برای ایجاد طنز یا تأکید.

3.2. جایگزینی کلمات (Word Replacement):

این قابلیت به کاربر اجازه می‌دهد تا کلمات یا عباراتی را در دیالوگ اصلی جایگزین کند، بدون اینکه تشخیص داده شود که آن بخش‌ها توسط فرد دیگری ضبط شده‌اند.

  • حفظ کامل کیفیت: موفقیت این ابزار در گرو توانایی آن در حفظ کامل ویژگی‌های صوتی منحصر به فرد گوینده (مانند تنفس‌ها، لهجه‌های خاص یا ویژگی‌های فرکانسی) هنگام تولید کلمات جدید است.
  • واژگان سفارشی: در صورت نیاز، می‌توان واژگان فنی یا اسامی خاصی را که در مجموعه داده‌های آموزشی اولیه مدل نبوده، به آن آموزش داد.

2.3.  حذف نویز انتخابی و اصلاح فرکانسی:

این ابزار فراتر از حذف نویز عمومی عمل می‌کند و امکان مداخله بسیار دقیق در طیف فرکانسی صدا را فراهم می‌سازد.

  • جداسازی نویز: هوش مصنوعی می‌تواند صداهای ناخواسته (مانند صدای سرفه، صدای ترافیک، یا صدای کولر) را از صدای اصلی دیالوگ جدا کند، حتی اگر در همان فرکانس‌های صوتی گوینده قرار داشته باشند.
  • تنظیم نویز: به جای حذف کامل، کاربر می‌تواند سطح نویز پس‌زمینه را تنظیم کند. مثلاً، اگر یک هواپیما از دور عبور می‌کند، می‌توان سطح صدای آن را به میزان ( -12 \text{ dB} ) کاهش داد، اما آن را کاملاً حذف نکرد تا حس واقع‌گرایی محیطی حفظ شود.

وضعیت فعلی و آینده نگری

ادوبی تأکید کرده است که این ابزارها در حال حاضر در مرحله آزمایشی (Experimental) هستند و بخشی از مجموعه ابزارهای آزمایشی ادوبی (Adobe Labs) محسوب می‌شوند. زمان مشخصی برای انتشار عمومی آن‌ها در مجموعه نرم‌افزارهای Creative Cloud (مانند نسخه بعدی فتوشاپ یا پریمیر پرو) اعلام نشده است.

با این حال، این رونمایی‌ها نشان‌دهنده تعهد جدی ادوبی به یکپارچه‌سازی عمیق هوش مصنوعی مولد در قلب محصولات خود است. این ابزارها نه تنها فرآیند تولید محتوا را برای متخصصین به طرز چشمگیری تسریع می‌بخشند، بلکه دسترسی به سطوح بالایی از ویرایش حرفه‌ای را برای کاربران عادی نیز فراهم خواهند کرد. این تحولات نشان می‌دهد که در آینده نزدیک، تعریف «ویرایش» در حوزه چندرسانه‌ای به شدت تغییر خواهد کرد و محدودیت‌های فنی جای خود را به محدودیت‌های خلاقانه خواهند داد.

Avatar photo
علاقه مند طراحی وب سایت و برنامه نویسی
نوشته های مرتبط

معرفی GLM‑5؛ غول چینی متن‌باز که در کدنویسی از Gemini 3 Pro جلو زد

⏱ این مطلب چقدر از وقت شما را میگیرد؟ حدود 2 دقیقه…

دیدگاهتان را بنویسید