گوگل در حال توسعه قابلیت حاشیه‌نویسی برای اصلاح سریع تصاویر در جمینای (Gemini)

گوگل در نسل جدید پلتفرم هوش مصنوعی خود، جمینای (Google Gemini)، در حال آزمایش قابلیتی پیشرفته برای حاشیه‌نویسی و ویرایش سریع تصاویر است. این ویژگی به کاربران اجازه می‌دهد پیش از دانلود یک تصویر، تغییرات موردنظر خود را به‌صورت نقاشی یا افزودن متن روی تصویر اعمال کنند. همچنین کاربران می‌توانند نسخه‌های حاشیه‌نویسی‌شده را دوباره به سیستم ارسال کرده تا اصلاحات دقیق‌تر و هوشمندتر روی آن انجام شود.

هدف اصلی گوگل از ارائه این قابلیت، افزایش کنترل کاربران بر خروجی مدل‌های هوش مصنوعی و تسهیل تعامل مستقیم با نتایج تولید‌شده توسط جمینای است. این اقدام می‌تواند نقطه عطفی در تجربه ویرایش خلاقانه تصاویر باشد.


1. جزئیات قابلیت حاشیه‌نویسی تصاویر جمینای گوگل

طبق گزارش منتشر‌شده از سوی TestingCatalog در شبکه اجتماعی ایکس (Twitter سابق)، گوگل در حال توسعه قابلیتی در جمینای است که امکان حاشیه‌نویسی پیشرفته تصاویر را فراتر از افزودن متن ساده فراهم می‌کند. این قابلیت یک گام مهم در جهت شخصی‌سازی خروجی‌های هوش مصنوعی است.

1.1. رابط کاربری جدید حاشیه‌نویسی

نمونه‌های اولیه نشان‌دهنده یک رابط کاربری متمرکز بر ویرایش سریع است. در پایین تصویر تولیدشده، یک پالت رنگی افقی تعبیه شده است که امکان انتخاب رنگ‌های مختلف برای حاشیه‌نویسی را فراهم می‌کند. دو ابزار اصلی در این پالت قابل مشاهده است:

  1. آیکون خط موج‌دار (نقاشی): این ابزار به کاربران اجازه می‌دهد تا به‌صورت آزاد (Freehand) روی تصویر نقاشی کنند. این قابلیت برای ایجاد طرح‌های اولیه، هایلایت کردن بخش‌های خاص، یا افزودن علائم بصری سریع بسیار مفید است. کاربران می‌توانند با این ابزار، اشکال دستی یا یادداشت‌های ترسیمی را مستقیماً روی تصویر اعمال کنند.
  2. علامت «T» (متن سفارشی): این ابزار برای درج متن سفارشی طراحی شده است. کاربران می‌توانند متن مورد نظر خود را با فونت‌ها و اندازه‌های مختلف روی تصویر اضافه کنند، که این امر برای افزودن کپشن‌های موقت، برچسب‌ها، یا توضیحاتی که باید در تصویر باقی بمانند، ایده‌آل است.

این دو ابزار، قدرت تعامل مستقیم با تصویر تولیدشده را به کاربر می‌دهند، بدون اینکه نیاز باشد کاربر برای هر تغییر جزئی، پرامپت‌های متنی طولانی وارد کند.


2. قابلیت ارسال مجدد تصاویر و ادامه ویرایش با هوش مصنوعی

یکی از نوآورانه‌ترین بخش‌های این قابلیت، امکان تکرار پروسه ویرایش است. پس از اینکه کاربر حاشیه‌نویسی‌های اولیه (نقاشی یا متن) خود را روی تصویر اعمال کرد، می‌تواند نسخه حاشیه‌نویسی‌شده را مجدداً به جمینای ارسال کند.

2.1. فرآیند ویرایش تکرارشونده

این مکانیزم به هوش مصنوعی اجازه می‌دهد تا تغییرات اعمال‌شده توسط کاربر را به عنوان ورودی جدید تفسیر کند و بر اساس آن، اصلاحات بعدی را انجام دهد. برای مثال:

  1. ورودی اولیه: کاربر پرامپتی مانند “عکسی از یک سگ در پارک” را وارد می‌کند.
  2. حاشیه‌نویسی کاربر: کاربر با استفاده از ابزار نقاشی، بخشی از آسمان را هایلایت کرده و با ابزار متن، کلمه “غروب” را اضافه می‌کند.
  3. ارسال مجدد: کاربر تصویر حاشیه‌نویسی‌شده را دوباره به جمینای ارسال می‌کند و پرامپت تکمیلی وارد می‌کند: “تغییر نورپردازی به حالت غروب آفتاب بر اساس هایلایت‌ها.”

این فرآیند، راهی ساده‌تر و شهودی‌تر برای ویرایش هوشمند تصاویر فراهم می‌کند. کاربران به جای تلاش برای توصیف دقیق تغییرات با زبان طبیعی، می‌توانند مستقیماً با تصویر “صحبت” کنند و تغییرات بصری را اعمال نمایند. این رویکرد، کنترل کاربر را به شکل قابل توجهی افزایش می‌دهد.

3. پیشینه قابلیت ویرایش در جمینای گوگل

توسعه قابلیت حاشیه‌نویسی بر اساس زیرساخت‌های قدرتمند ویرایش تصویری است که گوگل پیش‌تر در جمینای پیاده‌سازی کرده است. از ابتدای سال جاری، جمینای مجهز به ابزار ویرایش تصویر داخلی شده است که قابلیت‌های گسترده‌ای را ارائه می‌دهد:

3.1. ویرایش تصاویر تولیدشده توسط هوش مصنوعی

این ابزار به کاربران اجازه می‌دهد تا تصاویر تولیدشده توسط خود جمینای را به‌صورت مستقیم پس از تولید، تغییر دهند. این تغییرات می‌توانند شامل موارد زیر باشند:

  • تغییر یا حذف پس‌زمینه: کاربران می‌توانند پس‌زمینه‌ای خاص را درخواست کنند یا آن را کاملاً حذف نمایند.
  • افزودن یا حذف اشیا: افزودن المان‌های جدید به صحنه یا حذف اشیاء مزاحم.
  • ترکیب چند تصویر مختلف: ادغام عناصر از تصاویر گوناگون در یک خروجی واحد.
  • ساخت تصاویر روایی بر اساس داستان‌کاربر: ایجاد توالی بصری بر اساس روایت متنی ارائه شده توسط کاربر.

3.2. ویرایش عکس‌های شخصی کاربران

یکی از مزایای کلیدی جمینای، قابلیت ویرایش عکس‌های شخصی کاربران است. این بدان معناست که جمینای می‌تواند به عنوان یک ابزار ویرایشگر عکس پیشرفته نیز عمل کند و قابلیت‌هایی مانند روتوش، تغییر نور و ترکیب عکس‌ها را روی تصاویر بارگذاری شده توسط کاربر اعمال نماید.

قابلیت حاشیه‌نویسی، لایه‌ای جدید به این مجموعه اضافه می‌کند که تمرکز آن بر تعامل لحظه‌ای و ویرایش‌های دقیق و سریع است.


4. مدل Nano Banana Pro و گسترش توانایی‌های تصویری جمینای

توسعه قابلیت‌های بصری جمینای با بهبود مدل‌های زیربنایی آن همراه است. گوگل اخیراً از مدلی با نام Gemini Nano Banana Pro رونمایی کرده است که نقش کلیدی در ارتقاء کیفیت خروجی‌های تصویری دارد.

4.1. ویژگی‌های Gemini Nano Banana Pro

این مدل جدید به‌طور ویژه برای تولید تصاویر دقیق‌تر، با وضوح بالاتر و محتوای بصری غنی‌تر طراحی شده است. یکی از چالش‌های اصلی مدل‌های تولید تصویر، بازتولید دقیق متن و فونت‌ها بوده است. گوگل اعلام کرده که با استفاده از Nano Banana Pro، وضوح متن و فونت‌ها در تصاویر هوش مصنوعی به شکل قابل‌توجهی بهبود یافته است.

این بهبود در دقت بصری، به قابلیت حاشیه‌نویسی نیز کمک می‌کند، زیرا مدل بهتر می‌تواند متن‌های اضافه شده توسط کاربر را در زمینه تصویر ادغام کرده و ویرایش‌های دقیق‌تری را در دفعات بعدی اعمال نماید.


جمع‌بندی: آینده ویرایش تصویر در جمینای گوگل

  1. قابلیت حاشیه‌نویسی تصاویر در جمینای گوگل، مرحله‌ای جدید در تعامل میان انسان و هوش مصنوعی را رقم می‌زند. با این ابزار، کاربران قادر خواهند بود به‌صورت بصری و مستقیم با خروجی‌های مدل‌های گوگل کار کنند. این امر، فرآیند خلق محتوا را دموکراتیزه کرده و آن را برای طیف گسترده‌تری از کاربران قابل دسترس می‌سازد.
  2. این قابلیت نه تنها امکان افزودن یادداشت‌ها و علائم بصری را فراهم می‌کند، بلکه با اجازه دادن به کاربران برای ارسال مجدد تصاویر ویرایش‌شده، امکان اصلاحات تکرارشونده و هوشمند را مهیا می‌سازد.
  3. این مسیر، نشانه‌ای از آینده‌ای است که در آن ویرایش هوش مصنوعی دیگر نیازمند پرامپت‌های پیچیده و مبهم نیست — بلکه از طریق لمس، طراحی مستقیم، و خلاقیت بصری کاربر انجام می‌شود. این تغییر رویکرد، جمینای را به ابزاری قوی‌تر برای طراحان، هنرمندان، و کاربران روزمره تبدیل خواهد کرد.
مطالب مرتبط

مایکروسافت Copilot+ را روی GPU آزمایش می‌کند

1. Copilot+ مایکروسافت روی GPU؛ یک آزمایش مهم و غیرمنتظره مایکروسافت مدت‌هاست…

شکایت گوگل از کلاهبرداران چینی که با جمینای هزاران سایت جعلی ساختند

1. ماجرا دقیقاً چیست؟ طبق گزارش‌های منتشرشده، گوگل علیه گروهی از کلاهبرداران…

Fusion؛ سلاح جدید OpenRouter برای شکست مدل‌های هوش مصنوعی

OpenRouter از Fusion رونمایی کرد؛  در حالی که بیشتر سرویس‌های هوش مصنوعی…

۲۵ خرداد ۱۴۰۵

دیدگاهتان را بنویسید