گوگل در نسل جدید پلتفرم هوش مصنوعی خود، جمینای (Google Gemini)، در حال آزمایش قابلیتی پیشرفته برای حاشیهنویسی و ویرایش سریع تصاویر است. این ویژگی به کاربران اجازه میدهد پیش از دانلود یک تصویر، تغییرات موردنظر خود را بهصورت نقاشی یا افزودن متن روی تصویر اعمال کنند. همچنین کاربران میتوانند نسخههای حاشیهنویسیشده را دوباره به سیستم ارسال کرده تا اصلاحات دقیقتر و هوشمندتر روی آن انجام شود.
هدف اصلی گوگل از ارائه این قابلیت، افزایش کنترل کاربران بر خروجی مدلهای هوش مصنوعی و تسهیل تعامل مستقیم با نتایج تولیدشده توسط جمینای است. این اقدام میتواند نقطه عطفی در تجربه ویرایش خلاقانه تصاویر باشد.
1. جزئیات قابلیت حاشیهنویسی تصاویر جمینای گوگل
طبق گزارش منتشرشده از سوی TestingCatalog در شبکه اجتماعی ایکس (Twitter سابق)، گوگل در حال توسعه قابلیتی در جمینای است که امکان حاشیهنویسی پیشرفته تصاویر را فراتر از افزودن متن ساده فراهم میکند. این قابلیت یک گام مهم در جهت شخصیسازی خروجیهای هوش مصنوعی است.
1.1. رابط کاربری جدید حاشیهنویسی
نمونههای اولیه نشاندهنده یک رابط کاربری متمرکز بر ویرایش سریع است. در پایین تصویر تولیدشده، یک پالت رنگی افقی تعبیه شده است که امکان انتخاب رنگهای مختلف برای حاشیهنویسی را فراهم میکند. دو ابزار اصلی در این پالت قابل مشاهده است:
- آیکون خط موجدار (نقاشی): این ابزار به کاربران اجازه میدهد تا بهصورت آزاد (Freehand) روی تصویر نقاشی کنند. این قابلیت برای ایجاد طرحهای اولیه، هایلایت کردن بخشهای خاص، یا افزودن علائم بصری سریع بسیار مفید است. کاربران میتوانند با این ابزار، اشکال دستی یا یادداشتهای ترسیمی را مستقیماً روی تصویر اعمال کنند.
- علامت «T» (متن سفارشی): این ابزار برای درج متن سفارشی طراحی شده است. کاربران میتوانند متن مورد نظر خود را با فونتها و اندازههای مختلف روی تصویر اضافه کنند، که این امر برای افزودن کپشنهای موقت، برچسبها، یا توضیحاتی که باید در تصویر باقی بمانند، ایدهآل است.
این دو ابزار، قدرت تعامل مستقیم با تصویر تولیدشده را به کاربر میدهند، بدون اینکه نیاز باشد کاربر برای هر تغییر جزئی، پرامپتهای متنی طولانی وارد کند.
2. قابلیت ارسال مجدد تصاویر و ادامه ویرایش با هوش مصنوعی
یکی از نوآورانهترین بخشهای این قابلیت، امکان تکرار پروسه ویرایش است. پس از اینکه کاربر حاشیهنویسیهای اولیه (نقاشی یا متن) خود را روی تصویر اعمال کرد، میتواند نسخه حاشیهنویسیشده را مجدداً به جمینای ارسال کند.
2.1. فرآیند ویرایش تکرارشونده
این مکانیزم به هوش مصنوعی اجازه میدهد تا تغییرات اعمالشده توسط کاربر را به عنوان ورودی جدید تفسیر کند و بر اساس آن، اصلاحات بعدی را انجام دهد. برای مثال:
- ورودی اولیه: کاربر پرامپتی مانند “عکسی از یک سگ در پارک” را وارد میکند.
- حاشیهنویسی کاربر: کاربر با استفاده از ابزار نقاشی، بخشی از آسمان را هایلایت کرده و با ابزار متن، کلمه “غروب” را اضافه میکند.
- ارسال مجدد: کاربر تصویر حاشیهنویسیشده را دوباره به جمینای ارسال میکند و پرامپت تکمیلی وارد میکند: “تغییر نورپردازی به حالت غروب آفتاب بر اساس هایلایتها.”
این فرآیند، راهی سادهتر و شهودیتر برای ویرایش هوشمند تصاویر فراهم میکند. کاربران به جای تلاش برای توصیف دقیق تغییرات با زبان طبیعی، میتوانند مستقیماً با تصویر “صحبت” کنند و تغییرات بصری را اعمال نمایند. این رویکرد، کنترل کاربر را به شکل قابل توجهی افزایش میدهد.

3. پیشینه قابلیت ویرایش در جمینای گوگل
توسعه قابلیت حاشیهنویسی بر اساس زیرساختهای قدرتمند ویرایش تصویری است که گوگل پیشتر در جمینای پیادهسازی کرده است. از ابتدای سال جاری، جمینای مجهز به ابزار ویرایش تصویر داخلی شده است که قابلیتهای گستردهای را ارائه میدهد:
3.1. ویرایش تصاویر تولیدشده توسط هوش مصنوعی
این ابزار به کاربران اجازه میدهد تا تصاویر تولیدشده توسط خود جمینای را بهصورت مستقیم پس از تولید، تغییر دهند. این تغییرات میتوانند شامل موارد زیر باشند:
- تغییر یا حذف پسزمینه: کاربران میتوانند پسزمینهای خاص را درخواست کنند یا آن را کاملاً حذف نمایند.
- افزودن یا حذف اشیا: افزودن المانهای جدید به صحنه یا حذف اشیاء مزاحم.
- ترکیب چند تصویر مختلف: ادغام عناصر از تصاویر گوناگون در یک خروجی واحد.
- ساخت تصاویر روایی بر اساس داستانکاربر: ایجاد توالی بصری بر اساس روایت متنی ارائه شده توسط کاربر.
3.2. ویرایش عکسهای شخصی کاربران
یکی از مزایای کلیدی جمینای، قابلیت ویرایش عکسهای شخصی کاربران است. این بدان معناست که جمینای میتواند به عنوان یک ابزار ویرایشگر عکس پیشرفته نیز عمل کند و قابلیتهایی مانند روتوش، تغییر نور و ترکیب عکسها را روی تصاویر بارگذاری شده توسط کاربر اعمال نماید.
قابلیت حاشیهنویسی، لایهای جدید به این مجموعه اضافه میکند که تمرکز آن بر تعامل لحظهای و ویرایشهای دقیق و سریع است.
4. مدل Nano Banana Pro و گسترش تواناییهای تصویری جمینای
توسعه قابلیتهای بصری جمینای با بهبود مدلهای زیربنایی آن همراه است. گوگل اخیراً از مدلی با نام Gemini Nano Banana Pro رونمایی کرده است که نقش کلیدی در ارتقاء کیفیت خروجیهای تصویری دارد.
4.1. ویژگیهای Gemini Nano Banana Pro
این مدل جدید بهطور ویژه برای تولید تصاویر دقیقتر، با وضوح بالاتر و محتوای بصری غنیتر طراحی شده است. یکی از چالشهای اصلی مدلهای تولید تصویر، بازتولید دقیق متن و فونتها بوده است. گوگل اعلام کرده که با استفاده از Nano Banana Pro، وضوح متن و فونتها در تصاویر هوش مصنوعی به شکل قابلتوجهی بهبود یافته است.
این بهبود در دقت بصری، به قابلیت حاشیهنویسی نیز کمک میکند، زیرا مدل بهتر میتواند متنهای اضافه شده توسط کاربر را در زمینه تصویر ادغام کرده و ویرایشهای دقیقتری را در دفعات بعدی اعمال نماید.
جمعبندی: آینده ویرایش تصویر در جمینای گوگل
- قابلیت حاشیهنویسی تصاویر در جمینای گوگل، مرحلهای جدید در تعامل میان انسان و هوش مصنوعی را رقم میزند. با این ابزار، کاربران قادر خواهند بود بهصورت بصری و مستقیم با خروجیهای مدلهای گوگل کار کنند. این امر، فرآیند خلق محتوا را دموکراتیزه کرده و آن را برای طیف گستردهتری از کاربران قابل دسترس میسازد.
- این قابلیت نه تنها امکان افزودن یادداشتها و علائم بصری را فراهم میکند، بلکه با اجازه دادن به کاربران برای ارسال مجدد تصاویر ویرایششده، امکان اصلاحات تکرارشونده و هوشمند را مهیا میسازد.
- این مسیر، نشانهای از آیندهای است که در آن ویرایش هوش مصنوعی دیگر نیازمند پرامپتهای پیچیده و مبهم نیست — بلکه از طریق لمس، طراحی مستقیم، و خلاقیت بصری کاربر انجام میشود. این تغییر رویکرد، جمینای را به ابزاری قویتر برای طراحان، هنرمندان، و کاربران روزمره تبدیل خواهد کرد.

