moghzafzar

Gemini 2.5 Computer Use هوش مصنوعی‌ای که مرورگر را مثل انسان کنترل می‌کند

⏱ این مطلب چقدر از وقت شما را میگیرد؟

حدود 5 دقیقه

گوگل اخیراً مدل جدیدی به نام Gemini 2.5 Computer Use را رونمایی کرده است که توانایی تعامل با رابط کاربری مرورگر (کلیک، تایپ، اسکرول و پر کردن فرم‌ها) را مثل یک کاربر انسانی دارد. این مدل در پیش‌نمایش برای توسعه‌دهندگان عرضه شده و امکانات خودکارسازی وظایف مرورگر را بهبود می‌دهد. در این مقاله، عملکرد، کاربردها، مزایا، چالش‌ها و چشم‌انداز آینده این فناوری را بررسی می‌کنیم.

Gemini 2.5 Computer Use چیست و چگونه کار می‌کند؟

ماهیت مدل و ابزار Computer Use

مدل Gemini 2.5 Computer Use یک افزونه تخصصی از مجموعه Gemini است که امکان تعامل با رابط کاربری مرورگر را فراهم می‌کند. blog.google+2Google Cloud+2 این مدل توسط ابزار computer_use در API Gemini عرضه می‌شود. Google Cloud+2Google AI for Developers+2

در عمل، این مدل:

  1. یک عکس از وضعیت فعلی صفحه (screenshot) و تاریخچه عملیات اخیر را می‌گیرد

  2. درخواست کاربر (مثلاً «به یک سایت برو و اطلاعات خاص را پیدا کن») را دریافت می‌کند

  3. مدل تحلیل می‌کند که چه عملکرد UI باید انجام شود (کلیک، تایپ، اسکرول و غیره)

  4. خروجی این تحلیل به صورت یک «تابع فراخوانی‌شده» (function call) به کد عملیاتی ارسال می‌شود

  5. کد عملیاتی، آن دستور را اجرا می‌کند؛ سپس وضعیت جدید صفحه مجدداً به مدل ارسال می‌شود

  6. این حلقه ادامه می‌یابد تا کار به پایان برسد یا توسط مدل یا کاربر متوقف شود MarkTechPost+3blog.google+3Google AI for Developers+3

مهم است بدانیم که در حال حاضر، این مدل عمدتاً برای کنترل وب‌سایت‌ها در مرورگر طراحی شده و هنوز به کنترل کامل سیستم‌عامل رومیزی (desktop OS) تسلط ندارد. Android Police+3blog.google+39to5Google+3

کارهایی که می‌تواند انجام دهد

با استفاده از Gemini Computer Use، می‌توان عامل‌هایی ساخت که:

  • فرم‌ها را به‌صورت خودکار پر کنند

  • وب‌سایت‌ها را برای جمع‌آوری اطلاعات پیمایش کنند

  • جریان‌های کار در وب‌سایت را خودکار کنند (برای مثال ورود، ثبت سفارش، ثبت‌نام)

  • در آزمون رابط کاربری (UI testing) کمک کنند

  • کارهای تکراری وب را برای کاربران ساده‌تر کنند MarkTechPost+3Google AI for Developers+3Google Cloud+3


مزایا و نقاط قوت

تعامل بصری و طبیعی

یکی از برتری‌های برجسته این مدل این است که به جای تعامل از طریق APIهای ساختاریافته، مستقیماً با رابط گرافیکی کاربران کار می‌کند؛ یعنی کلیک‌ها، اسکرول‌ها و تایپ‌ها را دقیقا مانند یک کاربر واقعی انجام می‌دهد. Google AI for Developers+3The Verge+3Android Police+3

کارایی و تأخیر کم

گوگل ادعا می‌کند که Gemini 2.5 Computer Use عملکرد بسیار سریعی در کنترل مرورگر دارد و در بنچمارک‌های وب و موبایل نتایجی برجسته به دست آورده است. Android Police+4blog.google+4MarkTechPost+4

دسترسی برای توسعه‌دهندگان

در حال حاضر این مدل در پیش‌نمایش از طریق Gemini API، Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان است. blog.google+2MarkTechPost+2

لایه‌های ایمنی داخلی

با توجه به مخاطرات بالقوه، گوگل لایه‌های امنیتی و بررسی عملکردها را به مدل افزوده است تا دستورات پرخطر یا غیرمجاز را تشخیص دهد یا نیاز به تأیید کاربر داشته باشد. blog.google+2Google Cloud+2


محدودیت‌ها و چالش‌ها

گزینه محدود به مرورگر

در حال حاضر، کنترل مدل محدود به مرورگر است و نمی‌تواند به‌صورت کامل سیستم‌عامل یا برنامه‌های دسکتاپ را کنترل کند. MarkTechPost+4blog.google+4Google Cloud+4

خطا و نااطمینانی

در محیط‌های پیچیده وب ممکن است مدل عمل نادرست انجام دهد یا در تشخیص عناصر UI اشتباه کند، خصوصاً در سایت‌های پویا یا تغییرپذیر. Google Cloud+2blog.google+2

امنیت و سوءاستفاده

امکان سوئی استفاده از این مدل برای انجام کارهای مخرب مانند پر کردن فرم‌های حساس یا ورود به سیستم‌ها وجود دارد، به‌خصوص اگر امنیت و کنترل لازم رعایت نشود. blog.google+2Google Cloud+2

نبود پشتیبانی کامل

با توجه به اینکه مدل در مرحله پیش‌نمایش است، پشتیبانی کامل در همه پلتفرم‌ها یا برای استفاده‌های سنگین وجود ندارد. Google Cloud+2Google AI for Developers+2


کاربردهای احتمالی

  • شرکت‌های اتوماسیون وب می‌توانند گردش کارهای پیچیده وب را خودکار کنند

  • تست رابط کاربری و مرورگر (UI testing) با دقت بالاتر

  • مرورگرهای هوشمند به عنوان ابزارهای کمکی در دسترس کاربران

  • ساخت ربات‌ها و عامل‌هایی که به‌صورت خودکار وب‌گردی و تعامل انجام می‌دهند

  • کاربردهای تحقیق در وب و جمع‌آوری داده


چشم‌انداز آینده

  • گسترش کنترل به برنامه‌های دسکتاپ (فراتر از مرورگر)

  • بهبود ایمنی و فیلترهای بیشتری برای جلوگیری از عملکردهای مخرب

  • ادغام این قابلیت‌ها در محصولات گوگل مانند جستجو، دستیار هوشمند یا برنامه‌های کاربردی

  • ساده‌سازی استفاده برای کاربران عادی (نه فقط توسعه‌دهندگان)

  • ارتقاء توانایی مدل برای درک رابط‌هایی با طراحی متغیر یا پیچیده


نتیجه‌گیری

معرفی Gemini 2.5 Computer Use از سوی گوگل نقطه عطفی در مسیر ساخت هوش مصنوعی عامل است؛ مدلی که نه فقط پاسخ می‌دهد بلکه عمل می‌کند — یعنی مرورگر وب را مثل انسان کنترل می‌کند. اگرچه محدودیت‌ها و چالش‌هایی وجود دارد، اما این گام بزرگ پتانسیل تغییر جدی در اتوماسیون وب و تعامل انسان-ماشین دارد.

🔗 تجربه نسخه آزمایشی Gemini 2.5 Computer Use :

برای آشنایی و تست قابلیت جدید کنترل مرورگر با مدل Gemini 2.5 Computer Use، می‌توانید از طریق لینک‌های رسمی زیر وارد شوید:

🌐 صفحه اصلی Gemini – سرویس هوش مصنوعی گوگل

🧠 مستندات رسمی Computer Use در Gemini API (ویژه توسعه‌دهندگان)

☁️ راهنمای فنی در Google Cloud Vertex AI

📰 پست رسمی گوگل درباره معرفی Gemini 2.5 Computer Use

منبع  : www.reuters.com

عاشق تکنولوژی + هوش مصنوعی
نوشته های مرتبط

تحقیق اتحادیه اروپا درباره تصاویر جنسی تولیدشده توسط گراک در پلتفرم ایکس

⏱ این مطلب چقدر از وقت شما را میگیرد؟ حدود 2 دقیقه…

معرفی GLM‑5؛ غول چینی متن‌باز که در کدنویسی از Gemini 3 Pro جلو زد

⏱ این مطلب چقدر از وقت شما را میگیرد؟ حدود 2 دقیقه…

دیدگاهتان را بنویسید