⏱ این مطلب چقدر از وقت شما را میگیرد؟
حدود 5 دقیقه
گوگل اخیراً مدل جدیدی به نام Gemini 2.5 Computer Use را رونمایی کرده است که توانایی تعامل با رابط کاربری مرورگر (کلیک، تایپ، اسکرول و پر کردن فرمها) را مثل یک کاربر انسانی دارد. این مدل در پیشنمایش برای توسعهدهندگان عرضه شده و امکانات خودکارسازی وظایف مرورگر را بهبود میدهد. در این مقاله، عملکرد، کاربردها، مزایا، چالشها و چشمانداز آینده این فناوری را بررسی میکنیم.
Gemini 2.5 Computer Use چیست و چگونه کار میکند؟
ماهیت مدل و ابزار Computer Use
مدل Gemini 2.5 Computer Use یک افزونه تخصصی از مجموعه Gemini است که امکان تعامل با رابط کاربری مرورگر را فراهم میکند. blog.google+2Google Cloud+2 این مدل توسط ابزار computer_use در API Gemini عرضه میشود. Google Cloud+2Google AI for Developers+2
در عمل، این مدل:
-
یک عکس از وضعیت فعلی صفحه (screenshot) و تاریخچه عملیات اخیر را میگیرد
-
درخواست کاربر (مثلاً «به یک سایت برو و اطلاعات خاص را پیدا کن») را دریافت میکند
-
مدل تحلیل میکند که چه عملکرد UI باید انجام شود (کلیک، تایپ، اسکرول و غیره)
-
خروجی این تحلیل به صورت یک «تابع فراخوانیشده» (function call) به کد عملیاتی ارسال میشود
-
کد عملیاتی، آن دستور را اجرا میکند؛ سپس وضعیت جدید صفحه مجدداً به مدل ارسال میشود
-
این حلقه ادامه مییابد تا کار به پایان برسد یا توسط مدل یا کاربر متوقف شود MarkTechPost+3blog.google+3Google AI for Developers+3
مهم است بدانیم که در حال حاضر، این مدل عمدتاً برای کنترل وبسایتها در مرورگر طراحی شده و هنوز به کنترل کامل سیستمعامل رومیزی (desktop OS) تسلط ندارد. Android Police+3blog.google+39to5Google+3
کارهایی که میتواند انجام دهد
با استفاده از Gemini Computer Use، میتوان عاملهایی ساخت که:
-
فرمها را بهصورت خودکار پر کنند
-
وبسایتها را برای جمعآوری اطلاعات پیمایش کنند
-
جریانهای کار در وبسایت را خودکار کنند (برای مثال ورود، ثبت سفارش، ثبتنام)
-
در آزمون رابط کاربری (UI testing) کمک کنند
-
کارهای تکراری وب را برای کاربران سادهتر کنند MarkTechPost+3Google AI for Developers+3Google Cloud+3
مزایا و نقاط قوت
تعامل بصری و طبیعی
یکی از برتریهای برجسته این مدل این است که به جای تعامل از طریق APIهای ساختاریافته، مستقیماً با رابط گرافیکی کاربران کار میکند؛ یعنی کلیکها، اسکرولها و تایپها را دقیقا مانند یک کاربر واقعی انجام میدهد. Google AI for Developers+3The Verge+3Android Police+3
کارایی و تأخیر کم
گوگل ادعا میکند که Gemini 2.5 Computer Use عملکرد بسیار سریعی در کنترل مرورگر دارد و در بنچمارکهای وب و موبایل نتایجی برجسته به دست آورده است. Android Police+4blog.google+4MarkTechPost+4
دسترسی برای توسعهدهندگان
در حال حاضر این مدل در پیشنمایش از طریق Gemini API، Google AI Studio و Vertex AI در دسترس توسعهدهندگان است. blog.google+2MarkTechPost+2
لایههای ایمنی داخلی
با توجه به مخاطرات بالقوه، گوگل لایههای امنیتی و بررسی عملکردها را به مدل افزوده است تا دستورات پرخطر یا غیرمجاز را تشخیص دهد یا نیاز به تأیید کاربر داشته باشد. blog.google+2Google Cloud+2
محدودیتها و چالشها
گزینه محدود به مرورگر
در حال حاضر، کنترل مدل محدود به مرورگر است و نمیتواند بهصورت کامل سیستمعامل یا برنامههای دسکتاپ را کنترل کند. MarkTechPost+4blog.google+4Google Cloud+4
خطا و نااطمینانی
در محیطهای پیچیده وب ممکن است مدل عمل نادرست انجام دهد یا در تشخیص عناصر UI اشتباه کند، خصوصاً در سایتهای پویا یا تغییرپذیر. Google Cloud+2blog.google+2
امنیت و سوءاستفاده
امکان سوئی استفاده از این مدل برای انجام کارهای مخرب مانند پر کردن فرمهای حساس یا ورود به سیستمها وجود دارد، بهخصوص اگر امنیت و کنترل لازم رعایت نشود. blog.google+2Google Cloud+2
نبود پشتیبانی کامل
با توجه به اینکه مدل در مرحله پیشنمایش است، پشتیبانی کامل در همه پلتفرمها یا برای استفادههای سنگین وجود ندارد. Google Cloud+2Google AI for Developers+2
کاربردهای احتمالی
-
شرکتهای اتوماسیون وب میتوانند گردش کارهای پیچیده وب را خودکار کنند
-
تست رابط کاربری و مرورگر (UI testing) با دقت بالاتر
-
مرورگرهای هوشمند به عنوان ابزارهای کمکی در دسترس کاربران
-
ساخت رباتها و عاملهایی که بهصورت خودکار وبگردی و تعامل انجام میدهند
-
کاربردهای تحقیق در وب و جمعآوری داده
چشمانداز آینده
-
گسترش کنترل به برنامههای دسکتاپ (فراتر از مرورگر)
-
بهبود ایمنی و فیلترهای بیشتری برای جلوگیری از عملکردهای مخرب
-
ادغام این قابلیتها در محصولات گوگل مانند جستجو، دستیار هوشمند یا برنامههای کاربردی
-
سادهسازی استفاده برای کاربران عادی (نه فقط توسعهدهندگان)
-
ارتقاء توانایی مدل برای درک رابطهایی با طراحی متغیر یا پیچیده
نتیجهگیری
معرفی Gemini 2.5 Computer Use از سوی گوگل نقطه عطفی در مسیر ساخت هوش مصنوعی عامل است؛ مدلی که نه فقط پاسخ میدهد بلکه عمل میکند — یعنی مرورگر وب را مثل انسان کنترل میکند. اگرچه محدودیتها و چالشهایی وجود دارد، اما این گام بزرگ پتانسیل تغییر جدی در اتوماسیون وب و تعامل انسان-ماشین دارد.
🔗 تجربه نسخه آزمایشی Gemini 2.5 Computer Use :
برای آشنایی و تست قابلیت جدید کنترل مرورگر با مدل Gemini 2.5 Computer Use، میتوانید از طریق لینکهای رسمی زیر وارد شوید:
🌐 صفحه اصلی Gemini – سرویس هوش مصنوعی گوگل
🧠 مستندات رسمی Computer Use در Gemini API (ویژه توسعهدهندگان)
منبع : www.reuters.com
