⏱ این مطلب چقدر از وقت شما را میگیرد؟
حدود 3 دقیقه
گوگل بهطور رسمی اعلام کرد که یک بهروزرسانی کلیدی برای مدل هوش مصنوعی جمینای (Gemini) در حال انتشار است که تمرکز اصلی آن بر بهبود چشمگیر توانایی مدل در مدیریت و پردازش گفتوگوهای طبیعی و زنده است. این اقدام در راستای تکامل دستیارهای صوتی و هوش مصنوعی مکالمهای صورت میگیرد.
با ظهور هوش مصنوعی جمینای، تعامل با دستیارهای مجازی گوگل نسبت به نسلهای پیشین (مانند Google Assistant) بسیار طبیعیتر شده است. با این حال، گوگل همواره به دنبال ارتقاء این تجربه بوده است. آخرین بهروزرسانی، Gemini 2.5 Flash Native Audio، به طور خاص برای “ایجنتهای صوتی زنده” طراحی شده و نویدبخش جهشی بزرگ در کیفیت تعاملات است.
1. تمرکز گوگل بر سه ستون اصلی بهبود در Gemini 2.5 Flash
گوگل در این نسخه جدید، سه حوزه حیاتی را هدف قرار داده تا قابلیتهای صوتی جمینای را به حداکثر برساند:
- دقت بالاتر در فراخوانی توابع (Function Calling):
یکی از چالشهای اصلی در دستیارهای صوتی، توانایی آنها در تعامل با ابزارهای خارجی (مانند جستجوی لحظهای اطلاعات) بدون قطع جریان گفتگو است. جمینای اکنون با اطمینانپذیری بالاتری توابع خارجی را فعال میکند. این یعنی مدل میتواند تشخیص دهد که چه زمانی نیاز به کسب اطلاعات بهروز دارد و این دادهها را به صورت یکپارچه و بدون ایجاد اختلال در مکالمه، در پاسخ صوتی خود بگنجاند.
- بهبود چشمگیر در پیروی از دستورالعملها:
این بهروزرسانی، نرخ پایبندی جمینای به دستورالعملهای توسعهدهندگان را از ۸۴ درصد به نرخ ۹۰ درصد ارتقا داده است. این افزایش تعهد به معنای مدیریت کارآمدتر دستورات پیچیده و ارائه خروجیهایی است که میتوانند بیشترین اعتماد را برای کاربران و توسعهدهندگان به همراه داشته باشند.
- ایجاد مکالمات منسجم و روانتر:
مدل Gemini 2.5 Flash Native Audio اکنون میتواند زمینه (Context) و اطلاعات مربوط به بخشهای قبلی مکالمه را به شکلی مؤثرتر بازیابی کند. این قابلیت، عاملی حیاتی برای شکلگیری گفتگوهایی است که از لحاظ منطقی به هم پیوستهتر و از نظر حسی روانتر هستند.

2. نوآوریهای تکمیلی برای تعامل صوتی بدون وقفه
علاوه بر پیشرفتهای هستهای، دو ویژگی کاربردی برای تجربه کاربری بهتر در مکالمات زنده اضافه شده است:
- مدیریت مکثهای کلامی: اگر کاربر در حین صحبت مکث کوتاهی داشته باشد، جمینای Live به طور خودکار مکالمه را در میانه جمله قطع نخواهد کرد و منتظر ادامه صحبت کاربر خواهد ماند.
- قابلیت Mute کردن میکروفون: کاربران اکنون میتوانند حین صحبت کردن با این نسخه، میکروفون را موقتاً بیصدا کنند تا از قطع شدن ناخواسته صحبت خود یا فعالسازی زودهنگام مدل جلوگیری کنند.
این بهروزرسانیها در حال حاضر برای سرویسهای Gemini Live، Live Search، Google AI Studio و Vertex AI در دسترس قرار گرفته است.
گوگل همچنین خبرهایی از بهبودهای آتی برای اپلیکیشن Translate منتشر کرده که شامل درک بهتر اصطلاحات، کنایهها و آرایههای زبانی پیچیده و گسترش سرویس Live Translate به زبانهای بیشتر خواهد بود.
با مغز افزار همراه باشید تا از جدیدترین تحولات در حوزه هوش مصنوعی و پیشرفتهای گوگل آگاه شوید.
