گوگل با معرفی قابلیت تازهای به نام پیشبینی چندتوکنی (Multi-Token Prediction یا MTP)، سرعت اجرای مدلهای متنباز Gemma 4 را تا سه برابر افزایش داده است. این بهروزرسانی میتواند تجربه اجرای هوش مصنوعی آفلاین روی گوشیهای هوشمند و کامپیوترهای شخصی را به شکل چشمگیری بهبود دهد.
مدلهای Gemma 4 که بهار امسال معرفی شدند، از ابتدا برای اجرا روی سختافزارهای کاربر نهایی طراحی شده بودند. اکنون با افزودهشدن MTP، این مدلها سریعتر، بهینهتر و کارآمدتر از قبل عمل میکنند.
1. فناوری پیشبینی چندتوکنی (MTP) چگونه کار میکند؟
در حالت عادی، مدلهای زبانی بزرگ بهصورت خودبازگشتی (Autoregressive) عمل میکنند؛ یعنی هر بار فقط یک توکن را پیشبینی میکنند و برای هر توکن، میزان ثابتی از توان پردازشی مصرف میشود. این روش اگرچه دقیق است، اما باعث محدودیت در سرعت تولید متن میشود.
فناوری MTP این روند را تغییر میدهد. در این روش:
- یک مفسر سبکوزن (برای مثال نسخه E2B با ۷۴ میلیون پارامتر) وارد عمل میشود.
- این مفسر چند توکن آینده را بهصورت همزمان پیشبینی میکند.
- پیشبینیها به شکل موازی توسط مدل اصلی بررسی و تأیید میشوند.
- در صورت صحت پیشبینی، کل توالی در یک عملیات پذیرفته میشود.
نکته مهم این است که مفسر از KV Cache مشترک با مدل اصلی استفاده میکند؛ بنابراین از محاسبات تکراری جلوگیری شده و زمانهای تلفشده پردازنده بهینه میشود.
2. حل یکی از بزرگترین چالشهای اجرای مدلهای محلی
یکی از مشکلات اصلی اجرای مدلهای هوش مصنوعی روی سیستمهای خانگی، محدودیت پهنای باند حافظه است. برخلاف سرورها که به حافظههای HBM پرسرعت مجهز هستند، رایانههای شخصی و لپتاپها چنین امکاناتی ندارند و بخش زیادی از زمان پردازنده صرف جابهجایی داده بین حافظه گرافیکی و واحدهای محاسباتی میشود.
MTP با پیشبینی همزمان چند توکن و استفاده هوشمندانه از منابع پردازشی، این گلوگاه را تا حد زیادی برطرف کرده و بهرهوری سیستمهای معمولی را افزایش میدهد.
3. تفاوت Gemma با Gemini در چیست؟
مدلهای Gemma 4 از نظر معماری الهامگرفته از مدل پیشرفته Gemini هستند؛ اما تفاوت مهمی دارند:
- Gemini برای اجرا در دیتاسنترها و روی تراشههای اختصاصی TPU گوگل طراحی شده است.
- Gemma برای اجرا روی دستگاههای شخصی کاربران بهینهسازی شده است.
حتی بزرگترین نسخههای Gemma 4 نیز میتوانند با دقت کامل روی یک شتابدهنده هوش مصنوعی تکی اجرا شوند. همچنین با استفاده از فرآیند کوانتایزیشن (Quantization)، اجرای این مدلها روی کارتهای گرافیک معمولی و خانگی نیز امکانپذیر شده است.
4. افزایش سرعت Gemma 4 روی گوشی و مک
طبق اعلام گوگل، فناوری MTP هیچ افت کیفیتی در خروجی نهایی ایجاد نمیکند، زیرا تمام پیشبینیها توسط مدل اصلی راستیآزمایی میشوند.
نتایج آزمایشها نشان میدهد:
- افزایش سرعت ۲.۸ برابری برای مدل E2B روی گوشیهای پیکسل
- افزایش سرعت ۳.۱ برابری برای مدل E4B
- بهبود ۲.۵ برابری در اجرای مدل ۳۱ میلیارد پارامتری Gemma 4 روی تراشه M4 اپل
علاوه بر افزایش «توکن در ثانیه»، این بهینهسازی باعث:
- کاهش مصرف انرژی
- افزایش طول عمر باتری در موبایلها
- امکان اجرای مدلهای سنگینتر مانند 26B MoE و 31B Dense روی سختافزارهای متنوع
شده است.
5. مجوز آزادتر برای توسعهدهندگان
گوگل مجوز این مدلها را به Apache 2.0 تغییر داده که آزادی عمل بیشتری به توسعهدهندگان میدهد. نسخههای ارتقایافته Gemma 4 هماکنون در پلتفرمهایی مانند SGLang و Ollama در دسترس هستند.
جمعبندی
قابلیت پیشبینی چندتوکنی (MTP) نقطه عطفی در اجرای مدلهای هوش مصنوعی روی دستگاههای شخصی محسوب میشود. افزایش سرعت تا سه برابر، کاهش مصرف انرژی و حفظ کیفیت خروجی باعث شده Gemma 4 به گزینهای جدی برای اجرای هوش مصنوعی آفلاین تبدیل شود.
برای اطلاع از تازهترین اخبار فناوری و هوش مصنوعی، با مغز افزار همراه باشید.


