افزایش ۳ برابری سرعت مدل‌های Gemma 4 با فناوری جدید گوگل

گوگل با معرفی قابلیت تازه‌ای به نام پیش‌بینی چندتوکنی (Multi-Token Prediction یا MTP)، سرعت اجرای مدل‌های متن‌باز Gemma 4 را تا سه برابر افزایش داده است. این به‌روزرسانی می‌تواند تجربه اجرای هوش مصنوعی آفلاین روی گوشی‌های هوشمند و کامپیوترهای شخصی را به شکل چشمگیری بهبود دهد.

مدل‌های Gemma 4 که بهار امسال معرفی شدند، از ابتدا برای اجرا روی سخت‌افزارهای کاربر نهایی طراحی شده بودند. اکنون با افزوده‌شدن MTP، این مدل‌ها سریع‌تر، بهینه‌تر و کارآمدتر از قبل عمل می‌کنند.

1. فناوری پیش‌بینی چندتوکنی (MTP) چگونه کار می‌کند؟

در حالت عادی، مدل‌های زبانی بزرگ به‌صورت خودبازگشتی (Autoregressive) عمل می‌کنند؛ یعنی هر بار فقط یک توکن را پیش‌بینی می‌کنند و برای هر توکن، میزان ثابتی از توان پردازشی مصرف می‌شود. این روش اگرچه دقیق است، اما باعث محدودیت در سرعت تولید متن می‌شود.

فناوری MTP این روند را تغییر می‌دهد. در این روش:

  • یک مفسر سبک‌وزن (برای مثال نسخه E2B با ۷۴ میلیون پارامتر) وارد عمل می‌شود.
  • این مفسر چند توکن آینده را به‌صورت هم‌زمان پیش‌بینی می‌کند.
  • پیش‌بینی‌ها به شکل موازی توسط مدل اصلی بررسی و تأیید می‌شوند.
  • در صورت صحت پیش‌بینی، کل توالی در یک عملیات پذیرفته می‌شود.

نکته مهم این است که مفسر از KV Cache مشترک با مدل اصلی استفاده می‌کند؛ بنابراین از محاسبات تکراری جلوگیری شده و زمان‌های تلف‌شده پردازنده بهینه می‌شود.

2. حل یکی از بزرگ‌ترین چالش‌های اجرای مدل‌های محلی

یکی از مشکلات اصلی اجرای مدل‌های هوش مصنوعی روی سیستم‌های خانگی، محدودیت پهنای باند حافظه است. برخلاف سرورها که به حافظه‌های HBM پرسرعت مجهز هستند، رایانه‌های شخصی و لپ‌تاپ‌ها چنین امکاناتی ندارند و بخش زیادی از زمان پردازنده صرف جابه‌جایی داده بین حافظه گرافیکی و واحدهای محاسباتی می‌شود.

MTP با پیش‌بینی هم‌زمان چند توکن و استفاده هوشمندانه از منابع پردازشی، این گلوگاه را تا حد زیادی برطرف کرده و بهره‌وری سیستم‌های معمولی را افزایش می‌دهد.

3. تفاوت Gemma با Gemini در چیست؟

مدل‌های Gemma 4 از نظر معماری الهام‌گرفته از مدل پیشرفته Gemini هستند؛ اما تفاوت مهمی دارند:

  • Gemini برای اجرا در دیتاسنترها و روی تراشه‌های اختصاصی TPU گوگل طراحی شده است.
  • Gemma برای اجرا روی دستگاه‌های شخصی کاربران بهینه‌سازی شده است.

حتی بزرگ‌ترین نسخه‌های Gemma 4 نیز می‌توانند با دقت کامل روی یک شتاب‌دهنده هوش مصنوعی تکی اجرا شوند. همچنین با استفاده از فرآیند کوانتایزیشن (Quantization)، اجرای این مدل‌ها روی کارت‌های گرافیک معمولی و خانگی نیز امکان‌پذیر شده است.

4. افزایش سرعت Gemma 4 روی گوشی و مک

طبق اعلام گوگل، فناوری MTP هیچ افت کیفیتی در خروجی نهایی ایجاد نمی‌کند، زیرا تمام پیش‌بینی‌ها توسط مدل اصلی راستی‌آزمایی می‌شوند.

نتایج آزمایش‌ها نشان می‌دهد:

  • افزایش سرعت ۲.۸ برابری برای مدل E2B روی گوشی‌های پیکسل
  • افزایش سرعت ۳.۱ برابری برای مدل E4B
  • بهبود ۲.۵ برابری در اجرای مدل ۳۱ میلیارد پارامتری Gemma 4 روی تراشه M4 اپل

علاوه بر افزایش «توکن در ثانیه»، این بهینه‌سازی باعث:

  • کاهش مصرف انرژی
  • افزایش طول عمر باتری در موبایل‌ها
  • امکان اجرای مدل‌های سنگین‌تر مانند 26B MoE و 31B Dense روی سخت‌افزارهای متنوع

شده است.


5. مجوز آزادتر برای توسعه‌دهندگان

گوگل مجوز این مدل‌ها را به Apache 2.0 تغییر داده که آزادی عمل بیشتری به توسعه‌دهندگان می‌دهد. نسخه‌های ارتقایافته Gemma 4 هم‌اکنون در پلتفرم‌هایی مانند SGLang و Ollama در دسترس هستند.

جمع‌بندی

قابلیت پیش‌بینی چندتوکنی (MTP) نقطه عطفی در اجرای مدل‌های هوش مصنوعی روی دستگاه‌های شخصی محسوب می‌شود. افزایش سرعت تا سه برابر، کاهش مصرف انرژی و حفظ کیفیت خروجی باعث شده Gemma 4 به گزینه‌ای جدی برای اجرای هوش مصنوعی آفلاین تبدیل شود.

برای اطلاع از تازه‌ترین اخبار فناوری و هوش مصنوعی، با مغز افزار همراه باشید.

برچسب ها :
مطالب مرتبط

GPT-5.6 در راه است؛ رونمایی نسل جدید ChatGPT نزدیک است!

 رونمایی OpenAI از GPT-5.6؛ نسل جدید ChatGPT گزارش‌های منتشرشده نشان می‌دهد OpenAI…

۲۳ خرداد ۱۴۰۵

MiMo Code؛ دستیار هوش مصنوعی کدنویسی شیائومی رونمایی شد

MiMo Code؛ دستیار هوش مصنوعی کدنویسی شیائومی با حافظه پایدار رونمایی شد…

۲۲ خرداد ۱۴۰۵

پیشرفته‌ترین مدل هوش مصنوعی آفلاین اپل روی کدام آیفون‌ها اجرا می‌شود؟

1. هوش مصنوعی آفلاین اپل روی کدام آیفون‌ها اجرا می‌شود؟ اپل همیشه…

دیدگاهتان را بنویسید