مدل‌های زبانی بزرگ

اپل نشان داد مدل‌های زبانی بزرگ چگونه فعالیت‌های کاربران را با دقت بیشتری تحلیل می‌کنند

اپل اخیراً تحقیق جدیدی منتشر کرده که نشان می‌دهد مدل‌های زبانی بزرگ (LLM) چگونه می‌توانند داده‌های صوتی و حرکتی کاربران را تحلیل کنند تا تصویری دقیق‌تر از فعالیت‌های روزمره آنها ارائه دهند. مقاله با عنوان «استفاده از LLMها برای ادغام چند حسی سنسورها در تشخیص فعالیت» توضیح می‌دهد که این رویکرد چگونه می‌تواند حتی در شرایطی که داده‌های کافی از سنسورها در دسترس نیست، دقت تحلیل فعالیت‌ها را افزایش دهد.

مطالعه نشان می‌دهد که LLMها توانایی قابل توجهی در استنباط نوع فعالیت کاربران از سیگنال‌های صوتی و حرکتی دارند، حتی بدون آموزش اختصاصی برای این کار. جالب اینجاست که وقتی تنها یک نمونه ارائه می‌شود، دقت مدل‌ها حتی افزایش می‌یابد.

در این تحقیق، LLMها فایل صوتی واقعی را دریافت نکردند؛ بلکه توضیحات متنی کوتاهی که توسط مدل‌های صوتی و یک مدل حرکتی مبتنی بر IMU تولید شده بود، به آنها داده شد. IMU یا دستگاه سنجش لختی، حرکت را از طریق داده‌های شتاب‌سنج و ژیروسکوپ دنبال می‌کند.

مدل‌های زبانی بزرگ

برای آموزش و آزمایش، محققان از مجموعه داده عظیم Ego4D استفاده کردند؛ این مجموعه شامل هزاران ساعت ویدئو از دیدگاه اول‌شخص است که فعالیت‌های مختلف خانه و محیط‌های بیرونی را شامل می‌شود. داده‌های صوتی و حرکتی ابتدا توسط مدل‌های کوچک‌تر پردازش شدند تا زیرنویس متنی و پیش‌بینی کلاس فعالیت تولید شود، سپس خروجی‌ها به LLMهای پیشرفته مانند Gemini 2.5 Pro و Qwen-32B داده شد تا دقت شناسایی فعالیت‌ها بررسی شود.

عملکرد مدل‌ها در دو حالت مقایسه شد: یکی با ارائه لیست ۱۲ فعالیت ممکن و دیگری بدون هیچ گزینه‌ای. نتایج این مطالعه نشان می‌دهد که ترکیب چند مدل هوش مصنوعی می‌تواند تحلیل داده‌های فعالیت و سلامت را حتی زمانی که داده‌های خام سنسورها ناکافی است، بهبود بخشد.

برای اطلاعات بیشتر درباره مدل‌های زبانی بزرگ و کاربرد آنها در تحلیل داده‌های سلامت و فعالیت، می‌توانید به وب‌سایت رسمی اپل و مقالات تخصصی هوش مصنوعی مراجعه کنید.

دنیای من بین نور مانیتور و اسکرول‌های بی‌پایان می‌گذره. میلیون‌ها کیلومتر مسیر رو تو دنیای داده‌ها طی کردم تا امروز بتونم در مغز افزار، هوش مصنوعی رو از زاویه‌ای متفاوت براتون کالبدشکافی کنم.
مطالب مرتبط

GPT-5.6 در راه است؛ رونمایی نسل جدید ChatGPT نزدیک است!

 رونمایی OpenAI از GPT-5.6؛ نسل جدید ChatGPT گزارش‌های منتشرشده نشان می‌دهد OpenAI…

۲۳ خرداد ۱۴۰۵

MiMo Code؛ دستیار هوش مصنوعی کدنویسی شیائومی رونمایی شد

MiMo Code؛ دستیار هوش مصنوعی کدنویسی شیائومی با حافظه پایدار رونمایی شد…

۲۲ خرداد ۱۴۰۵

پیشرفته‌ترین مدل هوش مصنوعی آفلاین اپل روی کدام آیفون‌ها اجرا می‌شود؟

1. هوش مصنوعی آفلاین اپل روی کدام آیفون‌ها اجرا می‌شود؟ اپل همیشه…

دیدگاهتان را بنویسید