⏱ این مطلب چقدر از وقت شما را میگیرد؟
حدود 2 دقیقه
اپل اخیراً تحقیق جدیدی منتشر کرده که نشان میدهد مدلهای زبانی بزرگ (LLM) چگونه میتوانند دادههای صوتی و حرکتی کاربران را تحلیل کنند تا تصویری دقیقتر از فعالیتهای روزمره آنها ارائه دهند. مقاله با عنوان «استفاده از LLMها برای ادغام چند حسی سنسورها در تشخیص فعالیت» توضیح میدهد که این رویکرد چگونه میتواند حتی در شرایطی که دادههای کافی از سنسورها در دسترس نیست، دقت تحلیل فعالیتها را افزایش دهد.
مطالعه نشان میدهد که LLMها توانایی قابل توجهی در استنباط نوع فعالیت کاربران از سیگنالهای صوتی و حرکتی دارند، حتی بدون آموزش اختصاصی برای این کار. جالب اینجاست که وقتی تنها یک نمونه ارائه میشود، دقت مدلها حتی افزایش مییابد.
در این تحقیق، LLMها فایل صوتی واقعی را دریافت نکردند؛ بلکه توضیحات متنی کوتاهی که توسط مدلهای صوتی و یک مدل حرکتی مبتنی بر IMU تولید شده بود، به آنها داده شد. IMU یا دستگاه سنجش لختی، حرکت را از طریق دادههای شتابسنج و ژیروسکوپ دنبال میکند.

برای آموزش و آزمایش، محققان از مجموعه داده عظیم Ego4D استفاده کردند؛ این مجموعه شامل هزاران ساعت ویدئو از دیدگاه اولشخص است که فعالیتهای مختلف خانه و محیطهای بیرونی را شامل میشود. دادههای صوتی و حرکتی ابتدا توسط مدلهای کوچکتر پردازش شدند تا زیرنویس متنی و پیشبینی کلاس فعالیت تولید شود، سپس خروجیها به LLMهای پیشرفته مانند Gemini 2.5 Pro و Qwen-32B داده شد تا دقت شناسایی فعالیتها بررسی شود.
عملکرد مدلها در دو حالت مقایسه شد: یکی با ارائه لیست ۱۲ فعالیت ممکن و دیگری بدون هیچ گزینهای. نتایج این مطالعه نشان میدهد که ترکیب چند مدل هوش مصنوعی میتواند تحلیل دادههای فعالیت و سلامت را حتی زمانی که دادههای خام سنسورها ناکافی است، بهبود بخشد.
برای اطلاعات بیشتر درباره مدلهای زبانی بزرگ و کاربرد آنها در تحلیل دادههای سلامت و فعالیت، میتوانید به وبسایت رسمی اپل و مقالات تخصصی هوش مصنوعی مراجعه کنید.
