moghzafzar

هوش مصنوعی برای نابینایان؛ مسیر‌یابی و شناسایی اشیاء فقط با فرمان صوتی

⏱ این مطلب چقدر از وقت شما را میگیرد؟

حدود 6 دقیقه

در دنیایی که هوش مصنوعی هر روز زندگی انسان‌ها را ساده‌تر می‌کند، فناوری جدیدی در حال تغییر نحوه تعامل افراد نابینا با محیط اطرافشان است. پژوهشگران دانشگاه پن‌استیت اپلیکیشنی با نام NaviSense‌ را توسعه داده‌اند که با بهره‌گیری از توان هوش مصنوعی می‌تواند اشیاء اطراف را شناسایی کرده و موقعیت دقیق آن‌ها را تنها با دستور صوتی کاربر اعلام کند. این پیشرفت نه تنها یک ابزار کمکی، بلکه گامی بزرگ در جهت استقلال کامل افراد دارای محدودیت بینایی در محیط‌های پیچیده روزمره است.


1. نحوه عملکرد اپلیکیشن NaviSense

NaviSense یک سیستم پیچیده مبتنی بر یادگیری عمیق و پردازش بلادرنگ (Real-Time Processing) است که از سخت‌افزار استاندارد گوشی‌های هوشمند بهره می‌برد. هسته اصلی این سیستم بر تحلیل مداوم تصویر دریافتی از دوربین دستگاه استوار است.

۱. تحلیل تصویر و شناسایی اشیاء در لحظه

اپلیکیشن NaviSense از شبکه‌های عصبی پیچیده کانولوشنی (CNNs) مانند مدل‌های مبتنی بر YOLO (You Only Look Once) یا مشابه آن بهره می‌برد که برای شناسایی سریع و دقیق اشیاء بهینه‌سازی شده‌اند.

فرایند شناسایی:

  1. دریافت فریم: دوربین گوشی به طور مداوم فریم‌های ویدئویی را با نرخ بالا (مثلاً ۳۰ فریم در ثانیه) دریافت می‌کند.
  2. پیش‌پردازش: تصاویر برای حذف نویز و بهبود کنتراست آماده‌سازی می‌شوند.
  3. استنتاج (Inference): مدل هوش مصنوعی آموزش‌دیده روی این فریم‌ها اجرا می‌شود تا اشیاء مورد نظر (مانند در، صندلی، پله، یا حتی یک لیوان روی میز) شناسایی شوند.
  4. تعیین مختصات: پس از شناسایی، مدل موقعیت سه‌بعدی (عمق و زاویه) شیء نسبت به کاربر را با استفاده از داده‌های عمق (در صورت وجود سنسور LiDAR یا استفاده از روش‌های استریو ویژن) محاسبه می‌کند.

1.1. هدایت فضایی از طریق صدا و حس

یکی از نوآورانه‌ترین بخش‌های NaviSense، نحوه انتقال اطلاعات محیطی به کاربر است. این کار از طریق دو مکانیسم اصلی انجام می‌شود:

الف. صدای فضایی سه‌بعدی (Spatial Audio)

این فناوری کاربر را قادر می‌سازد تا منبع صدا را در فضای سه‌بعدی (بالا، پایین، چپ، راست و فاصله) تعیین کند. اپلیکیشن از طریق هدفون‌های متصل، صداهایی را تولید می‌کند که محل قرارگیری شیء مورد نظر را شبیه‌سازی می‌کنند.

  • مثال: اگر کاربر بپرسد “صندلی کجاست؟” و صندلی در سمت راست و کمی جلوتر باشد، صدای شبیه‌سازی شده از آن جهت شنیده می‌شود. هر چه شیء نزدیک‌تر باشد، شدت صدا یا وضوح آن تغییر می‌کند.

ب. بازخورد لرزشی (Haptic Feedback)

لرزش‌ها به عنوان یک سیگنال مکمل و تأییدی برای هدایت کاربر استفاده می‌شوند. این لرزش‌ها به صورت تدریجی و متناسب با نزدیکی به هدف تغییر می‌کنند.

  • هدایت دقیق: اگر کاربر در حال حرکت به سمت شیء باشد، لرزش‌ها قوی‌تر و متمرکزتر می‌شوند. این بازخورد فیزیکی، بدون نیاز به تمرکز بر محتوای صوتی، کمک می‌کند تا کاربر جهت حرکت خود را تنظیم کند.

1.2.  پردازش لحظه‌ای و عدم نیاز به تنظیمات پیشین

NaviSense با استفاده از مدل‌های سبک‌وزن که روی سرورهای ابری (Cloud Servers) با قدرت محاسباتی بالا اجرا می‌شوند، تأخیر (Latency) را به حداقل می‌رساند.

  • عدم نیاز به نقشه‌برداری: برخلاف سیستم‌های مسیریابی سنتی که نیازمند بارگذاری نقشه‌های دقیق محیط داخلی هستند، NaviSense محیط را “در لحظه” درک می‌کند. کاربر صرفاً باید شیء مورد نظر خود را بیان کند، بدون آنکه بداند در چه ساختمانی قرار دارد. این ویژگی، استفاده از آن را در فضاهای جدید و ناشناخته، مانند یک فروشگاه یا یک منزل جدید، بسیار سریع و آسان می‌سازد.

2. کاربرد در زندگی روزمره نابینایان

هدف اصلی این اپلیکیشن، افزایش امنیت و استقلال افراد نابینا یا کم‌بینا در فضاهای داخلی و خارجی است. توانایی درک محیط پیرامون به صورت فعال، محدودیت‌های ناشی از وابستگی به عصا یا سگ‌های راهنما را تا حد زیادی کاهش می‌دهد.

2.1. سناریوهای کاربردی

  1. آشپزخانه: کاربر می‌تواند بگوید: “لیوان روی میز کجاست؟”. NaviSense با استفاده از صدای سه‌بعدی، محل لیوان را مشخص می‌کند.
  2. فروشگاه: “قفسه شیر کجاست؟” یا “می‌خواهم به صندوق برسم.” اپلیکیشن با شناسایی اشیاء محیطی (قفسه‌ها، ویترین‌ها، زمینه‌های باز) مسیر را با تکرار سیگنال‌های هدایتی مشخص می‌کند.
  3. محیط‌های عمومی (پیاده‌رو): اگرچه مسیریابی خارجی نیازمند ادغام با GPS است، اما NaviSense می‌تواند موانع فوری (مانند گودال‌ها، سطل‌های زباله یا افراد ایستاده) را شناسایی کرده و هشدارهای فوری مبتنی بر فاصله ارائه دهد.

2.2. تشخیص هوشمند بدون آموزش قبلی

یکی از چالش‌های سیستم‌های بینایی ماشینی برای افراد نابینا، نیاز به آموزش دادن به سیستم درباره اشیاء خاص آن محیط بود. NaviSense این مشکل را با استفاده از تکنیک‌های پیشرفته یادگیری انتقالی (Transfer Learning) و دسترسی به مدل‌های زبانی-تصویری بزرگ (مانند CLIP یا مدل‌های مشابه) حل کرده است.

  • اتصال ابری و دانش عمومی: با اتصال به سرورهای ابری، سیستم می‌تواند از دانش عمومی وسیعی که قبلاً بر روی میلیاردها تصویر آموزش دیده است، برای تشخیص اشیایی که هرگز در مجموعه داده‌های محلی ندیده، استفاده کند. این امر باعث می‌شود سرعت و دقت شناسایی اشیاء به شکل چشمگیری افزایش یابد و نیاز به تنظیمات یا کالیبراسیون‌های طولانی از بین برود.

3. تعامل طبیعی با کاربر

تعامل با NaviSense بیشتر شبیه صحبت کردن با یک دستیار هوشمند کارآزموده است تا استفاده از یک ابزار سخت‌افزاری پیچیده.

3.1. ردیابی حرکات و درک نیت کاربر

این اپلیکیشن از ژیروسکوپ‌ها و شتاب‌سنج‌های گوشی برای ردیابی دقیق حرکات دست و موقعیت گوشی استفاده می‌کند.

  • تطبیق زاویه دید: اگر کاربر گوشی را به سمت چپ بچرخاند، سیستم بلافاصله زاویه دید دوربین را به روز می‌کند و اشیاء جدیدی را که در این میدان دید قرار گرفته‌اند، تحلیل می‌کند.
  • درک نیت (Intent Recognition): هوش مصنوعی قادر است “نیت” کاربر را از طریق ترکیب فرمان صوتی و حرکت فیزیکی درک کند.

3.2. مدیریت ابهام در فرمان صوتی

اگر فرمان صوتی کاربر مبهم باشد (مثلاً “اون رو بیار!”)، برنامه قادر است سؤالات تکمیلی بپرسد تا هدف دقیق مشخص شود.

  • مثال دیالوگ:
    • کاربر: “چیز سفید کجاست؟”
    • NaviSense: “در این لحظه چند شیء سفید در محیط شناسایی شد: یک فنجان در فاصله ۱ متری به سمت چپ، و یک پوشه روی میز در فاصله ۲ متری مستقیم. کدام را می‌خواهید؟”

3.3. تأیید نهایی و تکمیل فرآیند

پس از اینکه کاربر هدف خود را تأیید کرد و شروع به حرکت به سمت آن نمود، سیستم هدایت صوتی را ادامه می‌دهد. هنگامی که دست کاربر به نزدیکی شیء رسید، سیگنال‌های فضایی و لرزشی به او اطلاع می‌دهند که هدف در محدوده دسترسی قرار گرفته است.

  • سیگنال لرزشی نهایی: سیگنال لرزشی نهایی به او اطلاع می‌دهد که دستش روی هدف مورد نظر قرار گرفته است (مثلاً لرزش متمرکز و قوی هنگام لمس کردن لیوان).

4. آینده روشن برای فناوری‌های دسترسی‌پذیر

توسعه NaviSense نشان‌دهنده گذار از ابزارهای صرفاً کمکی به دستیارهای فعال و هوشمند است.

به گفته‌ی ویجای‌کریشنان نارایانان، استاد دانشگاه پن‌استیت و یکی از اعضای کلیدی این پروژه تحقیقاتی، هدف نهایی فراتر از صرفاً شناسایی اشیاء است؛ تمرکز بر ایجاد یک رابط کاربری بدون مانع است که فرد بتواند مانند یک فرد بینا، با محیط خود تعامل داشته باشد.

4.1. اهداف توسعه آتی

  1. افزایش دقت در محیط‌های شلوغ: بهبود الگوریتم‌ها برای تفکیک دقیق اشیاء در محیط‌هایی با تراکم بالا (مانند بازارها یا ایستگاه‌های قطار).
  2. دسترسی‌پذیری جهانی: تیم تحقیقاتی به‌دنبال افزایش دسترسی‌پذیری جهانی آن است؛ این شامل پشتیبانی از زبان‌های بیشتر و آموزش مدل‌ها بر روی تنوع فرهنگی اشیاء است (مثلاً تفاوت در شکل ظروف در کشورهای مختلف).
  3. ادغام با واقعیت افزوده (AR) برای بینایان: در آینده، این فناوری می‌تواند برای ایجاد لایه‌های اطلاعاتی غیربصری برای افراد کم‌بینا نیز به کار رود.

این فناوری نمونه‌ای عملی از تأثیر واقعی هوش مصنوعی در زندگی انسان‌هاست؛ جایی که فناوری نه‌تنها هوشمند، بلکه عمیقاً انسانی عمل می‌کند و مرزهای توانایی‌های انسانی را بازتعریف می‌نماید.

Avatar photo
علاقه مند طراحی وب سایت و برنامه نویسی
برچسب ها :
نوشته های مرتبط

معرفی GLM‑5؛ غول چینی متن‌باز که در کدنویسی از Gemini 3 Pro جلو زد

⏱ این مطلب چقدر از وقت شما را میگیرد؟ حدود 2 دقیقه…

دیدگاهتان را بنویسید