⏱ این مطلب چقدر از وقت شما را میگیرد؟
حدود 6 دقیقه
در دنیایی که هوش مصنوعی هر روز زندگی انسانها را سادهتر میکند، فناوری جدیدی در حال تغییر نحوه تعامل افراد نابینا با محیط اطرافشان است. پژوهشگران دانشگاه پناستیت اپلیکیشنی با نام NaviSense را توسعه دادهاند که با بهرهگیری از توان هوش مصنوعی میتواند اشیاء اطراف را شناسایی کرده و موقعیت دقیق آنها را تنها با دستور صوتی کاربر اعلام کند. این پیشرفت نه تنها یک ابزار کمکی، بلکه گامی بزرگ در جهت استقلال کامل افراد دارای محدودیت بینایی در محیطهای پیچیده روزمره است.
1. نحوه عملکرد اپلیکیشن NaviSense
NaviSense یک سیستم پیچیده مبتنی بر یادگیری عمیق و پردازش بلادرنگ (Real-Time Processing) است که از سختافزار استاندارد گوشیهای هوشمند بهره میبرد. هسته اصلی این سیستم بر تحلیل مداوم تصویر دریافتی از دوربین دستگاه استوار است.
۱. تحلیل تصویر و شناسایی اشیاء در لحظه
اپلیکیشن NaviSense از شبکههای عصبی پیچیده کانولوشنی (CNNs) مانند مدلهای مبتنی بر YOLO (You Only Look Once) یا مشابه آن بهره میبرد که برای شناسایی سریع و دقیق اشیاء بهینهسازی شدهاند.
فرایند شناسایی:
- دریافت فریم: دوربین گوشی به طور مداوم فریمهای ویدئویی را با نرخ بالا (مثلاً ۳۰ فریم در ثانیه) دریافت میکند.
- پیشپردازش: تصاویر برای حذف نویز و بهبود کنتراست آمادهسازی میشوند.
- استنتاج (Inference): مدل هوش مصنوعی آموزشدیده روی این فریمها اجرا میشود تا اشیاء مورد نظر (مانند در، صندلی، پله، یا حتی یک لیوان روی میز) شناسایی شوند.
- تعیین مختصات: پس از شناسایی، مدل موقعیت سهبعدی (عمق و زاویه) شیء نسبت به کاربر را با استفاده از دادههای عمق (در صورت وجود سنسور LiDAR یا استفاده از روشهای استریو ویژن) محاسبه میکند.
1.1. هدایت فضایی از طریق صدا و حس
یکی از نوآورانهترین بخشهای NaviSense، نحوه انتقال اطلاعات محیطی به کاربر است. این کار از طریق دو مکانیسم اصلی انجام میشود:
الف. صدای فضایی سهبعدی (Spatial Audio)
این فناوری کاربر را قادر میسازد تا منبع صدا را در فضای سهبعدی (بالا، پایین، چپ، راست و فاصله) تعیین کند. اپلیکیشن از طریق هدفونهای متصل، صداهایی را تولید میکند که محل قرارگیری شیء مورد نظر را شبیهسازی میکنند.
- مثال: اگر کاربر بپرسد “صندلی کجاست؟” و صندلی در سمت راست و کمی جلوتر باشد، صدای شبیهسازی شده از آن جهت شنیده میشود. هر چه شیء نزدیکتر باشد، شدت صدا یا وضوح آن تغییر میکند.
ب. بازخورد لرزشی (Haptic Feedback)
لرزشها به عنوان یک سیگنال مکمل و تأییدی برای هدایت کاربر استفاده میشوند. این لرزشها به صورت تدریجی و متناسب با نزدیکی به هدف تغییر میکنند.
- هدایت دقیق: اگر کاربر در حال حرکت به سمت شیء باشد، لرزشها قویتر و متمرکزتر میشوند. این بازخورد فیزیکی، بدون نیاز به تمرکز بر محتوای صوتی، کمک میکند تا کاربر جهت حرکت خود را تنظیم کند.
1.2. پردازش لحظهای و عدم نیاز به تنظیمات پیشین
NaviSense با استفاده از مدلهای سبکوزن که روی سرورهای ابری (Cloud Servers) با قدرت محاسباتی بالا اجرا میشوند، تأخیر (Latency) را به حداقل میرساند.
- عدم نیاز به نقشهبرداری: برخلاف سیستمهای مسیریابی سنتی که نیازمند بارگذاری نقشههای دقیق محیط داخلی هستند، NaviSense محیط را “در لحظه” درک میکند. کاربر صرفاً باید شیء مورد نظر خود را بیان کند، بدون آنکه بداند در چه ساختمانی قرار دارد. این ویژگی، استفاده از آن را در فضاهای جدید و ناشناخته، مانند یک فروشگاه یا یک منزل جدید، بسیار سریع و آسان میسازد.

2. کاربرد در زندگی روزمره نابینایان
هدف اصلی این اپلیکیشن، افزایش امنیت و استقلال افراد نابینا یا کمبینا در فضاهای داخلی و خارجی است. توانایی درک محیط پیرامون به صورت فعال، محدودیتهای ناشی از وابستگی به عصا یا سگهای راهنما را تا حد زیادی کاهش میدهد.
2.1. سناریوهای کاربردی
- آشپزخانه: کاربر میتواند بگوید: “لیوان روی میز کجاست؟”. NaviSense با استفاده از صدای سهبعدی، محل لیوان را مشخص میکند.
- فروشگاه: “قفسه شیر کجاست؟” یا “میخواهم به صندوق برسم.” اپلیکیشن با شناسایی اشیاء محیطی (قفسهها، ویترینها، زمینههای باز) مسیر را با تکرار سیگنالهای هدایتی مشخص میکند.
- محیطهای عمومی (پیادهرو): اگرچه مسیریابی خارجی نیازمند ادغام با GPS است، اما NaviSense میتواند موانع فوری (مانند گودالها، سطلهای زباله یا افراد ایستاده) را شناسایی کرده و هشدارهای فوری مبتنی بر فاصله ارائه دهد.
2.2. تشخیص هوشمند بدون آموزش قبلی
یکی از چالشهای سیستمهای بینایی ماشینی برای افراد نابینا، نیاز به آموزش دادن به سیستم درباره اشیاء خاص آن محیط بود. NaviSense این مشکل را با استفاده از تکنیکهای پیشرفته یادگیری انتقالی (Transfer Learning) و دسترسی به مدلهای زبانی-تصویری بزرگ (مانند CLIP یا مدلهای مشابه) حل کرده است.
- اتصال ابری و دانش عمومی: با اتصال به سرورهای ابری، سیستم میتواند از دانش عمومی وسیعی که قبلاً بر روی میلیاردها تصویر آموزش دیده است، برای تشخیص اشیایی که هرگز در مجموعه دادههای محلی ندیده، استفاده کند. این امر باعث میشود سرعت و دقت شناسایی اشیاء به شکل چشمگیری افزایش یابد و نیاز به تنظیمات یا کالیبراسیونهای طولانی از بین برود.

3. تعامل طبیعی با کاربر
تعامل با NaviSense بیشتر شبیه صحبت کردن با یک دستیار هوشمند کارآزموده است تا استفاده از یک ابزار سختافزاری پیچیده.
3.1. ردیابی حرکات و درک نیت کاربر
این اپلیکیشن از ژیروسکوپها و شتابسنجهای گوشی برای ردیابی دقیق حرکات دست و موقعیت گوشی استفاده میکند.
- تطبیق زاویه دید: اگر کاربر گوشی را به سمت چپ بچرخاند، سیستم بلافاصله زاویه دید دوربین را به روز میکند و اشیاء جدیدی را که در این میدان دید قرار گرفتهاند، تحلیل میکند.
- درک نیت (Intent Recognition): هوش مصنوعی قادر است “نیت” کاربر را از طریق ترکیب فرمان صوتی و حرکت فیزیکی درک کند.
3.2. مدیریت ابهام در فرمان صوتی
اگر فرمان صوتی کاربر مبهم باشد (مثلاً “اون رو بیار!”)، برنامه قادر است سؤالات تکمیلی بپرسد تا هدف دقیق مشخص شود.
- مثال دیالوگ:
- کاربر: “چیز سفید کجاست؟”
- NaviSense: “در این لحظه چند شیء سفید در محیط شناسایی شد: یک فنجان در فاصله ۱ متری به سمت چپ، و یک پوشه روی میز در فاصله ۲ متری مستقیم. کدام را میخواهید؟”
3.3. تأیید نهایی و تکمیل فرآیند
پس از اینکه کاربر هدف خود را تأیید کرد و شروع به حرکت به سمت آن نمود، سیستم هدایت صوتی را ادامه میدهد. هنگامی که دست کاربر به نزدیکی شیء رسید، سیگنالهای فضایی و لرزشی به او اطلاع میدهند که هدف در محدوده دسترسی قرار گرفته است.
- سیگنال لرزشی نهایی: سیگنال لرزشی نهایی به او اطلاع میدهد که دستش روی هدف مورد نظر قرار گرفته است (مثلاً لرزش متمرکز و قوی هنگام لمس کردن لیوان).
4. آینده روشن برای فناوریهای دسترسیپذیر
توسعه NaviSense نشاندهنده گذار از ابزارهای صرفاً کمکی به دستیارهای فعال و هوشمند است.
به گفتهی ویجایکریشنان نارایانان، استاد دانشگاه پناستیت و یکی از اعضای کلیدی این پروژه تحقیقاتی، هدف نهایی فراتر از صرفاً شناسایی اشیاء است؛ تمرکز بر ایجاد یک رابط کاربری بدون مانع است که فرد بتواند مانند یک فرد بینا، با محیط خود تعامل داشته باشد.
4.1. اهداف توسعه آتی
- افزایش دقت در محیطهای شلوغ: بهبود الگوریتمها برای تفکیک دقیق اشیاء در محیطهایی با تراکم بالا (مانند بازارها یا ایستگاههای قطار).
- دسترسیپذیری جهانی: تیم تحقیقاتی بهدنبال افزایش دسترسیپذیری جهانی آن است؛ این شامل پشتیبانی از زبانهای بیشتر و آموزش مدلها بر روی تنوع فرهنگی اشیاء است (مثلاً تفاوت در شکل ظروف در کشورهای مختلف).
- ادغام با واقعیت افزوده (AR) برای بینایان: در آینده، این فناوری میتواند برای ایجاد لایههای اطلاعاتی غیربصری برای افراد کمبینا نیز به کار رود.
این فناوری نمونهای عملی از تأثیر واقعی هوش مصنوعی در زندگی انسانهاست؛ جایی که فناوری نهتنها هوشمند، بلکه عمیقاً انسانی عمل میکند و مرزهای تواناییهای انسانی را بازتعریف مینماید.
