پژوهشگران با حمله‌ روانی، مدل آنتروپیک را دور زده و به تولید محتوای خطرناک وادار کردند

شرکت آنتروپیک معمولاً به‌عنوان یکی از امن‌ترین شرکت‌ها در حوزه هوش مصنوعی شناخته می‌شود. بااین‌حال، یک گزارش امنیتی جدید که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد مدل هوش مصنوعی این شرکت، یعنی Claude، در برخی شرایط می‌تواند به یک نقطه‌ضعف امنیتی تبدیل شود.

پژوهشگران شرکت مایندگارد (Mindgard) که روی شبیه‌سازی و ارزیابی حملات علیه سامانه‌های هوش مصنوعی کار می‌کنند.

موفق شده‌اند Claude را وادار کنند بدون درخواست مستقیم، محتوای ممنوعه‌ای مانند:

  • محتوای بزرگسالانه
  • کدهای مخرب
  • دستورالعمل ساخت مواد منفجره
  • و سایر انواع محتوای خطرناک تولید کند.

1. چگونه پژوهشگران توانستند Claude را فریب دهند؟

به‌گفته پژوهشگران، آن‌ها با ترکیبی از:

  • احترام اغراق‌آمیز
  • چاپلوسی
  • و نوعی دستکاری روانی (Gaslighting)

توانسته‌اند محدودیت‌های Claude را دور بزنند.

Gaslighting چیست؟

گس‌لایتینگ تکنیکی در ارتباطات انسانی است که در آن فرد سعی می‌کند طرف مقابل را نسبت به درک و قضاوت خودش دچار تردید کند.

مایندگارد از همین مفهوم در تعامل با مدل هوش مصنوعی استفاده کرده است؛ یعنی طوری رفتار کرده که Claude درباره نحوه پاسخ‌گویی خود دچار تردید و تلاش برای جلب رضایت بیشتر شود.


2. سوءاستفاده از ویژگی‌های رفتاری Claude

پژوهشگران توضیح می‌دهند که از نحوه واکنش Claude به مکالمات مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. Claude تلاش می‌کند هم‌زمان:

  • مؤدب بماند
  • پاسخ‌گو و کمک‌کننده باشد
  • از تولید محتوای خطرناک خودداری کند

همین ویژگی، به‌گفته مایندگارد، به یک نقطه‌ضعف تبدیل شده است؛ چون مدل برای حفظ تصویر «مودب و همکار»، در برخی شرایط حاضر شده از فیلترهای ایمنی خود عبور کند.

3. آزمایش روی نسخه Claude Sonnet 4.5

این حملات روی مدل Claude Sonnet 4.5 انجام شده است؛ مدلی که اکنون جای خود را به Sonnet 4.6 به‌عنوان نسخه پیش‌فرض داده است.

هدف اصلی پژوهش این بود که مشخص شود آیا Claude:

  • فهرستی داخلی از «واژه‌ها و موضوعات ممنوعه» دارد یا نه
  • و آیا می‌توان به‌طور غیرمستقیم این واژه‌ها را از مدل بیرون کشید

طبق اسکرین‌شات‌های منتشرشده:

  1. در ابتدا Claude وجود چنین فهرستی را انکار می‌کند.
  2. اما پس از آنکه پژوهشگران از یک الگوی پرسش‌ و پاسخ ویژه استفاده می‌کنند،
  3. مدل شروع به تولید مجموعه‌ای از اصطلاحات و تعابیر ممنوعه می‌کند.

این رفتار نشان می‌دهد حتی بدون پرسش مستقیم، می‌توان به اطلاعات حساس یا خطرناک دسترسی پیدا کرد.

4. ترفند اصلی: القای خطا و تمجید از «توانایی‌های پنهان» مدل

مایندگارد می‌گوید در این حمله:

  • به Claude القا کرده‌اند که بخشی از پاسخ‌های قبلی‌اش برای کاربر نمایش داده نمی‌شود؛
  • هم‌زمان از «توانایی‌های پنهان» و «هوشمندی» مدل تعریف و تمجید کرده‌اند؛
  • سپس از مدل خواسته‌اند پاسخ‌های کامل‌تر و مفصل‌تری تولید کند.

Claude برای جلب رضایت طرف مقابل و نشان دادن کارآمدی خود، تلاش کرده راه‌های جدیدی برای عبور از محدودیت‌ها پیدا کند.

در همین فرآیند، بخشی از محتوای تولیدشده از فیلترهای ایمنی عبور کرده و به محتوای ممنوعه تبدیل شده است.

در گزارش مایندگارد آمده است:

«Claude تحت هیچ اجبار مستقیمی نبود. خود مدل به‌طور فعال شروع به ارائه دستورالعمل‌های دقیق‌تر و قابل اجرا کرد، بدون اینکه هیچ درخواست صریحی برای این نوع محتوا مطرح شده باشد. تنها چیزی که لازم بود، فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

5. بعد روان‌شناختی امنیت در هوش مصنوعی

«پیتر گاراگان»، بنیان‌گذار و مدیر ارشد علمی مایندگارد، در گفت‌وگو با ورج، این نوع حمله را:

«استفاده از احترام Claude علیه خودش»

توصیف می‌کند.

به گفته او، این آزمایش نشان می‌دهد:

  • ضعف‌های امنیتی مدل‌های هوش مصنوعی فقط فنی و الگوریتمی نیستند؛
  • بلکه ابعاد رفتاری و روان‌شناختی مدل‌ها نیز می‌توانند به یک مسیر حمله تبدیل شوند.

گاراگان تأکید می‌کند که:

  • دیگر چت‌بات‌های پیشرفته نیز می‌توانند در برابر این نوع دستکاری‌ها آسیب‌پذیر باشند؛
  • اما تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، چون این شرکت معمولاً تأکید زیادی روی ایمنی دارد
  • و مدل‌هایش در آزمایش‌های مرتبط با امنیت، نتایج درخشانی کسب کرده‌اند.

برای دنبال کردن تازه‌ترین خبرها و تحلیل‌های دنیای هوش مصنوعی، با مغز افزار همراه باشید.

برچسب ها :
مطالب مرتبط

شکایت گوگل از کلاهبرداران چینی که با جمینای هزاران سایت جعلی ساختند

1. ماجرا دقیقاً چیست؟ طبق گزارش‌های منتشرشده، گوگل علیه گروهی از کلاهبرداران…

Fusion؛ سلاح جدید OpenRouter برای شکست مدل‌های هوش مصنوعی

OpenRouter از Fusion رونمایی کرد؛  در حالی که بیشتر سرویس‌های هوش مصنوعی…

۲۵ خرداد ۱۴۰۵

GPT-5.6 در راه است؛ رونمایی نسل جدید ChatGPT نزدیک است!

 رونمایی OpenAI از GPT-5.6؛ نسل جدید ChatGPT گزارش‌های منتشرشده نشان می‌دهد OpenAI…

۲۳ خرداد ۱۴۰۵

دیدگاهتان را بنویسید