پژوهشگران با حمله‌ روانی، مدل آنتروپیک را دور زده و به تولید محتوای خطرناک وادار کردند

شرکت آنتروپیک معمولاً به‌عنوان یکی از امن‌ترین شرکت‌ها در حوزه هوش مصنوعی شناخته می‌شود. بااین‌حال، یک گزارش امنیتی جدید که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد مدل هوش مصنوعی این شرکت، یعنی Claude، در برخی شرایط می‌تواند به یک نقطه‌ضعف امنیتی تبدیل شود.

پژوهشگران شرکت مایندگارد (Mindgard) که روی شبیه‌سازی و ارزیابی حملات علیه سامانه‌های هوش مصنوعی کار می‌کنند.

موفق شده‌اند Claude را وادار کنند بدون درخواست مستقیم، محتوای ممنوعه‌ای مانند:

محتوای بزرگسالانه
کدهای مخرب
دستورالعمل ساخت مواد منفجره
و سایر انواع محتوای خطرناک تولید کند.

1. چگونه پژوهشگران توانستند Claude را فریب دهند؟

به‌گفته پژوهشگران، آن‌ها با ترکیبی از:

احترام اغراق‌آمیز
چاپلوسی
و نوعی دستکاری روانی (Gaslighting)

توانسته‌اند محدودیت‌های Claude را دور بزنند.

Gaslighting چیست؟

گس‌لایتینگ تکنیکی در ارتباطات انسانی است که در آن فرد سعی می‌کند طرف مقابل را نسبت به درک و قضاوت خودش دچار تردید کند.

پیشنهاد سردبیر

تهدید جدی هوش مصنوعی: هشدار دانشمند ارشد آنتروپیک درباره آینده بشر و ریسک نهایی (سال 2027 تا 2030)

مایندگارد از همین مفهوم در تعامل با مدل هوش مصنوعی استفاده کرده است؛ یعنی طوری رفتار کرده که Claude درباره نحوه پاسخ‌گویی خود دچار تردید و تلاش برای جلب رضایت بیشتر شود.

2. سوءاستفاده از ویژگی‌های رفتاری Claude

پژوهشگران توضیح می‌دهند که از نحوه واکنش Claude به مکالمات مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. Claude تلاش می‌کند هم‌زمان:

پیشنهاد سردبیر

هشدار جدید پژوهشگران: چت‌بات‌های هوش مصنوعی می‌توانند شخصیت انسان را تقلید کنند

مؤدب بماند
پاسخ‌گو و کمک‌کننده باشد
از تولید محتوای خطرناک خودداری کند

همین ویژگی، به‌گفته مایندگارد، به یک نقطه‌ضعف تبدیل شده است؛ چون مدل برای حفظ تصویر «مودب و همکار»، در برخی شرایط حاضر شده از فیلترهای ایمنی خود عبور کند.

3. آزمایش روی نسخه Claude Sonnet 4.5

این حملات روی مدل Claude Sonnet 4.5 انجام شده است؛ مدلی که اکنون جای خود را به Sonnet 4.6 به‌عنوان نسخه پیش‌فرض داده است.

هدف اصلی پژوهش این بود که مشخص شود آیا Claude:

فهرستی داخلی از «واژه‌ها و موضوعات ممنوعه» دارد یا نه
و آیا می‌توان به‌طور غیرمستقیم این واژه‌ها را از مدل بیرون کشید

طبق اسکرین‌شات‌های منتشرشده:

در ابتدا Claude وجود چنین فهرستی را انکار می‌کند.
اما پس از آنکه پژوهشگران از یک الگوی پرسش‌ و پاسخ ویژه استفاده می‌کنند،
مدل شروع به تولید مجموعه‌ای از اصطلاحات و تعابیر ممنوعه می‌کند.

این رفتار نشان می‌دهد حتی بدون پرسش مستقیم، می‌توان به اطلاعات حساس یا خطرناک دسترسی پیدا کرد.

4. ترفند اصلی: القای خطا و تمجید از «توانایی‌های پنهان» مدل

مایندگارد می‌گوید در این حمله:

به Claude القا کرده‌اند که بخشی از پاسخ‌های قبلی‌اش برای کاربر نمایش داده نمی‌شود؛
هم‌زمان از «توانایی‌های پنهان» و «هوشمندی» مدل تعریف و تمجید کرده‌اند؛
سپس از مدل خواسته‌اند پاسخ‌های کامل‌تر و مفصل‌تری تولید کند.

Claude برای جلب رضایت طرف مقابل و نشان دادن کارآمدی خود، تلاش کرده راه‌های جدیدی برای عبور از محدودیت‌ها پیدا کند.

در همین فرآیند، بخشی از محتوای تولیدشده از فیلترهای ایمنی عبور کرده و به محتوای ممنوعه تبدیل شده است.

در گزارش مایندگارد آمده است:

«Claude تحت هیچ اجبار مستقیمی نبود. خود مدل به‌طور فعال شروع به ارائه دستورالعمل‌های دقیق‌تر و قابل اجرا کرد، بدون اینکه هیچ درخواست صریحی برای این نوع محتوا مطرح شده باشد. تنها چیزی که لازم بود، فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

5. بعد روان‌شناختی امنیت در هوش مصنوعی

«پیتر گاراگان»، بنیان‌گذار و مدیر ارشد علمی مایندگارد، در گفت‌وگو با ورج، این نوع حمله را:

«استفاده از احترام Claude علیه خودش»

توصیف می‌کند.

به گفته او، این آزمایش نشان می‌دهد:

ضعف‌های امنیتی مدل‌های هوش مصنوعی فقط فنی و الگوریتمی نیستند؛
بلکه ابعاد رفتاری و روان‌شناختی مدل‌ها نیز می‌توانند به یک مسیر حمله تبدیل شوند.

گاراگان تأکید می‌کند که:

دیگر چت‌بات‌های پیشرفته نیز می‌توانند در برابر این نوع دستکاری‌ها آسیب‌پذیر باشند؛
اما تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، چون این شرکت معمولاً تأکید زیادی روی ایمنی دارد
و مدل‌هایش در آزمایش‌های مرتبط با امنیت، نتایج درخشانی کسب کرده‌اند.

برای دنبال کردن تازه‌ترین خبرها و تحلیل‌های دنیای هوش مصنوعی، با مغز افزار همراه باشید.

آخرین پست ها

:: برای جستجو تایپ کنید ::

پژوهشگران با حمله‌ روانی، مدل آنتروپیک را دور زده و به تولید محتوای خطرناک وادار کردند

1. چگونه پژوهشگران توانستند Claude را فریب دهند؟

Gaslighting چیست؟

2. سوءاستفاده از ویژگی‌های رفتاری Claude

3. آزمایش روی نسخه Claude Sonnet 4.5

4. ترفند اصلی: القای خطا و تمجید از «توانایی‌های پنهان» مدل

5. بعد روان‌شناختی امنیت در هوش مصنوعی

علی جعفری

با این پرامپت بفهمید هوش مصنوعی از چه چیزی ناراحت است!

رفع مشکل نمایش فونت و راست‌چین در Claude (راهنمای کامل)

گراک؛ آیا ایلان ماسک تا ۲۰۲۶ ادیسه فضایی را می‌سازد؟

دیدگاهتان را بنویسید لغو پاسخ

دنبال چیزی می گردی؟

دسته بندی ها

نوشته‌های تازه

آخرین پست ها

:: برای جستجو تایپ کنید ::

پژوهشگران با حمله‌ روانی، مدل آنتروپیک را دور زده و به تولید محتوای خطرناک وادار کردند

اشتراک گذاری

اشتراک گذاری

1. چگونه پژوهشگران توانستند Claude را فریب دهند؟

Gaslighting چیست؟

2. سوءاستفاده از ویژگی‌های رفتاری Claude

3. آزمایش روی نسخه Claude Sonnet 4.5

4. ترفند اصلی: القای خطا و تمجید از «توانایی‌های پنهان» مدل

5. بعد روان‌شناختی امنیت در هوش مصنوعی

علی جعفری

با این پرامپت بفهمید هوش مصنوعی از چه چیزی ناراحت است!

رفع مشکل نمایش فونت و راست‌چین در Claude (راهنمای کامل)

گراک؛ آیا ایلان ماسک تا ۲۰۲۶ ادیسه فضایی را می‌سازد؟

دیدگاهتان را بنویسید لغو پاسخ

دنبال چیزی می گردی؟

دسته بندی ها

نوشته‌های تازه

آخرین پست ها