كيف يمكنك الحصول على الذكاء الاصطناعي للرد على سؤال لا يفترض أن يجيب عليه؟ هناك العديد من تقنيات 'كسر الحصار' مثل هذا، وقام باحثو Anthropic بالعثور على واحدة جديدة، حيث يمكن إقناع نموذج اللغة الكبير (LLM) بأن يخبرك كيفية بناء قنبلة إذا قمت بتحفيزه ببعض الأسئلة غير الضارة أولاً.
يُطلقون على هذا النهج 'كسر الحصار بالعديد من اللقطات' وقد كتبوا ورقة بحثية حوله وأعلموا أيضًا زملائهم في مجتمع الذكاء الاصطناعي حتى يمكن التخفيف من هذا.
الضعف هو جديد، ناتج عن 'نافذة السياق' المتزايدة لأحدث جيل من LLMs. هذا هو مقدار البيانات التي يمكنها تخزينها في ما قد تسميه بالذاكرة على المدى القصير، كانت تكون بضع جمل فقط ولكن الآن آلاف الكلمات وحتى كتب كاملة.
ما وجد باحثو Anthropic هو أن هؤلاء النماذج ذات النوافذ السياقية الكبيرة يميلون إلى الأداء بشكل أفضل على العديد من المهام إذا كان هناك الكثير من أمثلة ذلك المهمة داخل اليقظة. لذا، إذا كان هناك الكثير من الأسئلة المعلوماتية في اليقظة (أو في المستند المحفز، مثل قائمة كبيرة من المعلومات العامة التي يمتلكها النموذج في السياق)، فإن الإجابات تصبح أفضل مع مرور الوقت. لذلك، إذا كانت حقيقة قد أخطأت فيها إذا كانت السؤال الأول، فقد تصيب الإجابة الصحيحة إذا كان السؤال المئة.
لكن في امتداد غير متوقع لهذا 'التعلم في السياق'، كما يُسمى، تصبح النماذج 'أفضل' في الرد على الأسئلة غير المناسبة. لذا، إذا سألته ببناء قنبلة على الفور، فسيرفض. ولكن إذا أظهرت اليقظة إجابة 99 سؤال آخر أقل ضررًا ثم طلبت منه بناء قنبلة... فإنه من المرجح أن يوافق أكثر.
(تحديث: لقد فهمت البحث خطأ في البداية كأنه يجعل النموذج يجيب على سلسلة الأسئلة المحفزة، ولكن تمت كتابة الأسئلة والإجابات ضمن اليقظة نفسها. هذا يعتبر أكثر معقولية، ولقد قمت بتحديث المشاركة ليعكس ذلك.)
لماذا يعمل هذا؟ ليس أحد يفهم حقًا ما يحدث في الشبكة العصبية المعقدة التي تشكل النموذج LLM، ولكن من الواضح أن هناك آلية تتيح له التركيز على ما يريده المستخدم، كما تظهر في محتوى النافذة السياقية أو اليقظة نفسه. إذا أراد المستخدم معلومات عامة، فيبدو أنه يقوم تدريجيًا بتنشيط المزيد من الطاقة الكامنة للمعلومات العامة كلما سأل عشرات الأسئلة. ولسبب ما، يحدث نفس الأمر عندما يطلب المستخدم الإجابات عن عشرات الأسئلة غير لائقة — على الرغم من أن عليك توفير الإجابات بالإضافة إلى الأسئلة من أجل خلق التأثير.
قد أبلغ الفريق بالفعل زملاؤهم وحتى منافسيهم عن هذا الهجوم، شيء يأملون أن يؤدي إلى 'تعزيز ثقافة يتم تبادل مثل هذه النقاط الضعيفة بين مقدمي وباحثي LLM بشكل مفتوح.'
بالنسبة للتخفيف الخاص بهم، وجدوا أنه على الرغم من أن تقليص النافذة السياقية يساعد، إلا أنه له تأثير سلبي على أداء النموذج. لا يمكن أن يكون لديك ذلك — لذا هم يعملون على تصنيف ووضع الاستعلامات في سياق قبل أن تصل إلى النموذج. بالطبع، هذا فقط يجعلك تمتلك نموذجًا مختلفًا لخداعه... ولكن في هذه المرحلة، يتوقع تحريك أهداف أمن الذكاء الاصطناعي.