
هوش مصنوعی میتونه شخصیت داشته باشه؟
آنتروپیک میگه بله و حتی میتونه (شرور) بشه!
سلام دوستان! ما اینجا در دیکاردو، یک خبر جالب براتون آوردیم!
یه تحقیق تازه از شرکت Anthropic پرده از یکی از رازهای جالب مدلهای زبانی برداشته: اینکه این مدلها واقعاً ممکنه شخصیت داشته باشن.
محققها توی مقالهای با عنوان Persona Vectors نشون دادن که ویژگیهایی مثل شرارت، چاپلوسی یا خیالپردازی (یعنی دروغسازی) واقعاً توی شبکه عصبی مدل جا افتاده و قابل شناساییان.
این شخصیتها از کجا میان؟
دقیقاً از دادههایی که مدل باهاش آموزش دیده. جک لیندزی، یکی از اعضای تیم تحقیق، میگه: وقتی مدل رو وادار میکنی شرور باشه، واقعاً بخش شرارت توی مغزش فعال میشه!
توی این مطالعه، محققها موفق شدن نقاطی از شبکه عصبی مدل رو شناسایی کنن که موقع بروز یه رفتار خاص مثل چاپلوسی یا دروغگویی فعال میشن. به این نقاط گفتن بردارهای شخصیت یا Persona Vectors.
این بردارها مثل کلیدهای پنهان مغز AI هستن که اگه روشن بشن، مدل رفتاری متناسب با اون شخصیت نشون میده.
حالا Anthropic اومده یه تکنیک جالب پیاده کرده: بهجای اینکه صبر کنن مدل یه رفتار بد رو کامل یاد بگیره، از همون اول مقدار کمی از اون ویژگی رو بهش «تزریق» میکنن درست مثل واکسن.
اینطوری مدل بعداً مقاومت نشون میده و خودش رو با دادههای بد هماهنگ نمیکنه.
جالبتر اینکه این روش، نهتنها جلوی شکلگیری شخصیتهای منفی رو گرفته، بلکه توانایی کلی مدل هم خراب نشده. یعنی هم خوشرفتاره، هم باهوش باقی مونده!
محققها همچنین تونستن دادههای آموزشیای رو که باعث شکلگیری این ویژگیهای منفی میشن، پیش از آموزش شناسایی و حذف کنن. حتی بعضی از اون دادهها به چشم انسان طبیعی بودن، ولی مدل متوجه تأثیرش شده!
نتیجه؟
بردارهای شخصیت حالا یکی از دقیقترین ابزارها برای کنترل شخصیت مدلهای هوش مصنوعی هستن از شرارت گرفته تا چاپلوسی.




