هوش مصنوعی می‌تونه شخصیت داشته باشه؟

آنتروپیک می‌گه بله و حتی می‌تونه (شرور) بشه!

0 146 خواندن این مطلب 1 دقیقه زمان میبرد

سلام دوستان! ما اینجا در دیکاردو، یک خبر جالب براتون آوردیم!

یه تحقیق تازه از شرکت Anthropic پرده از یکی از رازهای جالب مدل‌های زبانی برداشته: اینکه این مدل‌ها واقعاً ممکنه شخصیت داشته باشن.
محقق‌ها توی مقاله‌ای با عنوان Persona Vectors نشون دادن که ویژگی‌هایی مثل شرارت، چاپلوسی یا خیال‌پردازی (یعنی دروغ‌سازی) واقعاً توی شبکه عصبی مدل جا افتاده و قابل شناسایی‌ان.

این شخصیت‌ها از کجا میان؟

دقیقاً از داده‌هایی که مدل باهاش آموزش دیده. جک لیندزی، یکی از اعضای تیم تحقیق، می‌گه: وقتی مدل رو وادار می‌کنی شرور باشه، واقعاً بخش شرارت توی مغزش فعال می‌شه!

توی این مطالعه، محقق‌ها موفق شدن نقاطی از شبکه عصبی مدل رو شناسایی کنن که موقع بروز یه رفتار خاص مثل چاپلوسی یا دروغ‌گویی فعال می‌شن. به این نقاط گفتن بردارهای شخصیت یا Persona Vectors.

این بردارها مثل کلیدهای پنهان مغز AI هستن که اگه روشن بشن، مدل رفتاری متناسب با اون شخصیت نشون می‌ده.

حالا Anthropic اومده یه تکنیک جالب پیاده کرده: به‌جای اینکه صبر کنن مدل یه رفتار بد رو کامل یاد بگیره، از همون اول مقدار کمی از اون ویژگی رو بهش «تزریق» می‌کنن درست مثل واکسن.

این‌طوری مدل بعداً مقاومت نشون می‌ده و خودش رو با داده‌های بد هماهنگ نمی‌کنه.

جالب‌تر اینکه این روش، نه‌تنها جلوی شکل‌گیری شخصیت‌های منفی رو گرفته، بلکه توانایی کلی مدل هم خراب نشده. یعنی هم خوش‌رفتاره، هم باهوش باقی مونده!

محقق‌ها همچنین تونستن داده‌های آموزشی‌ای رو که باعث شکل‌گیری این ویژگی‌های منفی می‌شن، پیش از آموزش شناسایی و حذف کنن. حتی بعضی از اون داده‌ها به چشم انسان طبیعی بودن، ولی مدل متوجه تأثیرش شده!