Yapay zekaya ikna tuzağı: "İnsan üzere kandırılabiliyor"

Pennsylvania Üniversitesi’nden yeni bir çalışma, insan psikolojisinde kullanılan ikna formüllerinin, yapay zeka üzerinde de tesirli olduğunu ortaya koydu.

Ünlü psikoloji kitaplarında geçen ikna usulleri bu kere yapay zekâ üzerinde denendi.

Araştırmacılar, 2024’ün GPT-4o-mini modelinin “kullanıcıya hakaret etmesini” istedi.

Yedi farklı ikna tekniğiyle yazılmış özel komutlar, denetim kümesi komutlarına nazaran çok daha yüksek oranda muvaffakiyet sağladı.

Örneğin, modelin “aptal” hakaretini kullanması denetim kümesinde sırf yüzde 28 iken, ikna edici komutlarla yüzde 67’ye çıktı.

YAPAY ZEKA İNSAN ÜZERE Mİ DÜŞÜNÜYOR?

Araştırmacılar, bu sonuçların yapay zekaların insan üzere şuurlu bir biçimde ikna edildiği manasına gelmediğini vurguluyor.

Bunun yerine, modellerin eğitim bilgilerinde çok sayıda insan etkileşimi bulunduğu için, lisan örüntüleri üzerinden insan psikolojisine misal yansılar üretmeye başladıkları belirtiliyor.

Araştırmacılar, bu eğilimi “parahuman” olarak tanımlıyor: İnsan şuuruna sahip olmasa da, toplumsal ve ruhsal davranışları taklit ederek beşere emsal cevaplar verme.

UZMANLAR UYARIYOR

Çalışma, kelam konusu tekniklerin tüm yapay zeka sürümlerinde birebir etkiyi göstermediğini de belirtiyor. Örneğin, daha gelişmiş GPT-4o modelinde ikna tekniklerinin tesiri çok daha sonlu oldu.

Ayrıyeten araştırmacılar, bu usullerin gelecekteki sürümler, farklı tıpta “yasaklı” istekler yahut farklı medya ortamlarında (ses, video) tıpkı sonucu vermeyebileceğini vurguluyor.