İngiltere Yapay Zeka Güvenlik Enstitüsü’nden bilgisayar bilimciler ile Stanford, Berkeley ve Oxford üniversitelerinin de ortalarında bulunduğu 14 kurumdan 29 araştırmacı, “Önemli Olanı Ölçmek: Büyük Lisan Modeli Kıyaslamalarında Yapı Geçerliği” başlıklı bir çalışma yaptı.
Bilim insanları çalışmada, yapay zekanın alt kollarından olan “doğal lisan işleme” ve “makine öğrenimi” alanlarının önde gelen konferanslarından alınan 445 kıymetlendirme testini sistematik olarak inceledi.
İncelemeler sonucunda, testlerin neredeyse hepsinin “sonuçların geçerliliğini zedeleyebilecek” kusurlara sahip olduğu sonucuna ulaşıldı.
Oxford İnternet Enstitüsünden Andrew Bean, çalışmaya ait Guardian’a yaptığı açıklamada, kullanılan bu testlerin büyük teknoloji şirketleri tarafından piyasaya sürülen son yapay zeka modellerinin değerlendirilmesinde kullanıldığını söyledi.
Bean, kıymetlendirme testlerinin yapay zekayla ilgili tüm savların temelini oluşturduğuna vurgu yaparak ortak tanımlar ve sağlıklı ölçümler olmadan modellerin sahiden gelişip gelişmediğini anlamanın zorlaştığını kaydetti.


