Apple araştırmacıları, yapay zekanın muhakeme yeteneklerine dair argümanlı telaffuzlara ağır bir darbe vurabilecek bir çalışmaya yayınladı.
7 Haziran’da Apple’ın makine tahsili sitesinde yayınlanan çalışmaya nazaran, Meta, OpenAI ve DeepSeek üzere büyük teknoloji şirketlerinin geliştirdiği son model yapay zeka araçları, muhakeme yapabildikleri argüman edilse de, vazifeler karmaşıklaştığında büsbütün başarısız oluyor.
MUHAKEME MODELLERİ NE VAAT EDİYORDU?
Anthropic firmasının Claude modeli, OpenAI’ın o3 modeli ve DeepSeek’in R1’i üzere modeller, klasik büyük lisan modellerine (LLM) kıyasla daha gerçek karşılıklar üretmek üzere tasarlanmış özel “muhakeme” sistemleri olarak tanıtıldı.
Bu modeller, “chain-of-thought” (düşünce zinciri) ismi verilen çok adımlı mantık yürütme sürecini kullanarak, daha karmaşık vazifeleri çözebilmeleriyle öne çıkıyorlardı.
Bu gelişmeler, “yapay genel zeka” (AGI) yani insanı birçok alanda aşacak seviyedeki yapay zeka düzeyinin yaklaştığı istikametindeki tezleri da güçlendirmişti. Lakin Apple’ın yeni araştırması, bu beklentilere temkinli yaklaşmak gerektiğini ortaya koyuyor.
KARMAŞIK VAZİFELERDE ÇÖKÜYOR
Araştırmada, OpenAI’IN o1 ve o3 modelleri, DeepSeek R1, Anthropic Claude 3.7 Sonnet ve Google Gemini üzere hem klasik hem de muhakeme yetenekli modeller dört klasik mantık bilmecesiyle test edildi: Irmaktan geçme, dama atlamaca, blok dizme ve Hanoi Kulesi. Bilmece karmaşıklıkları düşük, orta ve yüksek düzeylerde ayarlanarak modellerin dayanıklılığı ölçüldü.
Sonuçlar çarpıcıydı:
– Düşük karmaşıklık düzeyine sahip testlerde klasik modeller daha başarılıydı.
– Orta düzey testlerde muhakeme modelleri avantaj sağladı.
– Lakin yüksek düzeyde tüm modellerin muvaffakiyet oranı sıfıra düştü.
Muhakeme modellerinin, muhakkak bir karmaşıklık eşiğini aştıktan sonra, düşünme için kullandıkları “token” ölçüsünü azalttıkları görüldü. Araştırmacılara nazaran bu, modellerin karmaşık misyonlarda mantık yürütme marifetlerinin çöktüğü manasına geliyor.
Dahası, tahlil algoritması direkt verildiğinde bile bu çöküş engellenemedi. Örneğin, Hanoi Kulesi testinde 100 yanlışsız atak yapan modeller, ırmaktan geçme bilmecesinde yalnızca 5 atakta başarısız oldu.
HALÜSİNASYON SORUNU
OpenAI’ın kendi teknik raporları da muhakeme modellerinin halüsinasyon üretme (yani kusurlu yahut uydurma bilgi sunma) riskinin daha yüksek olduğunu göstermişti.
Nitekim o1 modelinde yanılgılı bilgi oranı yüzde 16 iken, o3 ve o4-mini modellerinde bu oran sırasıyla yüzde 33 ve yüzde 48’e çıkıyor.
OpenAI, bu durumun neden kaynaklandığını şimdi çözemediğini ve “daha fazla araştırmaya gereksinim olduğunu” belirtiyor.
DEĞERLENDİRME YOLUNDA SORUN MU VAR?
Apple araştırmacıları ise mevcut yapay zeka kıymetlendirme metotlarının yetersiz kaldığını savunuyor. Matematik ve kodlama testlerinin data sızıntısı (contamination) riski taşıdığını ve denetimli deney şartlarında muhakeme yeteneğini ölçmede eksik kaldığını tabir ediyorlar.
Veri sızıntısı, test edilen bir sorunun yahut tahlilinin daha evvel modelin eğitim bilgilerinde yer almış olması manasına geliyor. Yani buna nazaran, modeller, daha evvel gördüğü bir soruyla karşılaştığında sahiden muhakeme etmek yerine bu soruya “ezberden” cevap veriyor olabilir.
APPLE’IN NİYETİ NE?
Apple’ın kendi yapay zeka stratejisi daha çok aygıt içi (on-device) verimli yapay zeka tahlilleri geliştirmeye odaklanıyor. Lakin Siri’nin ChatGPT’ye nazaran yüzde 25 daha az hakikat cevap verdiğini gösteren tahliller de var. Bu yüzden birtakım analistler Apple’ın bu stratejisini eleştiriyor.
Bu durum Apple’ın kelam konusu yapay zeka araştırmasının da kimi bölümler tarafından eleştirilmesine yol açtı.
Washington Üniversitesi’nden emekli bilgisayar bilimcisi Pedro Domingos, toplumsal medya hesabından, “Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak” diye yazdı.
Ancak pek çok araştırmacı bu çalışmayı, yapay zeka hakkındaki abartılı telaffuzlara karşı değerli bir “soğuk duş” olarak da kıymetlendiriyor.
Yapay zeka uzmanı Andriy Burkov, “Apple, hakemli bir çalışmayla LLM’lerin yalnızca nöral ağlar olduğunu ve klasik sınırlamalara sahip olduklarını ispatladı” dedi ve ekledi:
“Umarım artık bilim insanları, LLM’leri hastalarla konuşan psikiyatristler üzere değil, matematikçiler üzere inceler.”


