Mayıs ayının ortasında ABD’nin Kaliforniya eyaletinde kapalı kapılar gerisinde bir matematik doruğu düzenlendi. Ortalarında Avrupalıların da olduğu dünyaca ünlü 30 matematikçi, özel olarak geliştirilen yapay zekalı bir “akıl yürütme” modeliyle karşı karşıya geldi.
Amaç, insan zekasına meydan okuyacak kadar karmaşık sorularla bu yapay zekanın matematik yeteneklerini test etmekti. İki gün boyunca profesör düzeyinde sorular sorulan yapay zeka, iştirakçileri şaşkına çevirdi: Zira o4-mini isimli sohbet botu, dünyanın en kuvvetli sorunlarından kimilerini hakikat çözebildi.
Zirveye liderlik eden ve tıpkı vakitte heyet üyeliği yapan Virginia Üniversitesi’nden matematikçi Ken Ono, “Bazı meslektaşlarım bu modellerin neredeyse matematik dehası düzeyine yaklaştığını söylüyor” dedi.
O4-MİNİ NEDİR?
Test edilen yapay zeka, OpenAI tarafından geliştirilen o4-mini isimli yeni kuşak bir akıl yürütme modeliydi. Standart lisan modelleri (LLM), genelde dataya dayalı varsayım yapıyor. Lakin karmaşık bir sorunda insan üzere adım adım mantık yürütme, çıkarım yapma yahut ispat geliştirme yetenekleri sonlu oluyor.
Akıl yürütme (reasoning) özelliği ise LLM’in sadece ezberden yanıt vermek yerine bir mantık zinciri kurarak sorunu çözmesini sağlıyor. Bilhassa matematikte, bilimde yahut çok kademeli planlama gerektiren sorularda akıl yürütme kritik bir fark.
Google’ın benzeri modeli Gemini 2.5 Flash da misal yeteneklere sahip. ChatGPT’nin evvelki sürümlerini çalıştıran LLM’ler üzere o4-mini de söz varsayımı üzerine eğitiliyor. Fakat o4-mini, daha küçük ve çevik bir model olarak, özel data setleri ve insan takviyeli geri bildirimlerle daha derin akıl yürütme yetenekleri kazanıyor. Bu sayede klâsik LLM’lerin sonlarını aşarak karmaşık matematik sorunlarına dalabiliyor.
GİZLİLİK MUKAVELESİ İMZALADILAR
OpenAI, o4-mini’nin gelişimini izlemek için kar gayesi gütmeyen Epoch AI isimli kuruluşla işbirliği yaptı. Matematikçileri bir ortaya getiren toplantı da Epoch AI’ın araştırması için gerçekleşti.
Kurum birinci olarak, daha evvel hiçbir yerde yayınlanmamış, yani yapay zekanın evvelden erişemeyeceği 300 matematik sorusu hazırladı. Klasik LLM’ler karmaşık soruları kısmen yanıtlayabilse de bu yeni soruların yüzde 2’den azını çözebildi. Bu, evvelki modellerin derin akıl yürütmede yetersiz kaldığını kanıtladı. Lakin o4-mini çok farklı bir tablo çiziyordu.
Epoch AI, “FrontierMath” isimli bu yeni kıyaslama projesi için yakın vakitte doktora derecesini tamamlayan Elliot Glazer’ı takıma kattı. Projede lisans, yüksek lisans ve araştırma seviyesinde olmak üzere dört farklı zorluk düzeyi içeren yeni sorular toplandı. Nisan 2025’e gelindiğinde Glazer, o4-mini’nin soruların yaklaşık yüzde20’sini çözebildiğini gördü.
Ardından “dördüncü seviye” başlatıldı: Bu düzey, akademik seviyede bile fakat az sayıda uzmanın geliştirebileceği ve çözebileceği sorulardan oluşuyordu. İştirakçiler, zımnilik kontratı imzalayarak yalnızca Signal üzerinden bağlantı kurmak zorundaydı. E-posta üzere yollar, LLM’ler tarafından taranıp eğitimi etkileyebileceği için yasaktı.
O4-mini’nin çözemediği her soru, onu hazırlayan matematikçiye 7 bin 500 dolar ödül kazandıracaktı. Lakin gereğince sıkıntı soru bulmak hiç de kolay olmadı. Bunu hızlandırmak için Epoch AI, 17-18 Mayıs’ta yüz yüze bir oturum düzenledi. 30 akademisyen altışarlı kümelere ayrılarak iki gün boyunca yapay zekayı zorlayacak sorular geliştirmeye çalıştı.
“YAPAY ZEKA MUCİZESİ”
Ken Ono, o hafta sonu yaşadıklarını şöyle anlatıyor:
“Alanımdaki uzmanların bile açık soru olarak bildiği, güzel bir doktora seviyesi soru hazırladım. Botu denemek için sordum. On dakika içinde gerçek vakitli olarak tahlili ekranımda yazmaya başladı.”
Scientific American mecmuasına konuşan Ono’nun transferine nazaran bot evvel ilgili literatürü taradı, akabinde sorunun kolaylaştırılmış bir versiyonunu çözerek ilerledi. Kısa mühlet sonra asıl soruyu da gerçek formda çözdü. Üstelik yanıtının sonuna şunu ekledi: “Atıf gerekmez zira gizemli sayıyı ben hesapladım!”
Ono, sonraki sabah Signal üzerinden başka iştirakçilere “Böyle bir LLM ile karşı karşıya kalacağımı hiç düşünmemiştim” iletisini gönderdi:
“Bir bilim beşerinin yaptığı üzere akıl yürütüyordu. Bu nitekim ürkütücü.”
Grup sonunda botu alt edebilecek 10 soru bulmayı başardı. Lakin iştirakçiler, yapay zekanın bir yılda geldiği nokta karşısında şaşırdıklarını tabir ediyor.
O4-mini, bir matematikçinin haftalarca sürecek hesaplarını dakikalar içinde tamamlayabiliyor. Fakat bu sürat, bilim insanlarını kaygılandırıyor. Araştırmacılar tıpkı vakitte sonuçlara körü körüne güvenilmemesi gerektiğini vurguluyor.
“BEŞİNCİ DÜZEY KAPIDA”
Toplantının sonunda gözler, şimdi kimsenin çözemediği sorulara, yani “beşinci seviye”ye çevrildi. Zira bilim insanları son toplantıda yönelttikleri soruların karşılıklarını zati biliyordu.
Beşinci düzeye gelindiğinde, matematikçilerin rolü kökten değişebilir. Yalnızca soru soran ve akıl yürüten yapay zekAyı yönlendiren bir danışmana dönüşebilirler. Ono’ya nazaran, bu durum üniversitelerde yaratıcılığı teşvik etmenin kıymetini artıracak.
Ono, “Bu yalnızca bir bilgisayar değil. Panik yaratmak istemem lakin bu LLM’ler, şimdiden dünyanın en güzel doktora öğrencilerinin birçoklarını geride bırakıyor” dedi.


