Gemini 3.1 Pro ARC-AGI-2’de yüzde 77,1 aldı

Google, yapay zekâ ailesini Gemini 3.1 Pro sürümüyle güncelledi

Google, üretken yapay zekâ ailesini Gemini 3.1 Pro sürümüyle güncelledi. Şirket, modeli perşembe günü itibarıyla önizleme etiketiyle geliştiricilere ve son kullanıcılara açtı. Kasım ayında duyurulan Gemini 3’ün ardından gelen bu sürüm, özellikle akıl yürütme ve problem çözme tarafına odaklanıyor. Google ayrıca, geçtiğimiz hafta paylaştığı Deep Think güncellemesinin arkasındaki çekirdek zekânın da bu model olduğunu doğruladı.

Yeni model, benchmark sonuçları üzerinden anlatılıyor. Öte yandan açıklanan skorlar yalnızca küçük artışlar sunmuyor; bazı testlerde belirgin sıçramalar görülüyor. Özellikle ileri seviye alan bilgisi ölçen Humanity’s Last Exam testinde Gemini 3.1 Pro yüzde 44.4 skor elde etti. Bir önceki Gemini 3 Pro yüzde 37.5 seviyesinde kalırken, OpenAI’nın GPT 5.2 modeli yüzde 34.5’te kaldı.

Google Gemini 3.1 Pro geliştiricilere daha güçlü akıl yürütme sunuyor

Modelin iyileştirmeleri yalnızca teorik testlerle sınırlı kalmıyor. Google, karşılaştırma videolarında özellikle grafik ve simülasyon üretim yeteneğini ön plana çıkarıyor. Metinden doğrudan daha temiz ve optimize edilmiş SVG çıktıları üreten model, kod tarafında da daha düzenli sonuçlar veriyor. Bunun yanında geliştiriciler için hazırlanan APEX-Agents benchmark’ında skorun neredeyse iki katına çıkması, ajan tabanlı iş akışlarında ilerleme anlamına geliyor.

Her şeye rağmen Arena liderlik tablosu farklı bir tablo ortaya koyuyor. Metin üretiminde Claude Opus 4.6 modeli 1504 puanla Gemini 3.1 Pro’nun yaklaşık dört puan önünde yer alıyor. Kod üretiminde ise Opus 4.6, Opus 4.5 ve GPT 5.2 High sürümleri Gemini’nin biraz üzerinde konumlanıyor. Bunun yanında Arena değerlendirmelerinin kullanıcı oylarına dayandığını ve çıktının doğruluğundan çok beğenilme oranını ölçtüğünü hatırlatmak gerekiyor.