OpenAI ve DeepSeek sandığımız kadar zeki değil mi? Apple’ın araştırması hayal kırıklığına uğrattı

Apple’ın yeni araştırması, OpenAI, DeepSeek gibi büyük teknoloji şirketlerinin geliştirdiği en sonki yapay zeka akıl yürütme modellerinin, sorunlar kritik bir karmaşıklık eşiğini aştığı zaman tamamen çöktüğünü ortaya çıkardı.
YAPAY ZEKA SANILDIĞI KADAR AKILLI DEĞİL Mİ?
Meta'nın Claude, OpenAI'nin o3 ve DeepSeek'in R1 gibi akıl yürütme modelleri, geleneksel LLM'lere göre daha fazla zaman ve işlem gücü harcıyor. Bu sistemler, daha doğru yanıtlar üretmeyi amaçlayan uzmanlaşmış yapay zeka modelleridir. Bu modellerin yükselişe geçmesi, büyük teknoloji şirketlerinin insan performansını aşan sistemler olan AGI'ye yakın oldukları yönündeki iddialarını desteklemişti. Ancak Apple'ın 7 Haziran'da Machine Learning Research web sitesinde yayınladığı çalışma, bu iddialara şüpheyle yaklaşmamıza neden oldu.
KARMAŞIKLIĞIN EŞİĞİNDE TAMAMEN ÇÖKÜYOR
Apple araştırmacıları, yapay zeka modellerinin genelleştirilmiş akıl yürütme sergilemede başarısız olduklarını, ayrıca görevler belirli bir karmaşıklık eşiğini aştığında akıl yürütme yeteneklerinin tamamen çöktüğünü belirtiyor.
Çalışmada, "Çeşitli bulmacalar üzerinde kapsamlı deneyler yaparak, sınır LRM'lerinin belirli karmaşıklıkların ötesinde tam bir doğruluk çöküşüyle karşı karşıya olduğunu gösteriyoruz," ifadelerine yer verildi.
Modellerin sezgiye aykırı bir ölçekleme sınırı sergilediği; yani, yeterli token bütçesine sahip olmalarına rağmen, problem karmaşıklığıyla beraber akıl yürütme çabalarının belirli bir noktadan sonra azaldığı gözlemlendi.
HALÜSİNASYON SORUNU YAŞIYORLAR
Yapay zeka modelleri, "düşünce zinciri"adı verilen bir süreci kullanarak çok adımlı yanıtlar üretir ve mantıklarını açıklayarak doğruluğu artırmayı hedefler. Bu süreç, modellerin daha karmaşık görevleri daha yüksek doğrulukla ele almasına olanak tanır. Ancak bu süreç, gerçek bir anlayışa değil, istatistiksel tahminlere dayandığından, chatbot'ların "halüsinasyon" görme eğilimi sürüyor. Hatalı yanıtlar verme, veri olmadığında yalan söyleme ve hatta zararlı tavsiyelerde bulunma gibi sorunlar yaşanabiliyor.
OpenAI'nin kendi teknik raporunda da akıl yürütme modellerinin halüsinasyonlar sebebiyle raydan çıkma olasılığının, genel modellerden daha yüksek olduğu ve modeller geliştikçe bu sorunun kötüleştiği belirtmişti. Örnek vermek gerekirse, OpenAI'nin o3 ve o4-mini modelleri, insanlarla ilgili gerçekleri özetlerken sırasıyla %33 ve %48 oranında hatalı bilgi üretiyor. Daha önceki o1 modelinin halüsinasyon oranı %16 idi.
DÖRT KLASİK BULMACA DENEYİ
Apple araştırmacıları, bu sorunları daha derinlemesine incelemek amacıyla OpenAI'nin o1 ve o3, DeepSeek R1, Anthropic'in Claude 3.7 Sonnet ve Google'ın Gemini'si dahil olmak üzere hem genel hem de akıl yürütme botlarına dört klasik bulmaca (nehir geçişi, dama tahtası atlama, blok istifleme ve Hanoi Kulesi) verdiler. Bulmacaların karmaşıklığı düşük, orta ve yüksek seviyelerde ayarlanabildi.
Deneyler, düşük karmaşıklıkta genel modellerin daha avantajlı olduğunu, görevler karmaşıklaştıkça akıl yürütme modellerinin bir avantaj elde ettiğini ortaya koydu. Ancak bu avantaj, aşırı karmaşık bulmacalarla karşılaşıldığında her iki modelin de performansının "sıfıra düşmesiyle" son buldu.
KARMAŞIK GÖREVLERDE JETONLARI AZALTIYORLAR
Kritik bir eşiği geçtikten sonra, yapay zeka modellerinin daha karmaşık görevlere atadıkları jetonları (token) azalttığı görüldü. Bu da modellerin daha az akıl yürüttüğünü ve düşünce zincirlerini sürdürmede temel sınırlamalara sahip olduğunu göstermekte.
Araştırmacılar, modeller Hanoi Kulesi için çözüm algoritması verildiğinde bile performanslarının iyileşmediğini bildirdi. Örneğin, Hanoi Kulesi'nde 100'e kadar doğru hamle yapabilirken, Nehir Geçişi bulmacasında 5'ten fazla doğru hamle sağlayamadılar.
WWDC 2025'te gözler yapay zekada! Apple’dan büyük yapay zeka bombası gelmiyor mu?
APPLE’A ELEŞTİRİLER
Apple'ın bu araştırması, şirketin kendi yapay zeka yarışındaki konumu sebebiyle tartışmalara neden oldu. Analizlere göre, Siri'nin ChatGPT'den %25 daha az doğru yanıt vermesi ve Apple'ın büyük yapay zeka modelleri yerine cihaz üzerinde verimli yapay zeka geliştirmeye öncelik vermesi, rakiplerinin gerisinde kaldığı iddialarını güçlendiriyor.