OpenAI’ın yeni yapay zeka modellerini kullanırken dikkatli olun

OpenAI’ın kısa müddet evvel tanıttığı yeni yapay zeka modelleri o3 ve o4-mini her ne kadar özellikleri ile beğenilmiş olsalar da eski modellerdeki can sıkıcı bir sıkıntıyla geldi.
Ortaya çıkan detaylara nazaran bu iki yeni modelin gerçekdışı bilgiler üretme eğilimi, evvelki modellere kıyasla artmış durumda. OpenAI’ın kendi testlerine nazaran bu yeni modeller, hem eski “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini’den hem de GPT-4o üzere daha klasik modellerden daha fazla ‘halüsinasyon‘ görüyor.
Webtekno’nun aktardığına nazaran daha da dikkat cazip olan ise bu artışın sebebinin şimdi tam olarak anlaşılamamış olması. OpenAI yayınladığı teknik raporda bu sorunun tahlili için daha fazla araştırmaya muhtaçlık duyduklarını kabul etmiş durumda.
OpenAI’ın şirket içi testlerine nazaran o3 modeli, beşerlerle ilgili bilgileri pahalandıran PersonQA testinde soruların yüzde 33’ünde halüsinasyon gördü. Bu oran, o1 ve o3-mini’nin sırasıyla yüzde 16 ve yüzde 14,8 olan halüsinasyon oranlarının neredeyse iki katı. O4-mini ise bu alanda yüzde 48 ile daha da berbat bir performans sergiledi.
Üçüncü parti testlerde de benzeri sonuçlar ortaya çıktı. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin karşılık verirken büsbütün gerçek dışı süreç adımları uydurma eğiliminde olduğunu ortaya koydu.
Transluce’un kurucularından ve eski OpenAI çalışanı Neil Chowdhury’ye nazaran bu durumun sebebi modellerin eğitiminde kullanılan formüller olabilir lakin net bir sebebe dayandırmak şu kademede güç.
o3 modeli her ne kadar birtakım misyonlarda, bilhassa de kodlama ve matematikte başarılı sonuçlar verse de sık sık yanlışlı sonuçlar üretmesi ya da gerçekte olmayan kaynaklar sunması üzere önemli meselelere sahip.
Öte yandan mevcut haliyle GPT-4o, OpenAI’ın SimpleQA testinde yüzde 90 doğruluk oranı yakalayarak hala güçlü bir alternatif.