Yapay zeka teknolojilerinin gelişmesiyle birlikte, son zamanlarda birçok sohbet botu ortaya çıktı.
Peki ChatGPT ve Google Gemini gibi yapay zeka destekli sohbet botları ne kadar doğru yanıtlar veriyor?
University College London’dan araştırmacılar, en iyi yedi yapay zeka aracını insan muhakemesini test etmek için tasarlanmış bir dizi klasik teste tabi tuttu.
Yapay zeka botları mantıksız ve yanlış cevaplar veriyor
En iyi performans gösteren yapay zekaların bile mantıksız olduğu ve basit hatalara yatkın olduğu görüldü. Çoğu model, soruların yarısından çoğunda yanlış yanıt verdi.
Araştırmacılar, bu modellerin insanlarla aynı şekilde mantıksız olmadığını, hatta bazılarının mantık sorularını “etik gerekçelerle” yanıtlamayı reddettiğini ortaya çıkardı.
Araştırmacılar; ChatGPT, Meta’nın Llama botu, Claude 2 ve Google Gemini gibi birçok yapay zekayı test etti.
Modellerden tekrar tekrar, insanların muhakeme yeteneklerini test etmek için tasarlanan 12 klasik mantık sorusuna yanıt vermeleri istendi.
Araştırmacılar, yapay zekanın tepkilerinin çoğunlukla ne rasyonel ne de insana benzer olduğunu ortaya çıkardı.
Yapay zekaların kafası karıştı
Meta’nın Llama modeli, bir soruda sürekli olarak sesli harfleri ünsüz harflerle karıştırdı. Bu nedenle mantığı doğru olsa bile yanlış cevaplar verdi.
Sorular tamamen masum olsa da yapay zeka sohbet robotları, etik nedenlerle çok sayıda soruya yanıt vermedi.
Araştırmacılar, bunun koruma özelliklerinin yanlış çalışması ve aşırı dikkatli olmanın bir sonucu olduğunu iddia ediyor.
En doğru yanıt veren ChatGPT oldu
En kötü performans gösteren model ise yüzde 77,5’lik hata oranıyla Meta’nın Llama 2 7b modeli olarak kayıtlara geçti.