Riset: AI Lebih Canggih, Tetapi Juga Semakin “Keren”


Mataramnews.co.id

– Semakin maju kecerdasan buatan (
Artificial Intelligence/AI)
ternyata semakin tinggi juga tingkat halusinasinya.

Halusinasi dalam konteks kecerdasan buatan, menggambarkan situasi di mana model kecerdasan buatan memberikan informasi yang tidak tepat, alias isinya tidak sesuai dengan sumber atau keadaan yang sebenarnya.

Berdasarkan riset terbaru dari OpenAI, terungkap halusinasi ini terjadi pada model-model kecerdasan buatan terbaru mereka. Dalam pengujian ini, OpenAI menggunakan model AI terbarunya, yakni o3 dan o4-mini.

Kedua model AI ini diuji dalam dua skenario berbeda, yakni PersonQA dan simpleQA.

Pengujian PersonQA dilakukan dengan memberikan pertanyaan terkait tokoh-tokoh publik. Dalam uji ini, model AI o3 tercatat memberikan jawaban “halu” sebanyak 33 persen. Sedangkan model o4-mini menunjukkan tingkat halusinasi yang lebih tinggi, yakni 41 persen.

Untuk pengujian SimpleQA, kedua model ini diuji dengan pertanyaan singkat berbasis fakta. Hasilnya, model AI o3 tercatat memberikan informasi yang salah dengan tingkat halusinasi yang lebih besar, yaitu 51 persen.

Di sisi lain, model o4-mini malah menghasilkan angka yang lebih tinggi. Tingkat halusinasinya dikatakan mencapai 79 persen.

OpenAI mengatakan bahwa hal tersebut normal karena model o4-mini memang diciptakan untuk memberikan respons dengan kecepatan lebih cepat daripada model o3.

Perusahaan tersebut juga mengevaluasi versi AI paling baru mereka yakni GPT-4.5. Pada tes SimpleQA, model kecerdasan buatan ini mendapatkan angka hallucination sebesar 37,1%. Angka ini lebih rendah daripada hasil untuk o3 dan o4-mini.

Tingkat halusinasi model AI juga diuji melalui serangkaian tes oleh platform agen dan asisten AI Vectara.

Dalam tes kali ini, model kecerdasan buatan dimintai untuk membuat rangkuman dari sebuah artikel berita sebelumnya. Selanjutnya, perbandingannya dilakukan antara ringkasan tersebut dengan isi asli artikel untuk mengecek apakah informasinya masih relevan dan akurat.

Temuan tersebut mengindikasikan bahwa sejumlah model kecerdasan buatan memiliki performa yang menonjol.
reasoning
(berbasis logika), malah menciptakan hasil kerja yang kurang baik jika dibandingkan dengan model konvensional.

Dalam versi O3, indeks halusinasinya mencatatkan angka sebesar 6,8%. Di sisi lain, model R1 dari perusahaan DeepSeek menunjukkan hasil yang kurang baik dibandingkan dengan versi tersebut.

Dalam pengujian ini, model R1 menunjukkan tingkat halusinasi sebanyak 14,3 persen. Angka ini jauh lebih tinggi daripada model DeepSeek-V2.5 yang hanya 2,4 persen.

Kondisi serupa juga terjadi pada model AI reasoning bernama Granite 3.2 buatan IBM. Versi lebih besar dari model ini, yaitu 8B, tercatat memiliki tingkat halusinasi sekitar 8,7 persen. Sementara versi kecilnya, 2B, mencapai 16,5 persen.

Hasil pengujian ini menunjukkan bahwa model AI yang bahkan dirancang untuk “menalar” alias
reasoning
, justru cenderung menghasilkan jawaban alias informasi dengan tingkat halusinasi yang cukup tinggi.

Mengapa AI dapat memberikan jawaban yang berbunyi “halu”?

Berdasarkan riset yang dilakukan oleh perusahaan analisis terkait kecerdasan buatan (AI), yaitu Transluce, salah satu alasan di balik respons AI yang tampak tidak masuk akal atau aneh ialah disebabkan oleh desain model-model semacam o3 dari OpenAI. Model tersebut dibuat dengan tujuan utama untuk selalu menampilkan suatu jawaban apa pun situasinya.

Dalam hal ini, ketika
bot
tidak memiliki keyakinan atas informasi yang ia punya, mereka akan tetap memberikan respons, alih-alih mengakui bahwa modelnya tidak mengetahui jawaban dari pertanyaan tersebut.

Selain itu, model AI dilatih berdasarkan kumpulan data tertentu yang nantinya digunakan untuk memberikan jawaban yang paling mungkin atau relevan, atas pertanyaan yang diajukan pengguna.

Maka dari itu, apabila bot mendapatkan suatu pertanyaan dimana jawabannya mungkin tak tersedia dalam datanya sebelumnya, kecerdasan buatan masih mencoba untuk menjawab walaupun informasinya belum tentu benar.

Informasi tersebut dikemukakan dengan nada yang kelihatan meyakinkan serta seperti memang akurat, namun sesungguhnya tak memiliki dasar sedikitpun. Itulah sebabnya model AI dapat menyajikan respons “halu” atau semacam khayalan belaka.

Respon perusahaan kecerdasan buatan mengenai masalah “halusinasi”

Perusahaan OpenAI menyadari bahwa model kecerdasan buatan mereka, sepeti o3, ternyata menunjukkan tingkat ilusi yang cukup signifikan.

Pada laporan hasil riset yang menggambarkan pengujian internal terhadap model kecerdasan buatannya, perusahaan tersebut menegaskan bahwa model o3 sering kali membentuk “pernyataan” pasti sendiri-sendiri.

Ini berarti, model kecerdasan buatan tersebut akan menyajikan jawaban yang kelihatannya meyakinkan atau seperti halusinasi, daripada mengaku bahwa bot itu sendiri tidak tahu informasinya.

CEO OpenAI, Sam Altman, malah merespons fenomena tersebut dengan mengatakan bahwa ilusi yang muncul dalam model kecerdasan buatannya adalah bagian sengaja dirancang daripada fiturnya.
chatbot
, alih-alih
bug
yang harus diperbaiki.

Respon ini jauh berbeda dari tindakan yang diambil oleh perusahaan AI lain seperti Google, Microsoft, dan Anthropic. Semua ketiga perusahaan tersebut diketahui tengah mengerjakan pembenahan guna menyelesaikan masalah “hallucination AI”.

Ternyata, Google dan Microsoft dikabarkan sudah meluncurkan produk dengan nama Microsoft Correction serta Google Vertex.

Kedua sistem dikatakan dibuat untuk menandai apabila terdapat data yang kemungkinan salah disampaikan oleh bot kecerdasan buatan mereka.

Meskipun begitu, langkah-langkah yang diambil oleh kedua perusahaan teknologi besar tersebut masih dipertanyakan oleh sejumlah pakar.

Menurut laporan
Techcrunch
Para pakar ragu-ragu bahwa solusi itu dapat menyelesaikan secara keseluruhan permasalahan delusi dalam kecerdasan buatan.

Saran para peneliti dalam menangani “halusinasi AI”

Berdasarkan laporan
Wall Street Journal,
Beberapa ahli sudah menyarankan bahwa semua sistem kecerdasan buatan seharusnya bisa menjawab dengan “saya tidak tahu”.

Pelatihan ini dirancang khusus untuk meningkatkan kapabilitas AI ketika dihadapkan pada pertanyaan-pertanyaan dimana jawabannya berada diluar jangkauan data atau memorinya.

Lainnya lagi dari para peneliti merekomendasikan penggunaan metode yang dikenal sebagai ”
retrieval augmented generation
“.

Ini merupakan teknik di mana bot AI mengambil referensi dari dokumen lain yang masih relevan dengan pertanyaan.

Jadi, alih-alih menjawab dengan informasi yang keliru, disertakannya dokumen ini diharapkan bisa menjadi referensi tambahan untuk jawaban dari pertanyaan pengguna, sebagaimana dihimpun
KompasTekno
dari
Forbes
, Jumat (9/5/2025).