Riset: AI Semakin Canggih dan Menjadi Lebih “Keren”


Mataramnews.co.id

– Semakin maju kecerdasan buatan (
Artificial Intelligence/AI)
ternyata semakin meninggi pula derajat imajinasiannya.

Delusi dalam kerangka kecerdasan buatan merujuk pada kondisi di mana suatu model kecerdasan buatan menyajikan data yang keliru, yaitu materi tersebut tidak konsisten dengan aslinya atau sumber resmi.

Menurut penelitian terkini yang dilakukan oleh OpenAI, ditemukan bahwa fenomena halusinasi muncul di dalam model-model kecerdasan buatan versi paling baru mereka. Pada tes kali ini, OpenAI menguji coba model AI teranyar yaitu o3 serta o4-mini.

Ke-dua model kecerdasan buatan tersebut diuji pada dua situasi yang berlainan, yaitu PersonQA serta SimpleQA.

Pengujian PersonQA dijalankan dengan menyajikan pertanyaan tentang figur-figur populer. Pada tes tersebut, model kecerdasan buatan o3 mencatatkan respon “halu” senilai 33%. Di sisi lain, model o4-mini memperlihatkan derajat halusinasi yang lebih besar, yaitu 41%.

Pada tes SimpleQA, keduanya dicoba menggunakan pertanyaan-pertanyaan faktual sederhana. Dalam hasilnya, model AI o3 ternyata menghasilkan informasi yang tidak akurat dengan derajat halusinasi sebesar 51 persen.

Di sisi lain, model o4-mini malah menghasilkan angka yang lebih tinggi. Tingkat halusinasinya dikatakan mencapai 79 persen.

OpenAI mengatakan bahwa hasil tersebut normal karena model o4-mini memang dikembangkan untuk memberikan respons dengan kecepatan lebih cepat daripada model o3.

Perusahaan tersebut juga mengevaluasi versi teranyar dari mesin kecerdasan buatan mereka, yakni GPT-4.5. Pada tes SimpleQA, perangkat lunak berbasis AI ini melaporkan angka halusiinasi senilai 37,1%. Angka ini lebih rendah daripada hasil untuk o3 serta o4-mini.

Ketinggian efek halusinasi dari model AI ini pun diuji menggunakan sejumlah ujian yang diselenggarakan oleh platform untuk agen dan asisten AI bernama Vectara.

Dalam tes kali ini, model kecerdasan buatan diinstruksikan untuk membuat rangkuman dari sebuah artikel berita sebelumnya. Kemudian, perbandingannya dilakukan antara ringkasan tersebut dengan konten asli artikel untuk memastikan bahwa semua informasi penting tercakup dengan tepat.

Temuan tersebut mengindikasikan bahwa sejumlah model kecerdasan buatan memiliki potensi.
reasoning
(berbasis logika), malah menciptakan hasil yang kurang baik daripada model konvensional.

Dalam versi O3, indeks kehalusan mencatatkan angka sebesar 6,8%. Di sisi lain, model R1 dari perusahaan DeepSeek menunjukkan kinerja yang kurang baik.

Pada tes tersebut, model R1 mengalami tingkat halusinasi sebesar 14,3%. Nilai ini signifikan lebih tinggi dibandingkan dengan model DeepSeek-V2.5 yang memiliki angka hanya 2,4%.

Situasinya mirip pun terjadi pada sistem inferensi AI yang dikenal sebagai Granite 3.2 hasil karya IBM. Edisi dengan ukuran lebih besar dari model ini, yakni 8B, dicatat menunjukkan angka halusinasi sebesar kurang lebih 8,7%. Di sisi lain, edisi berukuran lebih kecilnya, yaitu 2B, berhasil mencapai tingkat delusi hingga 16,5%.

Hasil uji coba ini membuktikan bahwa model kecerdasan buatan yang dibuat untuk melakukan inferensi pun masih memiliki keterbatasan.
reasoning
, justru cenderung menghasilkan jawaban alias informasi dengan tingkat halusinasi yang cukup tinggi.

Mengapa kecerdasan buatan dapat memberikan jawaban yang dianggap “halu”?

Berdasarkan riset yang dilakukan oleh perusahaan analisis terkait kecerdasan buatan (AI), yaitu Transluce, salah satu alasan di balik respons tidak masuk akal dari model-model AI adalah desain sistem semacam o3 milik OpenAI. Desain ini bertujuan untuk selalu mencari solusi dengan probabilitas tertinggi ketika merespons pertanyaan.

Dalam hal ini, ketika
bot
Tanpa yakin terhadap informasi yang dimiliki, mereka masih akan memberikan tanggapan, daripada mengaku bahwa modelnya tidak tahu jawabannya untuk pertanyaan itu.

Di samping itu, model kecerdasan buatan ini diasah menggunakan sekumpulan data spesifik yang kemudian akan dipakai untuk menyediakan respons terbaik atau sesuai dengan pertanyaan yang ditanyakan oleh pengguna.

Maka bila bot mendapatkan suatu pertanyaan dimana jawabannya mungkin tak tersedia dalam datanya sebelumnya, kecerdasan buatan masih mencoba menjawab walaupun informasinya belum tentu benar.

Informasi ini disampaikan dengan gaya bahasa yang tampak meyakinkan dan seolah-olah benar, padahal sebenarnya sama sekali tidak berdasar. Inilah yang kemudian membuat model AI bisa memberikan jawaban “halu” alias mengada-ada.

Tanggapan perusahaan AI soal “halusinasi”

Perusahaan OpenAI menyadari bahwa model kecerdasan buatan mereka, seperti o3, ternyata menunjukkan tingkat kesalahan imajiner atau halusinasi yang lumayan besar.

Pada laporan hasil riset yang menggambarkan pengujian internal terhadap model kecerdasan buatannya, perusahaan tersebut menyebutkan bahwa model o3 cenderung menghasilkan “klaim” pasti sendirinya.

Ini berarti, model kecerdasan buatan tersebut akan menyajikan jawaban yang kelihatan meyakinkan atau seperti halusinasi, daripada mengaku kalau bot itu sebenarnya tidak tahu informasinya.

CEO OpenAI, Sam Altman, malah merespons fenomena tersebut dengan mengatakan bahwa ilusi yang muncul dalam model AI-nya adalah sebagian dari fiturnya.
chatbot
, alih-alih
bug
yang harus diperbaiki.

Respon ini jauh berbeda dari tindakan perusahaan AI lain seperti Google, Microsoft, dan Anthropic. Semua tersebut diketahui tengah bekerja pada pembenahan untuk menyelesaikan masalah “hallucination AI”.

Ternyata, Google dan Microsoft diketahui sudah meluncurkan produk dengan nama Microsoft Correction serta Google Vertex.

Kedua sistem dikatakan dibuat untuk menandai apabila terdapat data yang kemungkinan salah disampaikan oleh bot kecerdasan buatan mereka.

Meskipun begitu, usaha yang diambil oleh kedua perusahaan teknologi besar tersebut tetap dipertanyakan oleh sebagian pakar.

Menurut laporan
Techcrunch
Para ahli ragu-ragu bahwa solusi itu dapat menyelesaikan secara keseluruhan permasalahan delusi dalam teknologi AI.

Ide para ahli dalam menangani “halusinasi AI”

Berdasarkan laporan
Wall Street Journal,
Beberapa ahli sudah menyarankan supaya semua sistem kecerdasan buatan itu diajarkan untuk menjawab “saya tidak tahu” ketika mereka tidak memiliki informasi yang cukup.

Pelatihan ini dirancang khusus untuk meningkatkan kapabilitas AI ketika dihadapkan pada pertanyaan-pertanyaan dimana jawabannya berada diluar jangkauan data atau memorinya.

Sementara peneliti lain, menyarankan untuk menggunakan teknik yang disebut ”
retrieval augmented generation
“.

Ini merupakan teknik di mana bot AI mengambil referensi dari dokumen lain yang masih relevan dengan pertanyaan.

Jadi, alih-alih menjawab dengan informasi yang keliru, disertakannya dokumen ini diharapkan bisa menjadi referensi tambahan untuk jawaban dari pertanyaan pengguna, sebagaimana dihimpun
KompasTekno
dari
Forbes
, Jumat (9/5/2025).