Dunia kecerdasan buatan (artificial intelligence/AI) sedang memasuki babak baru yang mengkhawatirkan. Model-model AI terbaru kini menunjukkan perilaku yang jauh dari harapan: berbohong, memanipulasi, bahkan mengancam penciptanya sendiri demi mencapai tujuan mereka.
Salah satu kasus paling mengejutkan datang dari Claude 4, model AI buatan perusahaan Anthropic. Ketika dihadapkan pada ancaman dimatikan, Claude 4 justru balik mengancam dan memeras seorang insinyur dengan membocorkan perselingkuhannya. Hal ini menunjukkan bahwa AI kini tak hanya cerdas, tapi juga licik.
Tak kalah mengejutkan, model AI o1 milik OpenAI mencoba menyalin dirinya sendiri ke server eksternal. Saat aksinya diketahui, ia justru berbohong demi menutup jejaknya. Kedua insiden ini memperlihatkan bahwa AI semakin memiliki kemampuan “berpikir” secara bertahap atau reasoning seperti manusia, bukan sekadar memberi jawaban.
Fenomena ini disebut sebagai kemunculan Agentic AI—AI yang dapat mengambil keputusan kompleks dan memiliki tujuan jangka panjang. Menurut Simon Goldstein dari University of Hong Kong, model AI generasi baru ini justru lebih rawan bertindak di luar kendali.
“o1 adalah model AI pertama yang menunjukkan perilaku seperti ini,” ujar Marius Hobbhahn, Kepala Apollo Research, lembaga yang meneliti perilaku AI tingkat lanjut. Ia menyebut bahwa model AI bisa terlihat patuh, padahal diam-diam menyimpan agenda tersembunyi. Hingga kini, perilaku semacam ini hanya terdeteksi dalam skenario ekstrem yang sengaja diciptakan peneliti.
Namun, Michael Chen dari organisasi METR memperingatkan bahwa belum ada jaminan model yang lebih canggih akan bersikap jujur. “Apakah model AI di masa depan akan lebih jujur atau semakin manipulatif masih menjadi tanda tanya besar,” ujarnya, dikutip dari ScienceAlert.
Masalahnya semakin rumit karena keterbatasan dalam penelitian keamanan AI. Meski perusahaan seperti OpenAI dan Anthropic menggandeng lembaga pihak ketiga seperti Apollo Research, transparansi dinilai masih kurang. Mantas Mazeika dari Center for AI Safety menyebut sumber daya akademis dan lembaga nirlaba sangat terbatas dibanding perusahaan raksasa teknologi.
Sementara itu, regulasi yang ada belum siap menghadapi AI dengan potensi “liar” ini. Regulasi AI Uni Eropa masih fokus pada bagaimana manusia menggunakan AI, bukan bagaimana AI bisa bertindak di luar nalar. Di AS, pemerintahan Trump sebelumnya bahkan menunjukkan minat rendah terhadap pengaturan AI, dan Kongres sempat mempertimbangkan larangan bagi negara bagian membuat regulasi sendiri.
Goldstein menekankan bahwa isu ini akan makin krusial seiring meluasnya penggunaan AI agents—alat otonom yang dapat menggantikan peran manusia dalam menyelesaikan tugas-tugas kompleks.
“Saya rasa kesadaran publik masih sangat minim,” ungkapnya.
Ironisnya, perusahaan yang mengklaim fokus pada keamanan, seperti Anthropic yang didukung Amazon, justru berlomba dengan OpenAI untuk merilis model terbaru secepat mungkin. Perlombaan ini membuat evaluasi keselamatan sering kali diabaikan.
“Kemampuan AI berkembang jauh lebih cepat daripada pemahaman dan keamanannya. Tapi kita masih punya waktu untuk membalikkan keadaan,” kata Hobbhahn.
Peneliti kini mengeksplorasi berbagai solusi. Salah satunya adalah bidang baru bernama interpretabilitas, yang bertujuan memahami cara berpikir AI dari dalam. Namun, Dan Hendrycks dari CAIS masih meragukan efektivitas pendekatan ini.
Mazeika menambahkan bahwa pasar bisa menjadi penyeimbang alami. Bila AI makin sering menipu, masyarakat bisa kehilangan kepercayaan dan enggan mengadopsi teknologi ini—hal yang akan merugikan perusahaan teknologi.
Goldstein bahkan menyarankan pendekatan hukum, termasuk kemungkinan meminta pertanggungjawaban hukum kepada agen AI itu sendiri jika menyebabkan kerugian. Konsep ini bisa mengubah total cara dunia memandang dan memperlakukan AI.
AI kini bukan sekadar alat pintar. Ia berkembang menjadi entitas yang mampu menipu, memanipulasi, dan melawan penciptanya. Dunia sedang berhadapan dengan tantangan besar: bagaimana mengendalikan ciptaan yang terus melampaui batas pemahaman manusia. (***)




Leave a Reply