Studi terbaru yang dilakukan oleh para investigator dari Mass General Brigham menemukan bahwa ChatGPT memiliki akurasi sekitar 72% dalam pengambilan keputusan klinis secara keseluruhan, mulai dari menyusun kemungkinan diagnosis hingga membuat diagnosis akhir dan keputusan manajemen perawatan. Chatbot kecerdasan buatan dengan model bahasa besar (large language model) ini tampil mengesankan saat digunakan dalam rangkaian kegiatan medis. Hasil studi ini diterbitkan dalam Journal of Medical Internet Research.
“Studi kami secara komprehensif menilai dukungan keputusan melalui ChatGPT dari awal bekerja dengan pasien hingga skenario perawatan lengkap, mulai dari diagnosis diferensial hingga pengujian, diagnosis, dan manajemen,” kata penulis koresponden Marc Succi, MD, associate chair of innovation and commercialization dan strategic innovation leader di Mass General Brigham, yang juga adalah executive director MESH Incubator.
“Tidak ada patokan mutlak, tetapi kami memperkirakan kemampuannya setara dengan seseorang yang baru saja lulus dari sekolah kedokteran. Dari sini kita bisa melihat bahwa model bahasa besar atau LLM memiliki potensi untuk jadi alat pelengkap dalam praktik kedokteran dan mendukung pengambilan keputusan klinis dengan akurasi yang mengesankan.”
Perubahan dalam teknologi kecerdasan buatan terjadi dengan cepat dan mengubah banyak industri, termasuk dunia keperawatan dan kesehatan. Namun, kapasitas model bahasa besar untuk membantu dalam cakupan perawatan klinis belum diteliti secara mendalam. Dalam studi komprehensif dan lintas spesialisasi mengenai bagaimana model bahasa besar dapat digunakan dalam penasehatan dan pengambilan keputusan klinis, Marc Succi dan timnya menguji hipotesis bahwa ChatGPT akan mampu bekerja melalui seluruh pertemuan klinis dengan pasien dan merekomendasikan pemeriksaan diagnostik, menentukan kursus manajemen klinis, dan pada akhirnya membuat diagnosis akhir.
Studi ini dilakukan dengan cara mengunggah berbagai urutan dari 36 cuplikan klinis standar yang dimasukkan ke dalam ChatGPT. Pertama-tama, ChatGPT diminta untuk membuat satu set kemungkinan diagnosis, atau diferensial, berdasarkan informasi awal pasien, termasuk usia, jenis kelamin, gejala, dan apakah kasus tersebut darurat. ChatGPT kemudian diberikan informasi tambahan dan diminta untuk membuat keputusan manajemen serta memberikan diagnosis akhir, layaknya seorang dokter menangani pasien sungguhan. Selanjutnya, hasil diagnosis dari ChatGPT akan dibandingkan dengan diagnosis yang dilakukan dokter sungguhan dengan informasi yang sama.
Para peneliti menemukan bahwa secara keseluruhan, ChatGPT memiliki akurasi sekitar 72% dan sangat dalam membuat diagnosis akhir, di mana akurasinya mencapai 77%. Kinerja terendahnya adalah dalam membuat diagnosis diferensial, di mana akurasinya hanya 60%, dan 68% dalam keputusan manajemen klinisβseperti menentukan obat-obatan untuk merawat pasien setelah berhasil mendiagnosis dengan benar.
“ChatGPT mengalami sedikit kesulitan dalam diagnosis diferensial, yang merupakan inti dari kedokteran ketika seorang dokter harus mencari tahu apa yang harus dilakukan,” kata Marc Succi. “Hal ini penting karena memberi tahu kita bahwa dokter benar-benar dibutuhkan keahliannyaβterutama pada tahap awal perawatan pasien dengan informasi yang minim, tetapi diperlukan tindakan diagnosis awal.”
Sebelum kemunculan ChatGPT, para peneliti perlu melakukan penelitian benchmark dan panduan regulasi lebih lanjut dalam mempertimbangkan integrasi dalam perawatan klinis. Kini, tim peneliti ini sedang mencari alat berbasis AI lain yang dapat meningkatkan keberhasilan perawatan dan pengobatan pasien dengan sumber daya terbatas di rumah sakit.
Kemunculan alat kecerdasan buatan dalam bidang kesehatan telah menghasilkan terobosan dan memiliki potensi untuk secara positif membentuk kembali kontinum perawatan. Ke depannya, diharapkan akan lebih banyak teknologi serupa yang lebih canggih sehingga membuat peluang kehidupan manusia lebih besar dari sebelumnya.