Salah satu perusahaan terkemuka di dunia yang menciptakan produk “deepfake” versi audio, ElevenLabs, kini memiliki kemampuan untuk memalsukan suara dan mengonversinya ke dalam 30 bahasa di dunia. ElevenLabs mengumumkan pencapaian ini beberapa waktu lalu, beserta informasi bahwa kualitas audionya pun makin meningkat.
Menurut ElevenLabs, model Multilingual v2 yang baru diadopsi sangat menjanjikan dapat menghasilkan audio yang “kaya emosi” dalam total 30 bahasa. Perusahaan ini menawarkan dua alat suara AI, model teks-ke-suara dan “VoiceLab” yang memungkinkan pengguna berbayar untuk mengkloning suara dengan memasukkan fragmen pidato mereka (atau orang lain) ke dalam model untuk menciptakan jenis suara yang serupa. Dengan model baru ini, pengguna dapat menghasilkan audio dalam bahasa Yunani, Turki, Melayu, dan bahasa lainnya.
Platform ElevenLabs telah menuai kontroversi setelah diluncurkan tahun lalu, saat pengguna 4Chan menyalahgunakan sistemnya untuk menyamar sebagai selebriti, memaksa mereka untuk mengucapkan skrip yang rasialis, misoginis, dan transphobic. Selain itu, banyak lagi tindakan kontroversi yang muncul akibat penyalahgunaan platform. Sejak saat itu, ElevenLabs mengklaim telah mengintegrasikan langkah-langkah baru untuk memastikan pengguna hanya dapat mengkloning suara mereka sendiri. Pengguna perlu memverifikasi suara mereka dengan teks captcha yang kemudian akan dibandingkan dengan sampel suara asli.
Salah satu pendiri perusahaan, mantan eksekutif Palantir, Mati Staniszewski, mengatakan dalam sebuah rilis, “Pada akhirnya, kami berharap dapat mencakup lebih banyak bahasa dan suara dengan bantuan AI dan menghilangkan hambatan linguistik dalam konten.
Bukan Lagi Versi Beta, ElevenLabs Berusaha Mendorong AI Voices di Media
Selain kemampuan bahasa baru, ElevenLabs juga mengklaim bahwa capaian ini menandai bahwa teknologi AI Voices mereka tidak lagi berada dalam fase beta seiring perusahaan ini semakin dalam menghadirkan teknologi tersebut kepada perusahaan-perusahaan media. Pada bulan Juni, ElevenLabs menerima pendanaan awal (seed funding) sebesar $19 juta dari Andreesen Horowitz yang merupakan tokoh kunci di dunia teknologi, bersama mantan kepala DeepMind yang kini menjadi salah satu pendiri Inflection AI, Mustafa Suleyman.
ElevenLabs mempromosikan teknologi peniru suaranya sebagai cara bagi perusahaan untuk membuat buku audio, video, dan bahkan karakter non-player voice dalam video game. ElevenLabs mengklaim telah menyepakati kerja sama dengan Paradox Interactive, penerbit di balik gim seperti seri Hearts of Iron dan The Lamplighters League. Teknologi peniru suara perusahaan ini telah secara eksplisit disebut oleh pengisi suara gim yang khawatir teknologi ini digunakan untuk menggantikan pekerjaan mereka.
Dalam hal buku, raksasa teknologi seperti Google dan Apple telah mencoba mendorong audiobooks yang dibacakan oleh AI. Aplikasi Apple’s Books mulai menampilkan narator dengan nama-nama yang familiar seperti “Archie” dan “Warren” untuk membacakan beberapa konten. Mereka yang mendengarkan audiobooks mengaku suara-suara ini kurang hidup dibandingkan dengan stok pengisi suara profesional yang nyata karena dapat memperhatikan naik turunnya narasi.
Namun, ElevenLabs menegaskan bahwa suara AI dapat menghemat waktu dan uang bagi perusahaan penerbitan dalam pembuatan buku audio. Dalam sebuah postingan blog, ElevenLabs mengklaim telah bekerja dengan Lukeman Literary, sebuah agen sastra dan perusahaan penerbitan independen kecil, untuk menyempurnakan pemrosesan buku audio. Perusahaan tersebut mengklaim bahwa sebelumnya perlu “berminggu-minggu” bagi agen untuk menghasilkan satu buku audio, tetapi dengan AI, menjadi beberapa jam saja.
Lukeman Literary telah membantu menerbitkan buku-buku oleh tokoh-tokoh terkenal seperti Rutger Hauer dan Dalai Lama bersama karya-karya fiksi lainnya.
Meskipun mengatakan bahwa suara AI akhirnya cukup baik untuk sekarang, Lukeman setuju bahwa AI “pasti akan menimbulkan tantangan” bagi pengisi suara, tetapi juga memberikan optimisme bahwa “sebagian” penulis dan penerbit masih akan menginginkan audiobook yang dibacakan oleh manusia sungguhan.