Teks, gambar, dan kini audio—AI generatif kini makin mempertajam kemampuannya di berbagai format media. Yang paling baru adalah Stability AI yang merilis produk Stable Audio yang bisa menghasilkan audio berkualitas tinggi hanya dengan memberikan instruksi atau prompt.
Stability AI adalah perusahaan riset dan pengembangan kecerdasan buatan (AI) yang didirikan pada tahun 2020 oleh Emad Mostaque. Perusahaan ini berfokus pada pengembangan teknologi AI open-source yang dapat diakses dan terjangkau oleh semua orang.
Stability AI paling dikenal dengan produk AI-nya, Stable Diffusion, model difusi teks-ke-gambar yang dapat menghasilkan gambar berkualitas tinggi dari deskripsi teks—kini salah satu AI Image Generator paling populer di dunia.
Beberapa hal yang perlu digarisbawahi atas kemunculan Stable Audio dari Stability AI ini adalah:
🔊Dapat memandu pengguna untuk membuat musik atau audio yang enak didengar, seperti suara musik klasik yang dipadukan suara tetesan hujan menyapu jendela.
🔊 Dapat menghasilkan audio dan musik dengan berbagai genre.
🔊 Audio atau musik yang dihasilkan dapat digunakan untuk tujuan personal maupun komersial.
Menariknya, pengguna diberikan kesempatan untuk mencoba fitur Stable Audio secara cuma-cuma. Versi gratisnya memungkinan pengguna menghasilkan 20 trek hingga 45 detik untuk penggunaan personal atau non-komersial.
Stable Audio bekerja dengan cara terlebih dahulu mengubah deskripsi teks menjadi representasi laten. Representasi laten ini kemudian diteruskan melalui model difusi, yang secara bertahap menyempurnakannya menjadi gelombang audio. Model ini dilatih pada kumpulan data rekaman audio yang sangat besar, yang memberinya kemampuan untuk menghasilkan berbagai macam suara, termasuk musik, efek suara, dan latar bising.