AI adalah "the next disruption" dan sekarang sedang terjadi

Written by 12:45 AM AI News

Meta Rilis SeamlessM4T, AI Penerjemah Multibahasa

Meta merilis model terjemahan ucapan baru yang dapat menerjemahkan hampir 100 bahasa yang disebut SeamlessM4T, sebagai bagian dari upaya untuk membuat penerjemah universal berbasis AI.

SeamlessM4T, yang merupakan singkatan dari Massively Multilingual and Multimodal Machine Translation, diklaim oleh Meta dapat menerjemahkan teks-ke-teks, teks-ke-ucapan, ucapan-ke-teks, dan ucapan-ke-ucapan ke dalam hampir 100 bahasa.

Model AI ini dirilis di bawah lisensi Creative Commons CC BY-NC 4.0, memungkinkan para peneliti untuk mengembangkannya lebih lanjut. Bersama dengan SeamlessM4T, Meta juga merilis metadata untuk dataset terjemahan terbuka bernama SeamlessAlign.

“Membangun penerjemah bahasa universal, seperti Babel Fish fiktif dalam The Hitchhiker’s Guide to the Galaxy, adalah tantangan karena sistem dari ucapan-ke-ucapan dan dari ucapan-ke-teks yang ada hanya mencakup sebagian kecil dari bahasa di dunia,” jelas Meta.

Babel Fish dalam The Hitchhiker’s Guide, seperti yang dikonsepsikan oleh penulis Douglas Adams, adalah ikan yang bisa diletakkan di telinga yang seketika dapat memahami bahasa apa pun. Jika kamu penggemar Doctor Who, kamu bisa membandingkan alat Meta dengan matriks terjemahan di TARDIS yang bahkan dapat mengubah kata-kata alien menjadi bahasa Inggris.

Meta mengatakan SeamlessM4T adalah “terobosan signifikan” karena model AI baru ini menyelesaikan seluruh tugas terjemahan dalam satu kali proses, berbeda dengan model terjemahan besar lainnya yang membagi terjemahan di berbagai sistem.

Salah satu fitur menarik dari SeamlessM4T, jika dapat berfungsi dengan benar, adalah kemampuannya untuk mengenali saat pembicara melakukan code-switching atau ketika seseorang berpindah antara dua atau lebih bahasa dalam satu kalimat. Misalnya, Meta menunjukkan dalam sebuah video bahwa model ini dengan cepat membedakan antara bahasa Hindi, Telugu, dan Inggris.

SeamlessM4T dibangun di atas model terjemahan sebelumnya dari Meta. Tahun lalu, Meta merilis model terjemahan teks-ke-teks No Language Left Behind, yang mendukung 200 bahasa. Meta mengembangkan SpeechMatrix, dataset untuk terjemahan ucapan-ke-ucapan multibahasa dan Massively Multilingual Speech untuk pengenalan ucapan. Meta juga memamerkan Universal Speech Translator-nya tahun lalu, mengubah ucapan Hokkien, bahasa yang banyak digunakan di Tiongkok dan tidak memiliki sistem tulisan resmi, menjadi bahasa Inggris.

Terjemahan bahasa penting bagi perusahaan seperti Meta, yang mempekerjakan ribuan orang untuk memoderasi banjir postingan di Facebook dan Instagram dalam berbagai bahasa. Sering kali, bahasa non-utama memiliki tim yang lebih kecil dan cenderung mengandalkan moderasi otomatis yang hasilnya buruk. AI, jika diberi akses ke dataset bahasa-bahasa kecil ini, dapat menjadi alat sempurna bagi perusahaan seperti Meta untuk meningkatkan moderasi.

Untuk membangun SeamlessM4T, Meta mengatakan bahwa mereka merancang ulang toolkit pemodelan urutan Fairseq untuk menciptakan model yang lebih ringan dan dapat meng-handle lebih banyak informasi.

Dalam mengembangkan SeamlessM4T, Meta membangun sistem yang dapat mengidentifikasi kata-kata toxic atau sensitif. Meta mendefinisikan kata-kata toxic sebagai situasi di mana “terjemahan dapat memprovokasi kebencian, kekerasan, kata-kata kasar, atau penyalahgunaan.” Tujuannya adalah untuk dapat mendeteksi apakah terjemahan output memperkenalkan kata-kata toxic yang tidak ada dalam materi bawaan.

“Kami menyaring toksisitas yang tidak seimbang dalam data pelatihan. Jika input atau output mengandung jumlah toksisitas yang berbeda, kami menghapus urutan pelatihan tersebut,” jelas Meta.

Para peneliti juga mencoba membersihkan dataset yang salah menerjemahkan beberapa kata kasar sehingga lebih akurat mendeteksi penggunaannya. Sebagaimana diketahui, Meta telah merilis banyak model AI-nya kepada pengembang dan peneliti dengan cara membuatnya jadi open source atau berbasis sumber terbuka.

Visited 1 times, 1 visit(s) today
Baca tulisan terbaru langsung di email kamu!
Close Search Window
Close