Siri dari Apple, Google Translate, dan teknologi bahasa lainnya telah lama menjadi suaka orang-orang yang berbicara bahasa Inggris atau bahasa mayoritas lainnya. Jika Anda berbicara bahasa Wales, Faroe, atau Galisia, teknologi hanya sedikit fungsinya atau tidak ada gunanya sama sekali. Ahli bahasa dari Universitas Kopenhagen sekarang menunjukkan bahwa mereka dapat menghasilkan teknologi bahasa -- berdasarkan ayat-ayat Alkitab dan artikel Wikipedia -- hingga 100 bahasa minoritas dan mayoritas pada saat yang sama.
Jika Anda berbicara bahasa Inggris atau bahasa mayoritas lainnya, Anda dapat berbicara dengan ponsel Anda, menggunakan mesin pencari, dan mendapatkan sistem terjemahan mesin untuk menerjemahkan untuk Anda. Ini dimungkinkan karena bahasa Inggris merupakan bahasa yang sangat besar dengan sejumlah besar sumber daya yang digunakan oleh para ahli bahasa untuk mengembangkan teknologi bahasa. Orang-orang yang berbicara bahasa Faroe, Wales, atau Galisia menjadi kelompok orang yang kurang beruntung.
"Ketika kami mengembangkan sistem penerjemahan mesin dan mesin pencarian, kami biasanya memberi asupan sejumlah besar teks yang beranotasi secara manual, yang berisi informasi tentang fungsi dan makna kata secara individu ke dalam komputer. Untuk alasan historis, teks-teks ini terutama adalah berbagai artikel surat kabar dalam bahasa Inggris dan bahasa mayoritas lainnya. Kami tidak memiliki akses ke teks yang diberi keterangan serupa dalam bahasa yang lebih minor seperti bahasa Faroe, Wales, Galisia, dan Irlandia, atau bahkan bahasa Afrika utama seperti Yoruba yang dituturkan oleh 28 juta orang," kata Profesor Anders Søgaard dari Universitas Kopenhagen.
Anders Søgaard dan rekan-rekannya dari proyek LOWLANDS: Parsing Low-Resource Languages and Domains (Menguraikan Bahasa dan Domain Bersumber Daya Rendah) menggunakan teks yang beranotasi untuk bahasa mayoritas guna mengembangkan teknologi bahasa untuk bahasa yang lebih minor, yang kuncinya adalah menemukan teks yang diterjemahkan sehingga para peneliti dapat mentransfer pengetahuan tentang tata bahasa dari satu bahasa ke bahasa lain:
"Alkitab telah diterjemahkan ke dalam lebih dari 1.500 bahasa, bahkan ke dalam bahasa-bahasa yang paling minor dan paling 'eksotis', dan terjemahannya sangat konservatif/kuno; ayat-ayatnya memiliki struktur yang sepenuhnya seragam dalam banyak bahasa yang berbeda, yang berarti bahwa kita dapat membuat model komputer yang sesuai, bahkan untuk bahasa-bahasa yang sangat minor yang untuknya kita hanya memiliki beberapa ratus halaman teks alkitab," kata Anders Søgaard sembari menguraikan:
"Kami mengajarkan kepada mesin-mesin untuk mendaftarkan apa yang diterjemahkan dengan apa yang ada dalam terjemahan yang berbeda dari teks alkitabiah, yang memungkinkan untuk menemukan begitu banyak persamaan antara teks yang beranotasi dan yang tidak beranotasi sehingga kami dapat menghasilkan model komputer yang tepat dari 100 bahasa yang berbeda -- bahasa seperti Swahili, Wolof, dan Xhosa yang diucapkan di Nigeria. Selain itu, kami telah membuat model ini tersedia untuk pengembang dan peneliti lain. Ini berarti bahwa kita akan dapat mengembangkan sumber daya teknologi bahasa untuk bahasa-bahasa yang mirip dengan yang digunakan oleh penutur bahasa, seperti bahasa Inggris dan Perancis."
Anders Søgaard dan rekan-rekannya baru-baru ini mempresentasikan temuan mereka dalam artikel If All You Have is A Bit of The Bible dalam konferensi bergengsi Annual Meeting of the Association of Computational Linguistics (Pertemuan Tahunan Asosiasi Linguistik Komputasional).
Wikipedia sebagai kamus universal.
Ensiklopedia daring yang digerakkan oleh pengguna, Wikipedia, juga telah terbukti menjadi sumber yang sangat berguna bagi para peneliti yang menggunakan teksnya untuk mengembangkan sumber daya bahasa untuk bahasa-bahasa yang penuturnya tidak memiliki akses kepada teknologi-teknologi bahasa baru. Wikipedia memuat lebih dari 35 juta artikel, tetapi faktanya sebanyak 129 bahasa diwakili oleh lebih dari 10.000 artikel yang masing-masing menarik menurut para peneliti karena banyak artikel berkenaan dengan konsep dan topik yang sama.
"Ini memungkinkan kami untuk melakukan apa yang kami sebut 'pengindeksan terbalik' yang berarti bahwa kami menggunakan konsep yang juga dijelaskan oleh artikel-artikel Wikipedia mengenai kata-kata yang digunakan dalam artikel terkait konsep tersebut dalam bahasa yang berbeda. Kami biasanya menggunakan kata-kata untuk mendeskripsikan konsep, tetapi di sini, kami melakukannya dengan urutan terbalik," jelas Anders Søgaard, yang kemudian melanjutkan:
"Jika kata bahasa Inggris 'kacamata' muncul dalam entri Wikipedia bahasa Inggris tentang Harry Potter, dan kata dari bahasa Jerman 'Brille' digunakan dalam entri Jerman yang setara, sangat mungkin bahwa dua kata tersebut akan diwakili dengan cara yang sama pada model-model kami yang membentuk dasar untuk, misalnya, sistem terjemahan mesin. Ditambah lagi, keuntungan dari model ini adalah bahwa itu dapat diterapkan ke dalam 100 bahasa yang berbeda pada saat yang sama, termasuk banyak bahasa yang sebelumnya telah ditolak sumber daya teknologi bahasa yang kami gunakan setiap hari."
Metode ini dijelaskan dalam artikel Pengindeksan Terbalik untuk NLP Lintas Bahasa yang ditulis oleh Anders Søgaard bersama dengan para peneliti dari Google London. Artikel itu juga dipresentasikan pada Pertemuan Tahunan Asosiasi Linguistik Komputasional. (t/N. Risanti)
Diterjemahkan dari: | ||
Nama situs | : | Universitas Kopenhagen |
URL | : | https://humanities.ku.dk/news/2015. |
Judul asli artikel | : | Linguists use the Bible to develop language technology for small languages |
Penulis artikel | : | Tidak dicantumkan |
Tanggal akses | : | 02 Agustus 2018 |
- Log in to post comments