Skor BLEU adalah metrik yang banyak digunakan untuk mengevaluasi kinerja model terjemahan mesin. Ini mengukur kesamaan antara terjemahan yang dihasilkan mesin dan satu atau lebih terjemahan referensi. Dalam konteks model terjemahan khusus yang dilatih dengan Terjemahan AutoML, skor BLEU dapat memberikan wawasan yang berharga tentang kualitas dan keefektifan keluaran model.
Untuk memahami bagaimana skor BLEU digunakan, penting untuk terlebih dahulu memahami konsep yang mendasarinya. BLEU adalah singkatan dari Bilingual Evaluation Understudy, dan ini dikembangkan sebagai cara untuk mengevaluasi kualitas terjemahan mesin secara otomatis dengan membandingkannya dengan terjemahan referensi buatan manusia. Skor berkisar dari 0 hingga 1, dengan skor yang lebih tinggi menunjukkan terjemahan yang lebih baik.
Terjemahan AutoML adalah alat canggih yang ditawarkan oleh Google Cloud AI Platform yang memungkinkan pengguna untuk melatih model terjemahan khusus menggunakan data mereka sendiri. Setelah model dilatih, model tersebut dapat digunakan untuk menghasilkan terjemahan untuk teks input baru. Skor BLEU kemudian dapat digunakan untuk menilai kualitas terjemahan ini.
Untuk menghitung skor BLEU, terjemahan yang dihasilkan model dibandingkan dengan satu atau lebih terjemahan referensi. Perbandingan didasarkan pada n-gram, yang merupakan urutan n kata yang berdekatan. Skor BLEU memperhitungkan tidak hanya ketepatan n-gram dalam terjemahan yang dihasilkan model tetapi juga keberadaannya dalam terjemahan referensi. Ini membantu menangkap kecukupan dan kelancaran terjemahan.
Mari kita ilustrasikan ini dengan sebuah contoh. Misalkan kita memiliki terjemahan referensi: "Kucing sedang duduk di atas tikar." Dan model tersebut menghasilkan terjemahan berikut: "Kucing itu duduk di atas tikar." Kita dapat memecah kalimat ini menjadi n-gram:
Referensi: ["The", "cat", "is", "sitting", "on", "the", "mat"] Model: ["The", "cat", "sits", "on", "itu", "tikar"]
Dalam hal ini, model menerjemahkan sebagian besar n-gram dengan benar, tetapi melewatkan bentuk kata kerja ("adalah" vs. "duduk"). Skor BLEU akan mencerminkan hal ini dengan memberikan skor yang lebih rendah pada terjemahan.
Skor BLEU dapat dihitung menggunakan berbagai metode, seperti presisi yang dimodifikasi dan pinalti singkat. Ketepatan yang dimodifikasi memperhitungkan fakta bahwa terjemahan dapat berisi banyak kemunculan n-gram, sedangkan hukuman singkat menghukum terjemahan yang secara signifikan lebih pendek daripada terjemahan referensi.
Dengan mengevaluasi skor BLEU dari model terjemahan khusus yang dilatih dengan Terjemahan AutoML, pengguna dapat memperoleh wawasan tentang kinerja model dan mengidentifikasi area yang perlu ditingkatkan. Mereka dapat membandingkan skor BLEU dari berbagai model atau iterasi untuk melacak kemajuan dan membuat keputusan berdasarkan informasi tentang pemilihan model atau penyempurnaan.
Skor BLEU adalah metrik berharga untuk mengevaluasi performa model terjemahan khusus yang dilatih dengan AutoML Translation. Ini memberikan ukuran kuantitatif kualitas terjemahan yang dihasilkan mesin dengan membandingkannya dengan terjemahan referensi. Dengan menganalisis skor BLEU, pengguna dapat menilai keefektifan model mereka dan membuat keputusan berdasarkan data untuk meningkatkan kualitas terjemahan.
Pertanyaan dan jawaban terbaru lainnya tentang Terjemahan AutoML:
- Apa saja langkah-langkah yang terlibat dalam membuat model terjemahan khusus dengan Terjemahan AutoML?
- Bagaimana Terjemahan AutoML menjembatani kesenjangan antara tugas terjemahan umum dan kosakata khusus?
- Apa peran Terjemahan AutoML dalam membuat model terjemahan khusus untuk domain tertentu?
- Bagaimana model terjemahan khusus dapat bermanfaat untuk terminologi dan konsep khusus dalam pembelajaran mesin dan AI?