TensorFlow Keras Tokenizer API memungkinkan tokenisasi data teks yang efisien, sebuah langkah penting dalam tugas Natural Language Processing (NLP). Saat mengonfigurasi instance Tokenizer di TensorFlow Keras, salah satu parameter yang dapat disetel adalah parameter `num_words`, yang menentukan jumlah maksimum kata yang akan disimpan berdasarkan frekuensi kata. Parameter ini digunakan untuk mengontrol ukuran kosakata dengan hanya mempertimbangkan kata yang paling sering muncul hingga batas yang ditentukan.
Parameter `num_words` adalah argumen opsional yang dapat diteruskan saat menginisialisasi objek Tokenizer. Dengan mengatur parameter ini ke nilai tertentu, Tokenizer hanya akan mempertimbangkan `num_words – 1` kata teratas yang paling sering muncul dalam kumpulan data, dan kata-kata lainnya akan diperlakukan sebagai token di luar kosakata. Hal ini sangat berguna ketika menangani kumpulan data yang besar atau ketika kendala memori menjadi perhatian, karena membatasi ukuran kosakata dapat membantu mengurangi jejak memori model.
Penting untuk dicatat bahwa parameter `num_words` tidak mempengaruhi proses tokenisasi itu sendiri melainkan menentukan ukuran kosakata yang akan digunakan oleh Tokenizer. Kata-kata yang tidak termasuk dalam kosakata karena batas `num_words` akan dipetakan ke `oov_token` yang ditentukan selama inisialisasi Tokenizer.
Dalam praktiknya, menyetel parameter `num_words` dapat membantu meningkatkan efisiensi model dengan berfokus pada kata-kata yang paling relevan dalam kumpulan data sambil membuang kata-kata yang jarang digunakan yang mungkin tidak memberikan kontribusi signifikan terhadap performa model. Namun, penting untuk memilih nilai yang sesuai untuk `num_words` berdasarkan kumpulan data spesifik dan tugas yang ada untuk menghindari kehilangan informasi penting.
Berikut ini contoh bagaimana parameter `num_words` dapat digunakan di TensorFlow Keras Tokenizer API:
python from tensorflow.keras.preprocessing.text import Tokenizer # Initialize a Tokenizer object with a maximum of 1000 words tokenizer = Tokenizer(num_words=1000) # Fit the Tokenizer on some text data texts = ['sample text data for tokenization'] tokenizer.fit_on_texts(texts) # Convert text to sequences using the Tokenizer sequences = tokenizer.texts_to_sequences(texts) print(sequences)
Pada contoh di atas, Tokenizer diinisialisasi dengan `num_words=1000`, sehingga membatasi ukuran kosakata hingga 1000 kata. Tokenizer kemudian disesuaikan dengan data teks sampel, dan teks tersebut diubah menjadi urutan menggunakan Tokenizer.
Parameter `num_words` di TensorFlow Keras Tokenizer API memungkinkan untuk mengontrol ukuran kosakata dengan menentukan jumlah maksimum kata yang akan dipertimbangkan berdasarkan frekuensinya dalam kumpulan data. Dengan menetapkan nilai yang sesuai untuk `num_words`, pengguna dapat mengoptimalkan performa model dan efisiensi memori dalam tugas NLP.
Pertanyaan dan jawaban terbaru lainnya tentang Dasar-dasar TensorFlow EITC/AI/TFF:
- Bagaimana cara menggunakan lapisan penyematan untuk secara otomatis menetapkan sumbu yang tepat untuk plot representasi kata sebagai vektor?
- Apa tujuan pengumpulan maksimal di CNN?
- Bagaimana proses ekstraksi fitur dalam jaringan saraf konvolusional (CNN) diterapkan pada pengenalan gambar?
- Apakah fungsi pembelajaran asinkron perlu digunakan untuk model pembelajaran mesin yang berjalan di TensorFlow.js?
- Bisakah TensorFlow Keras Tokenizer API digunakan untuk menemukan kata yang paling sering digunakan?
- Apa itu TOCO?
- Apa hubungan antara jumlah epoch dalam model pembelajaran mesin dan keakuratan prediksi dari menjalankan model?
- Apakah API paket tetangga di Neural Structured Learning TensorFlow menghasilkan kumpulan data pelatihan tambahan berdasarkan data grafik alami?
- Apa yang dimaksud dengan API paket tetangga di Neural Structured Learning TensorFlow?
- Bisakah Neural Structured Learning digunakan dengan data yang tidak memiliki grafik alami?
Lihat lebih banyak pertanyaan dan jawaban di EITC/AI/TFF TensorFlow Fundamentals