Temukembali Informasi Dengan Cosine TFIDF


selamat siang sahat bloger pada siang ini saya ingin berbagi perhitungan Cosine TDIDF dengan bahasa pemrograman PHP, Cosine Similarity. Langkah-langkah praktis menghitung kemiripan antara suatu Query (Q) dengan daftar dokumen (dengan semua dokumen). Kemudian dilakukan pengurutan dan dikembalikan kepada pengguna. Contoh ini memperlihatkan perhitungan kemiripan menggunakan cosine similaity.  Peringkasan teks otomatis (automatic text summarization) adalah pembuatan bentuk yang lebih singkat dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan dan dioperasikan pada komputer. Sedangkan menurut Hovy, ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan teks otomatis (automatic text summarization) dengan menggunakan berbagai macam metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang digunakan dalam summarization ini, seperti teknik pendekatan statistika yaitu teknik word frequency (Luhn, 1958), position in text (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997). Teknik pendekatan dengannatural language analysis yaitu inverse term frequency and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal relevance (Cabonell dan Goldstein, 1998).

Metode TF-IDF
            Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata ( term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya klaimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2005). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen ( IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen ( Grossman, 1998) . 
Nilai IDF sebuah term dihitung menggunakan persamaan di bawah:


Menghitung bobot(W) masing-masing dokumen dengan persamaan di bawah:





Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis.

berikut contoh perhitungan cosine tfidf di php:







setelah di proses dengan metode diatas maka hasil seperti berikut :
contoh dokumen uji coba dapat di unduh disini
demo program dapat dilihat disini
jika berminat dengan program diatas silahkan hubungi :
WA : 0852 3556 9064

5 Responses to "Temukembali Informasi Dengan Cosine TFIDF"

  1. Cara dapetin source code nya gimana kang?

    ReplyDelete
  2. tolong di update linknya lagi gan untuk demonya

    ReplyDelete
    Replies
    1. untuk fasrespon hubungan nomor di atas gan (Telp/WA) 0852 3556 9064

      Delete
  3. untuk lebih jelasnya hubungan nomor di atas gan

    ReplyDelete