Automatic Text Summarization

Posted by belajar


Pengertian Automatic Text Summarization
            Peringkasan teks otomatis (automatic text summarization) adalah pembuatan bentuk yang lebih singkat dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan dan dioperasikan pada komputer. Sedangkan menurut Hovy, ringkasan adalah teks yang dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy, 2001). Penelitian mengenai peringkasan teks otomatis (automatic text summarization) dengan menggunakan berbagai macam metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang digunakan dalam summarization ini, seperti teknik pendekatan statistika yaitu teknik word frequency (Luhn, 1958), position in text (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997). Teknik pendekatan dengan natural language analysis yaitu inverse term frequency and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal relevance (Cabonell dan Goldstein, 1998).

Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language generation yang merupakan bahasan yang dikembangkan tersendiri.
Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi-document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan.
Suatu ringkasan dapat bersifat general, yaitu ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil untuk ringkasan berdasar pada querymasukan yang didefinisikan pengguna sistem. Queryoriented atau user-oriented summarization mencoba mengambil informasi yang relevan dengan query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat memiliki sifat indicative, informative, atau evaluative. Ringkasan informativeberfungsi menyajikan informasi utama atau yang paling penting dari teks sumber. Ringkasan indicative memberikan saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks. Sedangkan ringkasan evaluative memberi komentar atau evaluasi terhadap informasi utama pada teks sumber.
Compression rate pada proses peringkasan akan menentukan panjang ringkasan yang dihasilkan. Biasanya diukur berdasarkan persentase dari teks sumber, misalnya ringkasan sepanjang 10%, 25%, atau 50% dari teks sumber. Selain itu dapat pula diukur berdasarkan jumlah kata, misalnya ditentukan ringkasan sepanjang 100 kata. Biasanya, panjang ringkasan tidak lebih dari setengah teks sumber. Gambar dibawah ini memperlihatkan arsitektur tingkat tinggi peringkasan teks otomatis. Masukan berupa teks dengan berbagai karakteristik dan keluaran berupa ringkasan ekstraksi maupun abstraksi.

METODE - METODE AUTOMATIC TEXT SUMMARIZATION


Di bawah ini akan di jelaskan mengenai metode-metode yang di gunakan pada Text Summarization.

Ranked Positional Weight
            Lokasi tertentu pada teks seperti heading, judul, dan paragraf pertama cenderung mengandung informasi penting. Metode sederhana dengan mengambil paragraf pertama (lead) sebagai ringkasan biasanya cukup bagus terutama pada artikel berita. Ranked Positional Weight adalah metode yang  diusulkan oleh Helgeson dan Birnie sebagai  pendekatan untuk memecahkan permasalahan pada  keseimbangan lini dan menemukan solusi dengan cepat. Konsep dari metode ini adalah menentukan jumlah stasiun kerja minimal dan melakukan pembagian  task ke dalam stasiun kerja dengan cara memberikan bobot posisi kepada setiap task sehingga semua  task telah ditempatkan kepada sebuah stasiun kerja. Bobot setiap task, misal task ke-i dihitung sebagai waktu yang dibutuhkan untuk melakukan  task ke-i ditambah dengan waktu untuk mengeksekusi semua  task yang akan dijalankan setelah task ke-i tersebut. Urutan langkah-langkah pada metode  Ranked Positional Weight adalah sebagai berikut:

  • Lakukan penghitungan bobot posisi untuk setiap task. Bobot posisi setiap task dihitung dari bobot suatu  task ditambah dengan bobot  task-tasksetelahnya. 
  • Lakukan pengurutan task-task berdasarkan bobot posisi, yaitu dari bobot posisi besar ke bobot posisi kecil. 
  • Tempatkan task dengan bobot terbesar ke sebuah stasiun kerja sepanjang tidak melanggar precedence constraint dan waktu stasiun kerja tidak melebihi waktu siklus.
  • Lakukan langkah 3 hingga semua  task telah ditempatkan kepada suatu stasiun kerja. 



Cue phrase indicator criteria
            Pada beberapa genre teks, kata dan frasa tertentu dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat tersebut. Daftar cue phrase beserta (positif dan negatif) ‘goodness score’ biasanya dibangun manual.

Word and phrase frequency criteria
            Secara umum feature yang digunakan untuk mewakili dokumen dalam model raung vector adalah kata. Hal ini karena ekstraksi kata dari dokumen relatif mudah, yaitu hanya mendeteksi deretan karakter yang diakhiri dengan spasi. Jika dirancang bahwa angka tidak merupakan bagian dari kata maka dalam bahasa Indonesia karakter khusus yang mewakili kata hanya tanda hypen (“-“), yang menunjukkan kata ulang, selainnya adalah karakter abjad. Penelitian untuk teks bahasa inggris yang melibatkan frasa menunjukkan bahwa melibatkan frasa dalam feature dapat meningkatkna kinerja clustering. Penelitian tentang deteksi dan ekstraksi frasa dalam bahasa Inggris juga telah cukup banyak dilakukan. Metode seleksi beragam mulai dengan pendekatan statistik sampai pendekatan natural language processing (NLP). Untuk kasus bahasa Indonesia penelitian di bidang ini masih sangat minim. Dengan latar belakang itu dalam penelitian ini frasa didefinisikan sebagai dua kata yang saling berdekatan yang memiliki makna tertentu yang bisa berbeda dengan makna kata-kata tunggalnya, misalnya “kambing hitam”. Teknik ekstraksi kata ditempuh dengan cara sederhana yaitu melakukan penghitungan frekuensi kemunculan dari pasangan dua kata. Selanjutnya seperti pada kata setelah dibatasi frekuensi minimal kemunculan, analisis variansi frekuensi dilakukan untuk melakukan seleksi. sebagai persamaan berikut:


dengan qi adalah variansi jika frekuensi minimal kata/frasa muncul dalam analisis adalah I (i=0,1,2,...).
            Luhn memakai distribusi kata Zipf’s law untuk mengembangkan kriteria ekstraksi: jika sebuah teks mengandung beberapa kata yang biasanya jarang muncul, maka kalimatkalimat yang mengandung kata-kata tersebut mungkin penting.

Query and title overlap criteria
            Metoda sederhana tapi berguna adalah dengan memberi skor pada kalimat-kalimat sesuai jumlah kata-kata yang juga muncul pada judul, heading, atau query.

 Cohesive or lexical connectedness criteria
            Kohesi leksikal, yaitu efek kohesif yang dicapai melalui pemilihan kosakata.
            Kedua, berdasarkan asal hubungannya, kohesi diklasifikasi lebih jauh berdasarkan tiga hal, yaitu.
  1. Keterkaitan bentuk yang meliputi substitusi, elipsis, dan kolokasi leksikal;
  2. Keterkaitan referensi yang meliputi referensi dan reiterasi leksikal;
  3. Hubungan semantik yang diperantai oleh konjungsi.
       Menurut Untung Yuwono dalam bukunya yang berjudul Pesona Bahasa menyatakan bahwa kohesi tidak datang dengan sendirinya, tetapi diciptakan secara formal oleh alat bahasa yang disebut pemarkah kohesi, misalnya kata ganti, kata tunjuk, kata sambung, dan kata yang diulang. Pemarkah kohesi yang digunakan secara tepat menghasilkan kohesi leksikal dan kohesi gramatikal. Kohesi leksikal adalah hubungan semantis antarunsur pembentuk wacana dengan memanfaatkan unsur leksikal atau kata yang dapat diwujudkan dengan reiterasi dan kolokasi. Reiterasi adalah pengulangan kata-kata pada kalimat berikutnya untuk memberikan penekanan bahwa kata-kata tersebut merupakan fokus pembicaraan. Reiterasi dapat berupa repetisi, sinonimi, hiponimi, metonimi, dan antonimi. Sedangkan kolokasi adalah hubungan antarkata yang berada pada lingkungan atau bidang yang sama. Contohnya, [petani] di Lampung terancam gagal memanen [padi]. [sawah] yang mereka garap terendam banjir selama dua hari. Sedangkan kohesi gramatikal adalah hubungan semantis antarunsur yang dimarkahi alat gramatikal, yaitu alat bahasa yang digunakan dalam kaitannya dengan tata bahasa. Kohesi gramatikal dapat berwujud referensi, substitusi, elipsis, dan konjungsi.
            Kata-kata dapat dihubungkan dengan berbagai cara, meliputi repetisi, coreference, sinonim, dan asosiasi semantik pada thesauri. Kalimat dan paragraf dapat diberi skor berdasarkan derajat keterhubungan kata-katanya; semakin terkoneksi diasumsikan semakin penting.

Discourse structure criteria
            pembuatan struktur discourse teks dan memberi skor kalimat berdasarkan wacana sentralitas.

3.7       Peringkasan Teks Otomatis Berbasis Graf
            Metode berbasis graf tergolong baru dalam peringkasan teks otomatis. Metode ini memodelkan teks ke dalam bentuk graf dengan menjadikan unit-unit teks sebagai vertex dan menambahkan edges pada graf berdasarkan hubungan bermakna antar unit teks yang dijadikan vertex, kemudian menentukan tingkat pentingnya setiap vertex berdasarkan struktur graf keseluruhan.
            Konsep perankingan halaman web dengan pagerank yang telah dijelaskan akan diterapkan terhadap graf pada domain lain, yaitu graf tekstual. Graf tekstual adalah graf yang dibangun dari teks. Serupa dengan tujuan PageRank untuk melakukan perankingan halaman-halaman web, penerapan perankingan graf tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari hasil perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi penyusun ringkasan ekstraktif.
Pada perankingan graf tekstual, teks direpresentasikan menjadi sebuah graf. Vertex/node pada graf tekstual adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata, kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge/link dalam graf menunjukkan keterhubungan yang bermakna antar vertex/node. Keterhubungan tersebut dapat berupa similarity antar kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa.
Pemilihan jenis unit teks untuk dijadikan vertex bergantung pada tujuan aplikasi yang akan dicapai. Misalnya untuk ekstraksikeyphrase biasanya frasa atau kata-kata menjadi vertex, sedangkan untuk ringkasan ekstraktif biasanya kalimat ataupun paragraf dipilih sebagai vertex.
Edge yang menghubungkan vertex juga disesuaikan dengan kebutuhan dan unit teks yang dipilih. Similarity biasanya digunakan untuk menyatakan hubungan suatu vertex dengan vertex lain, atau dengan kata lain, antara kalimat/paragraf satu dengan kalimat/paragraf lain. Jenis similarity yang diterapkan juga beragam dan dapat didefinisikan sendiri, sesuai kebutuhan sistem peringkas yang akan dibangun, di antaranya cosine similarity dan simple word overlap.

 Term Frequency-Inverse Document Frequency
            Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara pemberian bobot hubungan suatu kata ( term) terhadap dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya klaimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson, 2005). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam dokumen ( IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak dokumen ( Grossman, 1998) . Nilai IDF sebuah term dihitung menggunakan persamaan di bawah:


Menghitung bobot (W) masing-masing dokumen dengan persamaan di bawah:



Kemudian baru melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari ringkasan atau sebagai output dari peringkasan teks otomatis.