Pengertian Automatic Text Summarization
Peringkasan teks otomatis (automatic text summarization) adalah pembuatan bentuk yang lebih
singkat dari sebuah teks dengan memanfaatkan aplikasi yang dijalankan dan
dioperasikan pada komputer. Sedangkan menurut Hovy, ringkasan adalah teks yang
dihasilkan dari sebuah teks atau banyak teks, yang mengandung isi informasi
dari teks asli dan panjangnya tidak lebih dari setengah teks aslinya (Hovy,
2001). Penelitian mengenai peringkasan teks otomatis (automatic text summarization) dengan menggunakan berbagai macam
metode dan pendekatan, diawali sejak tahun 1958 oleh Luhn. Banyak teknik yang
digunakan dalam summarization ini,
seperti teknik pendekatan statistika yaitu teknik word frequency (Luhn, 1958), position
in text (Baxendale, 1958), cue words and heading (Edmudson, 1969), sentence position (Lin dan Hoovy, 1997).
Teknik pendekatan dengan natural language
analysis yaitu inverse term frequency
and NLP technique (Aone, 1990), lexical chain (Mc Keown, 1997), maximal maginal
relevance (Cabonell dan Goldstein, 1998).
Karakteristik
Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks, yaitu
ekstraksi (shallower approaches) dan
abstraksi (deeper approaches). Pada
teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting
atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang
disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama.
Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber. Teknik
abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan
dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks
sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada
umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi
sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language generation yang
merupakan bahasan yang dikembangkan tersendiri.
Berdasarkan jumlah sumbernya, sebuah ringkasan dapat
dihasilkan dari satu sumber (single-document)
atau dari banyak sumber (multi-document). Peringkasan single-document masukannya
berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat.
Pada peringkasan multi-document,
masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah
ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks
yang lebih singkat yang merangkum informasi-informasi utama pada klaster
masukan.
Suatu ringkasan dapat bersifat general, yaitu
ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu
menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil
untuk ringkasan berdasar pada querymasukan yang didefinisikan pengguna sistem. Queryoriented atau user-oriented summarization
mencoba mengambil informasi yang relevan dengan query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat
memiliki sifat indicative, informative,
atau evaluative. Ringkasan
informativeberfungsi menyajikan informasi utama atau yang paling penting dari
teks sumber. Ringkasan indicative memberikan
saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks.
Sedangkan ringkasan evaluative
memberi komentar atau evaluasi terhadap informasi utama pada teks sumber.
Compression rate pada proses peringkasan akan menentukan panjang
ringkasan yang dihasilkan. Biasanya diukur berdasarkan persentase dari teks
sumber, misalnya ringkasan sepanjang 10%, 25%, atau 50% dari teks sumber.
Selain itu dapat pula diukur berdasarkan jumlah kata, misalnya ditentukan
ringkasan sepanjang 100 kata. Biasanya, panjang ringkasan tidak lebih dari
setengah teks sumber. Gambar dibawah ini memperlihatkan arsitektur tingkat
tinggi peringkasan teks otomatis. Masukan berupa teks dengan berbagai
karakteristik dan keluaran berupa ringkasan ekstraksi maupun abstraksi.
METODE - METODE AUTOMATIC TEXT SUMMARIZATION
Di bawah ini akan di jelaskan mengenai metode-metode yang di gunakan pada Text Summarization.
Ranked Positional Weight
Lokasi tertentu pada teks seperti heading, judul,
dan paragraf pertama cenderung mengandung informasi penting. Metode sederhana
dengan mengambil paragraf pertama (lead)
sebagai ringkasan biasanya cukup bagus terutama pada artikel berita. Ranked
Positional Weight adalah metode yang diusulkan
oleh Helgeson dan Birnie sebagai pendekatan
untuk memecahkan permasalahan pada keseimbangan
lini dan menemukan solusi dengan cepat. Konsep dari metode ini adalah menentukan
jumlah stasiun kerja minimal dan melakukan pembagian task ke dalam stasiun kerja dengan cara
memberikan bobot posisi kepada setiap task sehingga semua task telah ditempatkan kepada sebuah stasiun
kerja. Bobot setiap task, misal task ke-i dihitung sebagai waktu yang
dibutuhkan untuk melakukan task ke-i
ditambah dengan waktu untuk mengeksekusi semua
task yang akan dijalankan setelah task ke-i tersebut. Urutan langkah-langkah
pada metode Ranked Positional Weight
adalah sebagai berikut:
- Lakukan penghitungan bobot posisi
untuk setiap task. Bobot posisi setiap task dihitung dari bobot suatu task ditambah dengan bobot task-tasksetelahnya.
- Lakukan pengurutan task-task
berdasarkan bobot posisi, yaitu dari bobot posisi besar ke bobot posisi
kecil.
- Tempatkan task dengan bobot
terbesar ke sebuah stasiun kerja sepanjang tidak melanggar precedence constraint
dan waktu stasiun kerja tidak melebihi waktu siklus.
- Lakukan langkah 3 hingga semua task telah ditempatkan kepada suatu
stasiun kerja.
Cue phrase indicator criteria
Pada beberapa genre teks, kata dan frasa tertentu
dalam kalimat secara eksplisit menunjukkan seberapa penting kalimat tersebut.
Daftar cue phrase beserta (positif dan negatif) ‘goodness score’ biasanya
dibangun manual.
Word and phrase frequency criteria
Secara umum feature yang digunakan untuk mewakili dokumen
dalam model raung vector adalah kata. Hal ini karena ekstraksi kata dari dokumen
relatif mudah, yaitu hanya mendeteksi deretan karakter yang diakhiri dengan
spasi. Jika dirancang bahwa angka tidak merupakan bagian dari kata maka dalam bahasa
Indonesia karakter khusus yang mewakili kata hanya tanda hypen (“-“), yang menunjukkan
kata ulang, selainnya adalah karakter abjad. Penelitian untuk teks bahasa
inggris yang melibatkan frasa menunjukkan bahwa melibatkan frasa dalam feature
dapat meningkatkna kinerja clustering. Penelitian tentang deteksi dan ekstraksi
frasa dalam bahasa Inggris juga telah cukup banyak dilakukan. Metode seleksi beragam
mulai dengan pendekatan statistik sampai pendekatan natural language processing
(NLP). Untuk kasus bahasa Indonesia penelitian di bidang ini masih sangat
minim. Dengan latar belakang itu dalam penelitian ini frasa didefinisikan
sebagai dua kata yang saling berdekatan yang memiliki makna tertentu yang bisa berbeda
dengan makna kata-kata tunggalnya, misalnya “kambing hitam”. Teknik ekstraksi
kata ditempuh dengan cara sederhana yaitu melakukan penghitungan frekuensi
kemunculan dari pasangan dua kata. Selanjutnya seperti pada kata setelah dibatasi
frekuensi minimal kemunculan, analisis variansi frekuensi dilakukan untuk
melakukan seleksi. sebagai persamaan berikut:
dengan
qi adalah variansi jika frekuensi minimal kata/frasa muncul dalam analisis
adalah I (i=0,1,2,...).
Luhn memakai distribusi kata Zipf’s law untuk
mengembangkan kriteria ekstraksi: jika sebuah teks mengandung beberapa kata
yang biasanya jarang muncul, maka kalimatkalimat yang mengandung kata-kata
tersebut mungkin penting.
Query and title overlap criteria
Metoda sederhana tapi berguna adalah dengan memberi
skor pada kalimat-kalimat sesuai jumlah kata-kata yang juga muncul pada judul,
heading, atau query.
Cohesive or lexical connectedness criteria
Kohesi leksikal, yaitu efek kohesif yang dicapai
melalui pemilihan kosakata.
Kedua, berdasarkan asal
hubungannya, kohesi diklasifikasi lebih jauh berdasarkan tiga hal, yaitu.
- Keterkaitan bentuk yang meliputi
substitusi, elipsis, dan kolokasi leksikal;
- Keterkaitan referensi yang meliputi
referensi dan reiterasi leksikal;
- Hubungan semantik yang diperantai
oleh konjungsi.
Menurut Untung Yuwono dalam bukunya yang
berjudul Pesona Bahasa menyatakan bahwa kohesi tidak datang dengan sendirinya,
tetapi diciptakan secara formal oleh alat bahasa yang disebut pemarkah kohesi,
misalnya kata ganti, kata tunjuk, kata sambung, dan kata yang diulang. Pemarkah
kohesi yang digunakan secara tepat menghasilkan kohesi leksikal dan kohesi
gramatikal. Kohesi leksikal adalah hubungan semantis antarunsur pembentuk
wacana dengan memanfaatkan unsur leksikal atau kata yang dapat diwujudkan
dengan reiterasi dan kolokasi. Reiterasi adalah pengulangan kata-kata pada
kalimat berikutnya untuk memberikan penekanan bahwa kata-kata tersebut
merupakan fokus pembicaraan. Reiterasi dapat berupa repetisi, sinonimi,
hiponimi, metonimi, dan antonimi. Sedangkan kolokasi adalah hubungan antarkata
yang berada pada lingkungan atau bidang yang sama. Contohnya, [petani] di
Lampung terancam gagal memanen [padi]. [sawah] yang mereka garap terendam
banjir selama dua hari. Sedangkan kohesi gramatikal adalah hubungan semantis
antarunsur yang dimarkahi alat gramatikal, yaitu alat bahasa yang digunakan dalam
kaitannya dengan tata bahasa. Kohesi gramatikal dapat berwujud referensi,
substitusi, elipsis, dan konjungsi.
Kata-kata dapat dihubungkan dengan berbagai cara,
meliputi repetisi, coreference, sinonim, dan asosiasi semantik pada thesauri.
Kalimat dan paragraf dapat diberi skor berdasarkan derajat keterhubungan
kata-katanya; semakin terkoneksi diasumsikan semakin penting.
Discourse structure criteria
pembuatan struktur discourse teks dan memberi skor kalimat
berdasarkan wacana sentralitas.
3.7 Peringkasan
Teks Otomatis Berbasis Graf
Metode berbasis graf
tergolong baru dalam peringkasan teks otomatis. Metode ini memodelkan teks ke
dalam bentuk graf dengan menjadikan unit-unit teks sebagai vertex dan
menambahkan edges pada graf
berdasarkan hubungan bermakna antar unit teks yang dijadikan vertex, kemudian menentukan tingkat
pentingnya setiap vertex berdasarkan
struktur graf keseluruhan.
Konsep perankingan halaman web
dengan pagerank yang telah dijelaskan
akan diterapkan terhadap graf pada domain lain, yaitu graf tekstual. Graf
tekstual adalah graf yang dibangun dari teks. Serupa dengan tujuan PageRank
untuk melakukan perankingan halaman-halaman web, penerapan perankingan graf
tekstual adalah untuk melakukan perankingan terhadap unit-unit teks. Dari hasil
perankingan dapat dipilih unit-unit teks paling penting yang akan menjadi
penyusun ringkasan ekstraktif.
Pada perankingan graf
tekstual, teks direpresentasikan menjadi sebuah graf. Vertex/node pada graf
tekstual adalah unit teks yang akan diranking, yaitu dapat berupa kata-kata,
kalimat-kalimat, atau paragraf-paragraf dalam teks. Edge/link dalam graf
menunjukkan keterhubungan yang bermakna antar vertex/node. Keterhubungan tersebut dapat berupa similarity antar kalimat ataupun
hubungan leksikal atau gramatikal antar kata/frasa.
Pemilihan jenis unit teks untuk dijadikan vertex bergantung pada tujuan aplikasi
yang akan dicapai. Misalnya untuk ekstraksikeyphrase biasanya frasa atau
kata-kata menjadi vertex, sedangkan
untuk ringkasan ekstraktif biasanya kalimat ataupun paragraf dipilih sebagai vertex.
Edge yang menghubungkan vertex juga disesuaikan dengan
kebutuhan dan unit teks yang dipilih. Similarity biasanya digunakan untuk
menyatakan hubungan suatu vertex dengan
vertex lain, atau dengan kata lain,
antara kalimat/paragraf satu dengan kalimat/paragraf lain. Jenis similarity yang diterapkan juga beragam
dan dapat didefinisikan sendiri, sesuai kebutuhan sistem peringkas yang akan
dibangun, di antaranya cosine similarity
dan simple word overlap.
Term
Frequency-Inverse Document Frequency
Metode Term Frequency-Inverse Document Frequency
(TF-IDF) adalah cara pemberian bobot hubungan suatu kata ( term) terhadap
dokumen. Untuk dokumen tunggal tiap kalimat dianggap sebagai dokumen. Metode
ini menggabungkan dua konsep untuk perhitungan bobot, yaitu Term frequency (TF)
merupakan frekuensi kemunculan kata (t) pada kalimat (d). Document frequency
(DF) adalah banyaknya klaimat dimana suatu kata (t) muncul. Frekuensi
kemunculan kata di dalam dokumen yang diberikan menunjukkan seberapa penting
kata itu di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut
menunjukkan seberapa umum kata tersebut. Bobot kata semakin besar jika sering muncul
dalam suatu dokumen dan semakin kecil jika muncul dalam banyak dokumen (Robertson,
2005). Pada Metode ini pembobotan kata dalam sebuah dokumen dilakukan dengan
mengalikan nilai TF dan IDF. Pembobotan diperoleh berdasarkan jumlah kemunculan
term dalam kalimat (TF) dan jumlah kemunculan term pada seluruh kalimat dalam
dokumen ( IDF). Bobot suatu istilah semakin besar jika istilah tersebut sering
muncul dalam suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam
banyak dokumen ( Grossman, 1998) . Nilai IDF sebuah term dihitung menggunakan
persamaan di bawah:
Menghitung
bobot (W) masing-masing dokumen dengan persamaan di bawah:
Kemudian
baru melakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap
kalimat. Tiga kalimat dengan nilai W terbesar dijadikan sebagai hasil dari
ringkasan atau sebagai output dari peringkasan teks otomatis.