Tips, Recipe, and Journey: Metode

Penelitian Liu et. al. (2011) menggunakan suatu aliran deteksi plagiat yang dapat dilihat pada Gambar 1 untuk mendeteksi suatu dokumen plagiat. Aliran sistem pendeteksi plagiat pada penelitian Liu et al. (2011) diadopsi menjadi metode pada penelitian ini (lihat Gambar 2). Terdapat 4 proses inti dalam aliran tersebut, yaitu (a) ekstraksi segmen atau potongan kata dari dokumen uji (dokumen yang ingin diketahui plagiat atau tidak), (b) pemeringkatan segmen sesuai dengan bobotnya, (c) identifikasi sumber plagiat untuk menentukan apakah dokumen uji plagiat atau tidak, dan (d) ekspansi jangkauan sebagai pilihan proses dalam mendapatkan dokumen sumber yaitu dokumen yang dicurigai adalah dokumen sumber plagiat dari dokumen uji.
Dokumen uji pada penelitian ini diperoleh dari korpus dokumen plagiat yang dibentuk pada penelitian ini. Dokumen uji dibentuk menjadi dokumen teks format PDF. Pembentukan dokumen plagiat dilakukan dengan (a) menyalin suatu dokumen sumber, (b) menyalin 2-3 dokumen sumber menjadi sebuah dokumen, (c) mengambil hanya sedikit bagian suatu dokumen sumber dan (d) menggunakan 1-2 dokumen sumber yang diterjemahkan ke bahasa Inggris yang diterjemahkan kembali ke bahasa Indonesia. Keempat jenis dokumen tersebut adalah dokumen plagiat harfiah. Dokumen jenis (a) dan (b) adalah plagiat sama persis, dokumen jenis (c) adalah plagiat mendekati sama persis dan dokumen jenis (d) adalah plagiat restrukturisasi.

Praproses Dokumen

Pada tahap ini dilakukan ekstraksi teks dan normalisasi dokumen. Ekstraksi dokumen teks format PDF menggunakan aplikasi Xpdf (GCL 2011). Namun, ada pula dokumen yang tidak dapat diekstrak dengan Xpdf karena terproteksi. Jika dokumen terproteksi, maka dilakukan rekognisi karakter optik dengan cara mengkonversikan dokumen menjadi dokumen format TIFF menggunakan aplikasi Ghostscript (ASI 2012) dan mengkonversikan dokumen format TIFF menjadi dokumen teks dengan aplikasi Tesseract-ocr. Aplikasi Tesseract-ocr adalah mesin rekognisi karakter optik yang dikembangkan di Google saat ini (Google 2011).
Penggunaan Ghostscript dilakukan dengan perintah “gs -dBATCH -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -sPAPERSIZE=a4 -sOutputFile=namafilebaru.tif namafile.pdf”. Opsi dnopause dan dbatch digunakan supaya interaksi dengan pengguna ditiadakan dan tidak berhenti saat akhir setiap halaman. Opsi sdevice dengan tiffg4 berarti dokumen dikonversikan menjadi jenis dokumen gambar TIFF hitam putih. Opsi r600x600 berarti resolusi dokumen gambar yang diinginkan adalah 600x600 dpi. Opsi spapersize dengan a4 berarti dokumen gambar dibuat seukuran kertas A4 (Artofcode 2002). Setelah dokumen berhasil dikonversikan menjadi dokumen gambar TIFF, dokumen gambar TIFF akan dikonversikan menjadi dokumen teks menggunakan Tesseract-ocr dan dapat diekstrak teksnya.

Daftar pustaka tidak termasuk teks yang diperiksa karena yang menjadi acuan dalam pemeriksaan plagiat adalah bagian sebelumnya. Daftar pustaka tidak disertakan karena dapat menyebabkan kesalahan saat melakukan deteksi plagiat. Dokumen dengan topik yang sama meskipun bukan plagiat dapat memiliki daftar pustaka yang mirip sehingga akan terdeteksi sebagai plagiat. Daftar pustaka dihilangkan dengan cara memotong teks yang diawali “DAFTAR PUSTAKA” atau “REFERENSI” atau “BIBLIOGRAFI” pada 80% bagian akhir dokumen. Pemilihan pemotongan pada 80% bagian akhir dokumen bertujuan untuk tidak memotong teks pada daftar isi yang dapat menghilangkan isi dokumen.

Tahap berikutnya adalah normalisasi dokumen teks. Langkah-langkah yang dilakukan adalah dengan membuang karakter selain tanda petik tunggal, titik, angka dan huruf, dan spasi yang lebih dari 1. Langkah-langkah ini dilakukan untuk mendapatkan teks dengan kata-kata tanpa ada simbol atau tanda baca lain selain titik. Tanda baca titik tidak dihilangkan karena diperlukan pada segmentasi dokumen.

Segmentasi Dokumen

Metode deteksi plagiat dengan pendekatan segmentasi diperkenalkan Liu et al. (2012) dengan alasan utama yaitu waktu yang dimiliki plagiator untuk memeriksa dan mengubah setiap kalimat dalam dokumen hanya sedikit. Oleh sebab itu, kalimat yang tidak diubah dapat dengan mudah diidentifikasi sebagai plagiat. Oleh sebab itu, cukup diambil beberapa bagian saja untuk diperiksa.

Pada penelitian Liu et al. (2012) semua tanda baca menjadi pemisah segmen. Jumlah minimal segmen adalah 2 kata dan tidak ada batas maksimal jumlah kata. Pada penelitian ini segmentasi dokumen berdasarkan pada tanda titik yang diikuti 1 spasi. Batasan jumlah kata yang baik untuk segmen adalah 20 kata. Oleh sebab itu, jumlah kata maksimum yang diterima adalah 20 kata. Jumlah minimum kata yang diterima adalah 5 kata karena jumlah kata yang terlalu sedikit kurang baik untuk menemukembalikan dokumen yang relevan (Fathi 2012). Algoritme untuk mengimplementasikan aturan segmentasi dokumen adalah seperti berikut:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

AT = daftar teks yang dipisahkan ". "
countAT = jumlah teks dalam AT
ctx = 0
for( ctx < countAT ){
array_kata = daftar kata pada array teks ke-'ctx'
jumlah_kata = jumlah kata pada array_kata
if ( jumlah_kata > 20 ) {
AT ke-[ctx-1] = teks dengan array_kata pertama hingga ke-14
AT ke-[$ctx] = teks dengan array_kata ke-15 hingga terakhir
ctx = ctx-2;
}else if(jumlah_kata>4){
daftar_segmen <- AT ke-[ctx]
}
ctx = ctx + 1
}

Pembobotan Segmen dan Pemeringkatan Segmen

Pada penelitian ini dilakukan pembobotan kata yang berguna untuk pembobotan segmen. Pembobotan kata dilakukan dengan ketentuan sebagai berikut.
1 Kata yang terdapat di kamus diberikan nilai bobot 1
2 Kata yang berupa angka diberikan nilai bobot 1
3 Kata yang merupakan bahasa Indonesia dengan awalan “di” diberikan nilai bobot 1
4 Jika tidak termasuk poin 1, 2 dan 3, maka pemberian bobot berdasarkan jumlah huruf pada kata tersebut; (a) lebih dari 5 huruf diberikan nilai bobot 10, (b) 4-5 huruf diberikan nilai bobot 5, dan (c) selainnya diberikan nilai bobot 3.

Kamus bahasa Indonesia yang digunakan pada penelitian ini adalah Kamus Besar Bahasa Indonesia edisi III. Ketentuan (1), (2), dan (3) hanya diberikan bobot 1 karena kata tersebut terdapat pada bahasa Indonesia. Ketentuan (2) dan (3) perlu dibuat terpisah dari ketentuan (1) karena pada kamus bahasa Indonesia tidak terdapat kata dengan awalan di. Ketentuan (4) dilakukan supaya semakin panjang kata yang tidak terdapat pada bahasa Indonesia, maka semakin tinggi bobotnya dan akan menjadikan kata tersebut lebih menentukan bobot segmen.

Pembobotan segmen dilakukan dengan menjumlahkan seluruh bobot kata pada segmen tersebut. Ketentuan pembobotan kata akan membuat segmen yang terdiri atas kata yang bukan dari bahasa Indonesia mendapatkan bobot lebih besar. Pemeringkatan segmen dilakukan berdasarkan nilai bobot segmen. Peringkat suatu segmen digunakan sebagai urutan segmen untuk melalui pencarian online.

Pemeringkatan segmen perlu dilakukan karena tidak semua segmen perlu digunakan pada pencarian online. Penelitian Butakov dan Shcherbinin (2009) mendapatkan fakta bahwa 5% segmen cukup untuk menilai apakah suatu dokumen plagiat atau tidak. Penggunaan lebih dari 40% segmen tidak meningkatkan hasil pendeteksian dokumen plagiat. Oleh sebab itu, segmen yang digunakan pada penelitian ini dibatasi maksimal 40%.

Pencarian Online

Pencarian online adalah pencarian pada mesin pencari untuk mendapatkan daftar alamat serta cuplikan masing-masing hasil pencarian. Alamat serta cuplikan yang diambil maksimal 10 peringkat teratas pencarian. Pencarian online akan berhenti jika dokumen terdeteksi plagiat atau semua segmen yang ditetapkan sebagai kueri telah diproses namun dokumen belum terdeteksi plagiat. Pencarian online dengan mesin pencari Google menggunakan True Google Search (Technofreak 2012), sedangkan pencarian online dengan mesin pencari Bing menggunakan Bing Search API (Microsoft 2012).

Pencarian online dengan mesin pencari mengambil hasil pencarian yang telah disesuaikan untuk negara Indonesia. Penyesuaian pada mesin pencari Google menggunakan domain Indonesia yaitu “.co.id” sedangkan pada mesin pencari Bing menggunakan parameter pasar Indonesia yaitu “en-ID”.

Pencatatan dan Identifikasi Alamat

Pencarian online akan menghasilkan daftar alamat dan cuplikan. Alamat dan cuplikan akan dicatat beserta segmen yang menjadi kueri. Selain itu, frekuensi kemunculan suatu alamat juga dicatat terpisah.
Identifikasi alamat adalah tahap untuk mendapatkan alamat dokumen yang harus diperiksa selanjutnya. Alamat diidentifikasi berdasarkan (1) frekuensi kemunculan suatu alamat dokumen (2) atau kemunculan kata segmen kueri pada cuplikan hasil pencarian online. Ketentuan (1) dilakukan dengan cara mendapatkan alamat yang telah tercatat lebih dari 1. Ketentuan (2) dilakukan dengan cara mendapatkan alamat yang cuplikannya memiliki minimal 70% kata pada kueri dan maksimal hanya 30% kata di cuplikan alamat tersebut yang tidak terdapat pada kueri. Ketentuan (1) dilakukan karena jika suatu alamat ada pada hasil pencarian dengan kueri berbeda maka dokumen pada alamat tersebut memiliki kemungkinan keterkaitan dengan dokumen uji, sehingga perlu dilakukan pemeriksaan. Ketentuan (2) dilakukan karena suatu cuplikan memiliki minimal 70% kata yang sama dan maksimal hanya 30% kata yang berbeda memiliki kemungkinan kesamaan yang tinggi. Oleh sebab itu, pemeriksaan tidak harus menunggu ketentuan (1) melainkan dapat langsung melakukan pemeriksaan antara dokumen uji dan dokumen sumber.

Identifikasi alamat akan menghasilkan daftar alamat untuk diperiksa. Jika daftar alamat kosong, maka dilakukan pencarian online kembali dengan segmen berikutnya. Jika daftar alamat tidak kosong, maka dokumen-dokumen pada daftar alamat tersebut akan diperiksa pada tahap selanjutnya.

Ekspansi Jangkauan

Ekspansi jangkauan adalah tahap yang dilakukan ketika suatu alamat telah dirujuk sebelumnya. Sistem tidak perlu melakukan pengunduhan ulang untuk mendapatkan dokumen sumber yang mempengaruhi kecepatan proses deteksi. Ekstraksi dokumen sumber cukup mengambil dokumen yang telah diunduh sebelumnya jika alamat tersebut telah dirujuk.

Ekstraksi Dokumen Sumber dan Dokumen Uji

Setelah mendapatkan daftar alamat, dokumen pada daftar alamat akan diunduh dan diproses seperti dokumen uji untuk pengambilan teks. Selanjutnya dokumen sumber disegmentasi dengan aturan yang sama dengan dokumen uji.

Setiap segmen pada dokumen sumber akan diberikan bobot berdasarkan banyaknya kata pada kueri yang terdapat pada segmen dokumen sumber. Banyaknya kata yang sama tidak diperhatikan untuk pembobotan segmen. Segmen dengan bobot terbesar atau dengan kemunculan kata terbanyak akan dijadikan acuan untuk mengekstraksi sebagian teks dokumen sumber.

Sebagian teks dokumen sumber yang diambil adalah minimal 20 kata sebelum dan setelah segmen acuan serta segmen acuan tersebut. Pengambilan teks dilakukan dengan mengambil teks sebelum dan sesudahnya hingga memenuhi ketentuan minimal 20 kata atau hingga segmen terakhir yang tersedia jika tidak memenuhi ketentuan minimal 20 kata. Ekstraksi pada dokumen uji juga mengambil minimal 20 kata sebelum dan setelah segmen kueri serta segmen kueri. Pembatasan minimal 20 kata ini dilakukan supaya dapat mendeteksi suatu dokumen yang hanya memiliki sedikit teks plagiat.

Ekstraksi dokumen sumber dan dokumen uji menghasilkan dua teks yaitu sebagian teks dokumen uji dan sebagian teks dokumen sumber. Kedua teks ini akan menjadi penentu apakah dokumen uji memplagiat dokumen sumber.

Perhitungan Jarak

Langkah selanjutnya adalah membandingkan sebagian teks dokumen uji dan dokumen sumber. Metode untuk menghitung kesamaan sebagian teks dokumen menggunakan ukuran kesamaan kosinus dengan pembobotan yang dilakukan dengan aturan (Manning et al. 2009)

Asumsikan adalah bobot suatu kata pada suatu dokumen, sedangkan adalah frekuensi suatu kata pada suatu dokumen.
Perhitungan ukuran kesamaan kosinus pada penelitian ini dilakukan dengan rumus ukuran kesamaan kosinus (Manning et al. 2009)

Asumsikan adalah ukuran kesamaan kosinus dari yaitu dokumen uji dan yaitu dokumen sumber, adalah vektor dokumen untuk d. Pembilang didefinisikan dengan dengan n adalah banyaknya kata unik pada dokumen uji dan dokumen sumber, adalah bobot kata pada dokumen uji dan adalah bobot kata pada dokumen sumber.

Pada sebagian dokumen teks uji dan sumber, terdapat 3 bagian yaitu (a) sebelum segmen acuan, (b) segmen acuan dan (c) setelah segmen acuan. Bagian-bagian ini akan digunakan dalam 3 perhitungan antara sebagian teks dokumen uji dan sumber. Perhitungan pertama membandingkan ketiga bagian tersebut. Perhitungan kedua membandingkan bagian pertama (a) dan kedua (b). Perhitungan ketiga membandingkan bagian kedua (b) dan ketiga (c). Jika di antara ketiga perbandingan tersebut mendapatkan hasil di atas 70%, dokumen uji dianggap plagiat terhadap dokumen sumber. Perhitungan jarak dilakukan dengan 3 perhitungan karena posisi segmen plagiat dapat berada di awal, akhir atau pertengahan teks dokumen uji.

Perhitungan Akurasi

Setelah seluruh dokumen uji diujicobakan, maka dilakukan proses perhitungan akurasi secara manual. Perhitungan akurasi dapat dilakukan dengan menjumlahkan dokumen uji klarifikasi benar dibagi dengan dokumen uji kemudian hasilnya dikali 100%.

Spesifikasi Perangkat Lunak dan Perangkat Keras

Perangkat lunak yang digunakan dalam pengembangan sistem adalah Net Beans IDE 7.2, Apache 2.2, PHP 5.3, dan MySqL 5.5. Perangkat keras yang digunakan dalam pengembangan sistem adalah Laptop HP 4430s dengan spesifikasi prosesor Intel Core i3-2330M 2.2 GHz dan Memori RAM 4GB, dan jaringan internet dengan penyedia layanan PT Indosat Mega Media.

Tips, Recipe, and Journey

Minggu, 20 Oktober 2013

Metode - SPDP

Perhitungan Jarak

Tidak ada komentar:

Posting Komentar