PENGEMBANGAN UJI COLLECTION
koleksi uji standar adalah
daftar koleksi tes yang paling standar dan seri evaluasi. Ada
beberapa koleksi tes serupa untuk
teks classification yaitu :
- TREC (dilakukan oleh NIST, sejak 1992)
- Reuters (Text Classification)
- Cranfield (pioner, tahun 1950an)
- CLEF (European Language)
Ø Sejarah
Pada tahun 1992, Departemen
Pertahanan AS bersama dengan Institut Nasional Standar dan Teknologi (NIST), mensponsori para Konferensi
Text Retrieval (Trec) sebagai bagian dari program
teks TIPSTER.
Teks Retrieval Konferensi (Trec). The US National Institute of Standards. Trec
dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi
sejak 1992. Dalam kerangka ini, ada banyak lagu selama rentang koleksi
uji beda, tetapi koleksi tes paling dikenal adalah yang digunakan untuk melacak
Trec Ad Hoc selama 8 evaluasi pertama Trec antara 1992 dan 1999. Secara total,
ini koleksi pengujian terdiri dari 6 CD mengandung 1,89 juta dokumen (terutama,
tetapi tidak eksklusif, Newswire artikel) dan penilaian relevansi untuk 450
kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian teks
rinci. Uji individu collections didefinisikan lebih himpunan bagian
yang berbeda dari data ini. Awal TREC masing-masing terdiri dari 50
kebutuhan informasi, dievaluasi lebih berbeda tetapi overlapping set dokumen.
TRECs 6-8 menyediakan kebutuhan informasi 150 selama sekitar 528,000 Newswire
dan Layanan Broadcast Informasi Luar Negeri artikel. Ini mungkin adalah
subcollection terbaik untuk digunakan dalam pekerjaan di masa depan, bekarena
itu adalah yang terbesar dan topik yang lebih konsisten. Karena tes Online
edisi (c) 2009 Cambridge UP 154.
Ø
Tujuan Trec
Tujuan
dari ini adalah untuk melihat ke dalam pencarian informasi masyarakat dengan
menyediakan infrastruktur yang dibutuhkan untuk evaluasi metodologi pencarian
teks pada koleksi teks yang sangat besar. Penelitian ini katalis pada metode
yang skala besar ke korporasi. Pengenalan web mesin pencari telah meningkatkan kebutuhan untuk sistem skala yang sangat
besar pengambilan lebih jauh.
Ø Trec
Teknis Prestasi
Trec bertujuan untuk meningkatkan sistem evaluasi IR melalui lima mekanisme utama.
1.
Penciptaan baru, koleksi uji yang
lebih besar. Sebelum tahun 1991, uji publik koleksi yang kecil, yang terdiri
dari paling banyak beberapa ribu dokumen dan dengan demikian memiliki
dipertanyakan aplikasi untuk situasi dunia nyata, di mana sistem IR mungkin
diperlukan untuk mencari ratusan ribu dokumen. Selama periode ini, yang
terbesar koleksi uji populer digunakan berisi sekitar 12.000 dokumen (Voorhees
dan Harman, 2005). Sebaliknya, koleksi uji yang digunakan pada Trec pertama
pada tahun 1992 berisi sekitar 750.000 dokumen. Ini merupakan peningkatan lebih
dari 80 - lipat dalam 1 tahun.
2.
Pengembangan metode evaluasi IR
standar. Program Trec dikembangkan dan didistribusikan "koleksi test"
yang peneliti IR dapat digunakan untuk mengevaluasi mereka IR sistem. Koleksi
uji terdiri dari tiga komponen:
3.
koleksi
dokumen,
4.
satu set kebutuhan informasi atau
pertanyaan, dan
5.
seperangkat
penilaian yang menunjukkan dokumen yang relevan untuk query yang berbeda.
Dengan menggunakan koleksi pengujian yang sama dan metodologi pengujian yang
sama dikembangkan oleh Trec, peneliti IR juga bisa menggunakan sumber daya
untuk membandingkan kinerja sistem IR mereka secara lebih sistematis dan
standar busana.
Trec awalnya menciptakan koleksi pengujian baru dan metodologi evaluasi untuk routing dan
ad hoc tugas dan kemudian diperluas untuk mendukung bidang-bidang seperti IR novel sebagai video, e-discovery, dan spam. Trec cepat menjadi tempat dasar untuk mengembangkan baru IR evaluasi metodologi, pengujian baru IR algoritma, dan baru pelatihan IR peneliti. Selama 18 tahun terakhir, koleksi uji Trec dan metodologi telah menjadi defacto standar dengan mana peneliti IR mempublikasikan hasil penelitian yang dipertahankan,sebanding, dan direproduksi.
Trec awalnya menciptakan koleksi pengujian baru dan metodologi evaluasi untuk routing dan
ad hoc tugas dan kemudian diperluas untuk mendukung bidang-bidang seperti IR novel sebagai video, e-discovery, dan spam. Trec cepat menjadi tempat dasar untuk mengembangkan baru IR evaluasi metodologi, pengujian baru IR algoritma, dan baru pelatihan IR peneliti. Selama 18 tahun terakhir, koleksi uji Trec dan metodologi telah menjadi defacto standar dengan mana peneliti IR mempublikasikan hasil penelitian yang dipertahankan,sebanding, dan direproduksi.
6.
Organisasi lokakarya penelitian IR
tahunan. Trec menggunakan sumber daya yang
dikembangkan untuk memfasilitasi kompetisi tahunan dan tuan rumah lokakarya tahunan (di mana Hasil dari kompetisi tersebut disampaikan), tapi IR peneliti yang tidak berpartisipasi dalam kompetisi Trec dan / atau menghadiri lokakarya masih bisa menggunakan koleksi pengujian dan membaca deskripsi metodologi dan makalah yang diterbitkan setelah setiap
lokakarya. Program Trec telah menciptakan suatu proses yang obyektif untuk teknik IR menjadi dibandingkan dan hasilnya didiskusikan dan disebarluaskan.
dikembangkan untuk memfasilitasi kompetisi tahunan dan tuan rumah lokakarya tahunan (di mana Hasil dari kompetisi tersebut disampaikan), tapi IR peneliti yang tidak berpartisipasi dalam kompetisi Trec dan / atau menghadiri lokakarya masih bisa menggunakan koleksi pengujian dan membaca deskripsi metodologi dan makalah yang diterbitkan setelah setiap
lokakarya. Program Trec telah menciptakan suatu proses yang obyektif untuk teknik IR menjadi dibandingkan dan hasilnya didiskusikan dan disebarluaskan.
7.
Distribusi hasil penelitian. Selain
menciptakan sebuah proses obyektif untuk
mengevaluasi teknik IR, Program Trec memfasilitasi penyebarluasan evaluasi hasil. Peserta Trec dapat membaca semua dokumen Trec di konferensi dan sesudahnya; makalah Trec dilepaskan untuk nonparticipants sekitar 6 bulan kemudian.
mengevaluasi teknik IR, Program Trec memfasilitasi penyebarluasan evaluasi hasil. Peserta Trec dapat membaca semua dokumen Trec di konferensi dan sesudahnya; makalah Trec dilepaskan untuk nonparticipants sekitar 6 bulan kemudian.
8.
Pengembangan model untuk lokakarya
IR lainnya. Membangun off teknik evaluasi
dan format yang pertama kali dirancang oleh Cyril Cleverdon di College Cranfield pada pertengahan 1950-an, Trec menciptakan pertama semakin banyak program dan lokakarya yang bertujuan untuk memfasilitasi evaluasi yang ketat sistem, tujuan IR. Trec ini Dampak terhadap IR Penelitian Jika tujuan IR adalah untuk mencocokkan orang dengan informasi yang mereka cari, maka sistem IR dapat dianggap sebagai metode yang digunakan untuk mencapai tujuan tersebut. Gambar ES-1 menggambarkan umum ilustrasi bagaimana kerja sistem IR. Diagram ini menguraikan tugas-tugas sistem IR harus lengkap untuk mengambil set dokumen yang relevan dengan kebutuhan pencari informasi; Namun, sistem IR berbeda dalam cara dan bahkan urutan tugas-tugas yang dicapai. Trec telah mendukung perbaikan sistem IR terutama dengan meningkatkan set dokumen tersedia bagi komunitas riset IR oleh ukuran, menyediakan metodologi standar, dan oleh tuan lokakarya tahunan IR penelitian (Tabel ES-1 memberikan gambaran tentang peristiwa penting dalam sejarah Trec). Bukti dari dampak Trec pada perbaikan sistem IR telah disajikan di seluruh literatur akademik. Misalnya, Buckley, Singhal, dan Mitra (1997) menganalisis kinerja sistem sedang dievaluasi dalam Hoc Trec Ad dan Routing trek.
dan format yang pertama kali dirancang oleh Cyril Cleverdon di College Cranfield pada pertengahan 1950-an, Trec menciptakan pertama semakin banyak program dan lokakarya yang bertujuan untuk memfasilitasi evaluasi yang ketat sistem, tujuan IR. Trec ini Dampak terhadap IR Penelitian Jika tujuan IR adalah untuk mencocokkan orang dengan informasi yang mereka cari, maka sistem IR dapat dianggap sebagai metode yang digunakan untuk mencapai tujuan tersebut. Gambar ES-1 menggambarkan umum ilustrasi bagaimana kerja sistem IR. Diagram ini menguraikan tugas-tugas sistem IR harus lengkap untuk mengambil set dokumen yang relevan dengan kebutuhan pencari informasi; Namun, sistem IR berbeda dalam cara dan bahkan urutan tugas-tugas yang dicapai. Trec telah mendukung perbaikan sistem IR terutama dengan meningkatkan set dokumen tersedia bagi komunitas riset IR oleh ukuran, menyediakan metodologi standar, dan oleh tuan lokakarya tahunan IR penelitian (Tabel ES-1 memberikan gambaran tentang peristiwa penting dalam sejarah Trec). Bukti dari dampak Trec pada perbaikan sistem IR telah disajikan di seluruh literatur akademik. Misalnya, Buckley, Singhal, dan Mitra (1997) menganalisis kinerja sistem sedang dievaluasi dalam Hoc Trec Ad dan Routing trek.
Penggunaan
metode digital untuk menyimpan dan mengambil informasi telah menyebabkan
fenomena usang digital , di mana sumber daya digital tidak lagi dapat dibaca
karena media fisik, pembaca diminta untuk membaca media, perangkat keras, atau
perangkat lunak yang berjalan di atasnya , tidak lagi tersedia. Informasi ini
awalnya lebih mudah untuk mengambil daripada jika berada di atas kertas, tetapi
kemudian secara efektif hilang.
Ø Timeline
- Sebelum 1900-an
1801: Joseph Marie Jacquard menciptakan alat tenun Jacquard , mesin pertama yang menggunakan kartu menekan untuk
mengontrol urutan operasi.
1880: Herman Hollerith menciptakan sebuah tabulator elektro-mekanik data
menggunakan punch card sebagai media mesin yang dapat dibaca.
1890 Hollerith
kartu , keypunches dan tabulasi yang digunakan untuk memproses 1890 Sensus Amerika
Serikat data.
- 1920-1930-an
Emanuel Goldberg menyampaikan paten untuk "Mesin statistik" nya
mesin pencarian dokumen mesin yang digunakan sel fotolistrik dan pengenalan
pola untuk mencari metadata pada gulungan dokumen mikrofilm.
- 1940-1950-an
1940-an: Masalah
AS dihadapkan militer pengindeksan dan pengambilan dokumen perang penelitian
ilmiah ditangkap dari Jerman.
1947: Hans Peter Luhn (penelitian insinyur di IBM sejak 1941) mulai bekerja pada
sistem berbasis kartu mekanik pukulan untuk mencari senyawa kimia.
1950: Tumbuh
kekhawatiran di Amerika Serikat untuk "kesenjangan ilmu" dengan
pendanaan Uni Soviet termotivasi, mendorong dan memberikan latar belakang untuk
sistem sastra mekanik mencari ( Allen Kent et
al.) dan penemuan pengindeksan kutipan ( Eugene Garfield ).
1951: Philip
Bagley dilakukan percobaan awal dalam pengambilan dokumen terkomputerisasi
dalam tesis master di MIT . [3]
1955: Allen
Kent bergabung Case Western Reserve University
, dan akhirnya menjadi direktur dari Pusat Dokumentasi dan Komunikasi
Penelitian. Pada tahun yang sama, Kent dan koleganya menerbitkan kertas di
Amerika Dokumentasi menggambarkan langkah-langkah presisi dan recall serta
merinci "kerangka" yang diusulkan untuk mengevaluasi sistem IR yang
termasuk metode sampling statistik untuk menentukan jumlah dokumen yang relevan
tidak diambil.
1958:
Konferensi Internasional Informasi Ilmiah Washington DC termasuk pertimbangan
sistem IR sebagai solusi untuk masalah diidentifikasi. Lihat: Prosiding
Konferensi Internasional Informasi Ilmiah, 1958 (National Academy of
Sciences, Washington, DC, 1959)
1959: Hans
Peter Luhn menerbitkan "Auto-encoding dokumen untuk pengambilan
informasi."
- 1960:
1960: Melvin
Earl (Bill) Maron dan John Lary Kuhns [4]
diterbitkan "Pada relevansi, pengindeksan probabilistik, dan pengambilan
informasi" dalam Journal of ACM 7 (3) :216-244, Juli 1960.
1962:
- Cyril W. Cleverdon menerbitkan temuan awal dari studi Cranfield, mengembangkan sebuah model untuk evaluasi sistem IR. Lihat: Cyril W. Cleverdon, "Laporan Pengujian dan Analisis Investigasi ke Efisiensi Perbandingan Sistem Pengindeksan". Cranfield Collection of Aeronautics, Cranfield, Inggris, 1962.
- Kent diterbitkan Analisis Informasi dan Retrieval.
1963:
- Laporan Weinberg "Sains, Pemerintah dan Informasi" memberikan artikulasi penuh gagasan "krisis informasi ilmiah." Laporan ini dinamai Dr Alvin Weinberg .
- Joseph Becker dan Robert M. Hayes diterbitkan teks pada pencarian informasi. Becker, Joseph, Hayes, Robert Mayo Penyimpanan informasi dan pengambilan: alat, elemen, teori.. New York, Wiley (1963).
1964:
- Karen Sparck Jones menyelesaikan tesis nya di Cambridge, Sinonim dan Klasifikasi Semantic, dan terus bekerja pada linguistik komputasi yang berlaku untuk IR.
- The National Bureau of Standards mensponsori simposium berjudul "statistik Asosiasi Metode Dokumentasi Mechanized." Beberapa kertas yang sangat signifikan, termasuk referensi pertama G. Salton yang diterbitkan (kami percaya) kepada SMART sistem.
pertengahan 1960-an:
- National Library of Medicine dikembangkan Medlars Analisis Sastra Medis dan Sistem Retrieval, besar pertama yang dapat dibaca mesin database dan batch-sistem pencarian.
- Proyek Intrex di MIT.
1966: Don Swanson terlibat dalam studi di Universitas Chicago pada
Persyaratan untuk Catalogs Masa Depan.
akhir 1960-an:
F. Wilfrid Lancaster menyelesaikan studi evaluasi sistem Medlars dan menerbitkan
edisi pertama dari teks nya pada pencarian informasi.
1968:
- Gerard Salton diterbitkan Organisasi Informasi Otomatis dan Retrieval.
- John W. Sammon, Jr 's RADC Tek laporan "Beberapa Matematika Penyimpanan Informasi dan Retrieval ..." diuraikan model vektor.
1969: Sammon
ini "Sebuah pemetaan linier untuk analisis struktur data" (IEEE
Transaksi di Komputer) adalah proposal pertama untuk visualisasi antarmuka
untuk sistem IR.
- 1970
awal 1970-an:
- Pertama sistem online-NLM yang AIM-TWX, MEDLINE, Dialog Lockheed, ORBIT SDC ini.
- Theodor Nelson Konsep mempromosikan hypertext , diterbitkan Komputer Lib / Mesin Dream.
1971: Nicholas Jardine dan Cornelis
van J. Rijsbergen diterbitkan "The penggunaan
clustering hirarkis dalam pencarian informasi", yang diartikulasikan
"hipotesis cluster." (Informasi Penyimpanan dan Retrieval, 7 (5), hlm
217-240, Desember 1971)
1975: Tiga
publikasi yang sangat berpengaruh oleh Salton sepenuhnya diartikulasikan vektor
pengolahan nya kerangka dan model jangka diskriminasi:
1979: CJ van
Rijsbergen dipublikasikan Information Retrieval (Butterworths). Berat
penekanan pada model probabilistik.
- 1980
1980: Pertama
internasional ACM SIGIR konferensi, bersama dengan British Computer Society IR
kelompok di Cambridge.
1982: Nicholas J. Belkin , Robert N. Oddy, dan Helen M. Brooks mengusulkan sudut
pandang ASK (Negara anomali Pengetahuan) untuk pencarian informasi. Ini adalah
konsep penting, meskipun alat analisis otomatis mereka terbukti akhirnya
mengecewakan.
1983: Salton
(dan Michael J. McGill) Pengantar dipublikasikan ke Information
Retrieval Modern (McGraw-Hill), dengan penekanan pada model vektor.
1985: Blair dan
Maron mempublikasikan: Evaluasi Efektivitas Retrieval untuk Sistem Kendali-Teks
Dokumen-Retrieval
pertengahan 1980-an:
Upaya untuk mengembangkan versi pengguna akhir sistem IR komersial.
1985-1993:
makalah kunci dan sistem eksperimental untuk antarmuka visualisasi.
Bekerja dengan Donald B. Crouch
, Robert R. Korfhage , Matthew Chalmers
, Anselm Spoerri dan
lain-lain.
- 1990
1997: Publikasi
Korfhage Penyimpanan Informasi 's dan Retrieval [5]
dengan penekanan pada visualisasi dan multi-referensi sistem poin.
1990-an: Web search engine pelaksanaan banyak fitur sebelumnya hanya ditemukan di
sistem IR eksperimental. Search engine menjadi Instansiasi paling umum dan
mungkin yang terbaik dari model IR, penelitian, dan implementasi.
2. Reuters
Koleksi
telah menjadi Reuters-21.578 koleksi 21.578 Newswire articles, Baru-baru
ini, Reuters merilis banyaklebih besar Reuters Corpus Volume 1 (RCV1), yang
terdiri dari 806.791 dokumen; Penjelasan yang skala dan kaya
membuat dasar yang lebih baik
untuk penelitian masa depan.
Reuters digunakan Untuk klasifikasi teks, tes
Reuters paling banyak digunakan koleksi telah menjadi Reuters-21.578 koleksi
21.578 Newswire. Baru-baru ini, Reuters merilis banyak lebih besar Reuters
Corpus Volume 1 (RCV1), yang terdiri dari 806.791 dokumen. Skala dan kaya
annotationmakes itu dasar yang lebih baik untuk penelitian masa depan. 20
Newsgroup Ini adalah teks lain banyak digunakan klasifikasi koleksi, 20
newsgroup dikumpulkan oleh Ken Lang. Ini terdiri dari 1000 artikel dari
masing-masing 20 Usenet newsgroup (nama newsgroup yang dianggap sebagai
kategori). Setelah penghapusan artikel duplikat, seperti yang biasanya digunakan,
mengandung 18.941 artikel.
3. Cranfield
Sistem
Informasi otomatis pertama pengambilan diperkenalkan pada 1950-an dan 1960-an.
Pada tahun 1970 beberapa teknik yang berbeda telah terbukti melakukan dengan
baik pada kecil corpora teks seperti koleksi Cranfield (beberapa ribu dokumen). [1]
sistem pengambilan besar-besaran, seperti sistem Dialog Lockheed, mulai dipakai
pada awal tahun 1970-an.
Yaitu tepat
kuantitatif ukuran efektifitas pencarian informasi, tetapi saat
terlalu kecil untuk apa pun kecuali pilot yang paling dasar
pengalaman KASIH. Dikumpulkan di Inggris dimulai pada akhir 1950-an,
itu conPeng 1.398 abstrak artikel jurnal aerodinamis,satu set 225 pertanyaan,dan
penilaian relevansi lengkap dari semua (query, dokumen) pasang. dan Reuters-RCV1. Untuk klasifikasi teks, koleksi uji yang
paling digunakan telah menjadi Reuters-21.578 koleksi 21.578 artikel Newswire.
Baru-baru ini, Reuters merilis Volume Reuters jauh lebih besar Corpus 1 (RCV1),
yang terdiri dari 806.791 dokumen. Penjelasan yang lebih sempurna membuat
dasar yang lebih baik untuk penelitian masa depan.
20 Newsgroup. Ini adalah teks lain banyak digunakan klasifikasi
koleksi, dikumpulkan oleh Ken Lang. Ini terdiri dari 1000 artikel dari
masing-masing 20 newsgroup Usenet (nama newsgroup yang dianggap sebagai
kategori). Setelah penghapusan artikel duplikat, seperti yang biasanya
digunakan, mengandung 18.941 artikel.
4. Clef
centrated
pada bahasa-bahasa Eropa dan lintas-bahasa pencarian informasi.
isiatif
CLEF (Konferensi dan Labs dari Forum Evaluasi, sebelumnya dikenal sebagai
Cross-Language Forum Evaluasi) adalah lembaga self-organized misi utamanya
adalah untuk mempromosikan penelitian, inovasi, dan pengembangan sistem akses
informasi dengan penekanan pada multibahasa dan multimodal informasi dengan
berbagai tingkat struktur.
Clef
mempromosikan penelitian dan pengembangan dengan menyediakan infrastruktur
untuk:
- multibahasa dan pengujian sistem multimodal, tuning dan evaluasi;
- penyelidikan penggunaan terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik diperkaya dengan akses informasi;
- penciptaan koleksi tes dapat digunakan kembali untuk pembandingan;
- eksplorasi metodologi evaluasi baru dan cara-cara inovatif untuk menggunakan data eksperimen;
- pembahasan hasil, perbandingan pendekatan, pertukaran ide, dan transfer pengetahuan.
Inisiatif Clef
disusun dalam dua bagian utama:
- serangkaian Evaluasi Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses informasi dan lokakarya untuk membahas dan kegiatan percontohan evaluasi yang inovatif;
- Konferensi peer-review pada berbagai isu, termasuk melanjutkan penyelidikan kegiatan Labs Evaluasi;
- percobaan menggunakan data multibahasa dan multimodal, khususnya, tetapi tidak hanya, data yang dihasilkan dari kegiatan Clef;
- penelitian dalam metodologi evaluasi dan tantangan.
Sejak
tahun 2000 Clef telah memainkan peran utama dalam penyelidikan merangsang dan
penelitian di berbagai bidang utama dalam domain pencarian informasi, menjadi
terkenal di masyarakat IR internasional. Hal ini juga mempromosikan studi dan
implementasi metodologi evaluasi yang tepat untuk beragam jenis tugas dan
media. Selama bertahun-tahun, komunitas riset yang luas, kuat, dan
multidisiplin telah dibangun, yang meliputi dan mencakup berbagai bidang
keahlian yang dibutuhkan untuk menangani penyebaran kegiatan Clef.
Hasilnya
tradisional disajikan dan dibahas pada lokakarya tahunan dalam hubungannya
dengan Konferensi Eropa untuk Perpustakaan Digital (ECDL), sekarang disebut
Teori dan Praktek di Perpustakaan Digital (TPDL).
Sejak
2010, Clef telah mengambil bentuk suatu peristiwa independen, dibentuk oleh
sebuah konferensi peer-review diselenggarakan dengan satu set laboratorium
evaluasi.