Senin, 19 November 2012

Tugas 2 IR







PENGEMBANGAN UJI COLLECTION

            koleksi uji standar adalah daftar koleksi tes yang paling standar dan seri evaluasi. Ada  beberapa koleksi tes serupa untuk teks classification yaitu : 
  1.  TREC (dilakukan oleh NIST, sejak 1992)
  2. Reuters (Text Classification)
  3. Cranfield (pioner, tahun 1950an) 
  4. CLEF (European Language) 
1.    Trec 

Ø  Sejarah

Pada tahun 1992, Departemen Pertahanan AS bersama dengan Institut Nasional Standar dan Teknologi (NIST), mensponsori para Konferensi Text Retrieval (Trec) sebagai bagian dari program teks TIPSTER.
Teks Retrieval Konferensi (Trec). The US National Institute of Standards. Trec dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi sejak 1992. Dalam kerangka ini, ada banyak lagu selama rentang koleksi uji beda, tetapi koleksi tes paling dikenal adalah yang digunakan untuk melacak Trec Ad Hoc selama 8 evaluasi pertama Trec antara 1992 dan 1999. Secara total, ini koleksi pengujian terdiri dari 6 CD mengandung 1,89 juta dokumen (terutama, tetapi tidak eksklusif, Newswire artikel) dan penilaian relevansi untuk 450 kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian teks rinci. Uji individu collections didefinisikan lebih himpunan bagian yang berbeda dari data ini. Awal TREC masing-masing terdiri dari 50 kebutuhan informasi, dievaluasi lebih berbeda tetapi overlapping set dokumen. TRECs 6-8 menyediakan kebutuhan informasi 150 selama sekitar 528,000 Newswire dan Layanan Broadcast Informasi Luar Negeri artikel. Ini mungkin adalah subcollection terbaik untuk digunakan dalam pekerjaan di masa depan, bekarena itu adalah yang terbesar dan topik yang lebih konsisten. Karena tes Online edisi (c) 2009 Cambridge UP 154. 
 
Ø  Tujuan Trec

          Tujuan dari ini adalah untuk melihat ke dalam pencarian informasi masyarakat dengan menyediakan infrastruktur yang dibutuhkan untuk evaluasi metodologi pencarian teks pada koleksi teks yang sangat besar. Penelitian ini katalis pada metode yang skala besar ke korporasi. Pengenalan web mesin pencari telah meningkatkan kebutuhan untuk sistem skala yang sangat besar pengambilan lebih jauh.

Ø  Trec Teknis Prestasi

Trec bertujuan untuk meningkatkan sistem evaluasi IR melalui lima mekanisme utama.

1.      Penciptaan baru, koleksi uji yang lebih besar. Sebelum tahun 1991, uji publik koleksi yang kecil, yang terdiri dari paling banyak beberapa ribu dokumen dan dengan demikian memiliki dipertanyakan aplikasi untuk situasi dunia nyata, di mana sistem IR mungkin diperlukan untuk mencari ratusan ribu dokumen. Selama periode ini, yang terbesar koleksi uji populer digunakan berisi sekitar 12.000 dokumen (Voorhees dan Harman, 2005). Sebaliknya, koleksi uji yang digunakan pada Trec pertama pada tahun 1992 berisi sekitar 750.000 dokumen. Ini merupakan peningkatan lebih dari 80 - lipat dalam 1 tahun.
2.      Pengembangan metode evaluasi IR standar. Program Trec dikembangkan dan didistribusikan "koleksi test" yang peneliti IR dapat digunakan untuk mengevaluasi mereka IR sistem. Koleksi uji terdiri dari tiga komponen:
3.       koleksi dokumen,
4.      satu set kebutuhan informasi atau pertanyaan, dan     
5.       seperangkat penilaian yang menunjukkan dokumen yang relevan untuk query yang berbeda. Dengan menggunakan koleksi pengujian yang sama dan metodologi pengujian yang sama dikembangkan oleh Trec, peneliti IR juga bisa menggunakan sumber daya untuk membandingkan kinerja sistem IR mereka secara lebih sistematis dan standar busana.          
Trec awalnya menciptakan koleksi pengujian baru dan metodologi evaluasi untuk routing dan
ad hoc tugas dan kemudian diperluas untuk mendukung bidang-bidang seperti IR novel sebagai video, e-discovery, dan spam. Trec cepat menjadi tempat dasar untuk mengembangkan baru IR evaluasi metodologi, pengujian baru IR algoritma, dan baru pelatihan IR peneliti. Selama 18 tahun terakhir, koleksi uji Trec dan metodologi telah menjadi defacto standar dengan mana peneliti IR mempublikasikan hasil penelitian yang dipertahankan,sebanding, dan direproduksi.
6.      Organisasi lokakarya penelitian IR tahunan. Trec menggunakan sumber daya yang
dikembangkan untuk memfasilitasi kompetisi tahunan dan tuan rumah lokakarya tahunan (di mana Hasil dari kompetisi tersebut disampaikan), tapi IR peneliti yang tidak berpartisipasi dalam kompetisi Trec dan / atau menghadiri lokakarya masih bisa menggunakan koleksi pengujian dan membaca deskripsi metodologi dan makalah yang diterbitkan setelah setiap
lokakarya. Program Trec telah menciptakan suatu proses yang obyektif untuk teknik IR menjadi dibandingkan dan hasilnya didiskusikan dan disebarluaskan.
7.      Distribusi hasil penelitian. Selain menciptakan sebuah proses obyektif untuk
mengevaluasi teknik IR, Program Trec memfasilitasi penyebarluasan evaluasi hasil. Peserta Trec dapat membaca semua dokumen Trec di konferensi dan sesudahnya; makalah Trec dilepaskan untuk nonparticipants sekitar 6 bulan kemudian.
8.      Pengembangan model untuk lokakarya IR lainnya. Membangun off teknik evaluasi
dan format yang pertama kali dirancang oleh Cyril Cleverdon di College Cranfield pada pertengahan 1950-an, Trec menciptakan pertama semakin banyak program dan lokakarya yang bertujuan untuk memfasilitasi evaluasi yang ketat sistem, tujuan IR. Trec ini Dampak terhadap IR Penelitian Jika tujuan IR adalah untuk mencocokkan orang dengan informasi yang mereka cari, maka sistem IR dapat dianggap sebagai metode yang digunakan untuk mencapai tujuan tersebut. Gambar ES-1 menggambarkan umum ilustrasi bagaimana kerja sistem IR. Diagram ini menguraikan tugas-tugas sistem IR harus lengkap untuk mengambil set dokumen yang relevan dengan kebutuhan pencari informasi; Namun, sistem IR berbeda dalam cara dan bahkan urutan tugas-tugas yang dicapai. Trec telah mendukung perbaikan sistem IR terutama dengan meningkatkan set dokumen tersedia bagi komunitas riset IR oleh ukuran, menyediakan metodologi standar, dan oleh tuan lokakarya tahunan IR penelitian (Tabel ES-1 memberikan gambaran tentang peristiwa penting dalam sejarah Trec). Bukti dari dampak Trec pada perbaikan sistem IR telah disajikan di seluruh literatur akademik. Misalnya, Buckley, Singhal, dan Mitra (1997) menganalisis kinerja sistem sedang dievaluasi dalam Hoc Trec Ad dan Routing trek.
Penggunaan metode digital untuk menyimpan dan mengambil informasi telah menyebabkan fenomena usang digital , di mana sumber daya digital tidak lagi dapat dibaca karena media fisik, pembaca diminta untuk membaca media, perangkat keras, atau perangkat lunak yang berjalan di atasnya , tidak lagi tersedia. Informasi ini awalnya lebih mudah untuk mengambil daripada jika berada di atas kertas, tetapi kemudian secara efektif hilang. 

Ø  Timeline
  • Sebelum 1900-an
1801: Joseph Marie Jacquard menciptakan alat tenun Jacquard , mesin pertama yang menggunakan kartu menekan untuk mengontrol urutan operasi.
1880: Herman Hollerith menciptakan sebuah tabulator elektro-mekanik data menggunakan punch card sebagai media mesin yang dapat dibaca.
1890 Hollerith kartu , keypunches dan tabulasi yang digunakan untuk memproses 1890 Sensus Amerika Serikat data.
  • 1920-1930-an
Emanuel Goldberg menyampaikan paten untuk "Mesin statistik" nya mesin pencarian dokumen mesin yang digunakan sel fotolistrik dan pengenalan pola untuk mencari metadata pada gulungan dokumen mikrofilm.
  • 1940-1950-an
1940-an: Masalah AS dihadapkan militer pengindeksan dan pengambilan dokumen perang penelitian ilmiah ditangkap dari Jerman.
1947: Hans Peter Luhn (penelitian insinyur di IBM sejak 1941) mulai bekerja pada sistem berbasis kartu mekanik pukulan untuk mencari senyawa kimia.
1950: Tumbuh kekhawatiran di Amerika Serikat untuk "kesenjangan ilmu" dengan pendanaan Uni Soviet termotivasi, mendorong dan memberikan latar belakang untuk sistem sastra mekanik mencari ( Allen Kent et al.) dan penemuan pengindeksan kutipan ( Eugene Garfield ).
1950: The "pencarian informasi" istilah tampaknya telah diciptakan oleh Calvin Mooers . [2]
1951: Philip Bagley dilakukan percobaan awal dalam pengambilan dokumen terkomputerisasi dalam tesis master di MIT . [3]
1955: Allen Kent bergabung Case Western Reserve University , dan akhirnya menjadi direktur dari Pusat Dokumentasi dan Komunikasi Penelitian. Pada tahun yang sama, Kent dan koleganya menerbitkan kertas di Amerika Dokumentasi menggambarkan langkah-langkah presisi dan recall serta merinci "kerangka" yang diusulkan untuk mengevaluasi sistem IR yang termasuk metode sampling statistik untuk menentukan jumlah dokumen yang relevan tidak diambil.
1958: Konferensi Internasional Informasi Ilmiah Washington DC termasuk pertimbangan sistem IR sebagai solusi untuk masalah diidentifikasi. Lihat: Prosiding Konferensi Internasional Informasi Ilmiah, 1958 (National Academy of Sciences, Washington, DC, 1959)
1959: Hans Peter Luhn menerbitkan "Auto-encoding dokumen untuk pengambilan informasi."
  • 1960:
awal 1960-an: Gerard Salton mulai bekerja pada IR di Harvard, kemudian pindah ke Cornell.
1960: Melvin Earl (Bill) Maron dan John Lary Kuhns [4] diterbitkan "Pada relevansi, pengindeksan probabilistik, dan pengambilan informasi" dalam Journal of ACM 7 (3) :216-244, Juli 1960.
1962:
    • Cyril W. Cleverdon menerbitkan temuan awal dari studi Cranfield, mengembangkan sebuah model untuk evaluasi sistem IR. Lihat: Cyril W. Cleverdon, "Laporan Pengujian dan Analisis Investigasi ke Efisiensi Perbandingan Sistem Pengindeksan". Cranfield Collection of Aeronautics, Cranfield, Inggris, 1962.
    • Kent diterbitkan Analisis Informasi dan Retrieval.
1963:
    • Laporan Weinberg "Sains, Pemerintah dan Informasi" memberikan artikulasi penuh gagasan "krisis informasi ilmiah." Laporan ini dinamai Dr Alvin Weinberg .
    • Joseph Becker dan Robert M. Hayes diterbitkan teks pada pencarian informasi. Becker, Joseph, Hayes, Robert Mayo Penyimpanan informasi dan pengambilan: alat, elemen, teori.. New York, Wiley (1963).
1964:
    • Karen Sparck Jones menyelesaikan tesis nya di Cambridge, Sinonim dan Klasifikasi Semantic, dan terus bekerja pada linguistik komputasi yang berlaku untuk IR.
    • The National Bureau of Standards mensponsori simposium berjudul "statistik Asosiasi Metode Dokumentasi Mechanized." Beberapa kertas yang sangat signifikan, termasuk referensi pertama G. Salton yang diterbitkan (kami percaya) kepada SMART sistem.
pertengahan 1960-an:
    • National Library of Medicine dikembangkan Medlars Analisis Sastra Medis dan Sistem Retrieval, besar pertama yang dapat dibaca mesin database dan batch-sistem pencarian.
    • Proyek Intrex di MIT.
1965: JCR Licklider diterbitkan Perpustakaan Masa Depan.
1966: Don Swanson terlibat dalam studi di Universitas Chicago pada Persyaratan untuk Catalogs Masa Depan.
akhir 1960-an: F. Wilfrid Lancaster menyelesaikan studi evaluasi sistem Medlars dan menerbitkan edisi pertama dari teks nya pada pencarian informasi.
1968:
    • Gerard Salton diterbitkan Organisasi Informasi Otomatis dan Retrieval.
    • John W. Sammon, Jr 's RADC Tek laporan "Beberapa Matematika Penyimpanan Informasi dan Retrieval ..." diuraikan model vektor.
1969: Sammon ini "Sebuah pemetaan linier untuk analisis struktur data" (IEEE Transaksi di Komputer) adalah proposal pertama untuk visualisasi antarmuka untuk sistem IR.
  • 1970
awal 1970-an:
    • Pertama sistem online-NLM yang AIM-TWX, MEDLINE, Dialog Lockheed, ORBIT SDC ini.
    • Theodor Nelson Konsep mempromosikan hypertext , diterbitkan Komputer Lib / Mesin Dream.
1971: Nicholas Jardine dan Cornelis van J. Rijsbergen diterbitkan "The penggunaan clustering hirarkis dalam pencarian informasi", yang diartikulasikan "hipotesis cluster." (Informasi Penyimpanan dan Retrieval, 7 (5), hlm 217-240, Desember 1971)
1975: Tiga publikasi yang sangat berpengaruh oleh Salton sepenuhnya diartikulasikan vektor pengolahan nya kerangka dan model jangka diskriminasi:
    • A Theory of Pengindeksan (Society for Matematika Industri dan Terapan)
    • A Theory of Pentingnya Term dalam Analisis Teks Otomatis ( JASIS ay 26)
    • A Space Vector Model untuk Pengindeksan Otomatis ( CACM 18:11)
1978: Pertama ACM SIGIR konferensi.
1979: CJ van Rijsbergen dipublikasikan Information Retrieval (Butterworths). Berat penekanan pada model probabilistik.
  • 1980
1980: Pertama internasional ACM SIGIR konferensi, bersama dengan British Computer Society IR kelompok di Cambridge.
1982: Nicholas J. Belkin , Robert N. Oddy, dan Helen M. Brooks mengusulkan sudut pandang ASK (Negara anomali Pengetahuan) untuk pencarian informasi. Ini adalah konsep penting, meskipun alat analisis otomatis mereka terbukti akhirnya mengecewakan.
1983: Salton (dan Michael J. McGill) Pengantar dipublikasikan ke Information Retrieval Modern (McGraw-Hill), dengan penekanan pada model vektor.
1985: Blair dan Maron mempublikasikan: Evaluasi Efektivitas Retrieval untuk Sistem Kendali-Teks Dokumen-Retrieval
pertengahan 1980-an: Upaya untuk mengembangkan versi pengguna akhir sistem IR komersial.
1985-1993: makalah kunci dan sistem eksperimental untuk antarmuka visualisasi.
1989: Pertama World Wide Web proposal oleh Tim Berners-Lee di CERN .
  • 1990
1992: Pertama Trec konferensi.
1997: Publikasi Korfhage Penyimpanan Informasi 's dan Retrieval [5] dengan penekanan pada visualisasi dan multi-referensi sistem poin.
1990-an: Web search engine pelaksanaan banyak fitur sebelumnya hanya ditemukan di sistem IR eksperimental. Search engine menjadi Instansiasi paling umum dan mungkin yang terbaik dari model IR, penelitian, dan implementasi. 

2. Reuters

Koleksi telah menjadi Reuters-21.578 koleksi 21.578 Newswire articles, Baru-baru ini, Reuters merilis banyaklebih besar Reuters Corpus Volume 1 (RCV1), yang terdiri dari 806.791 dokumen; Penjelasan yang skala dan kaya membuat dasar yang lebih baik
untuk penelitian masa depan.
            Reuters digunakan Untuk klasifikasi teks, tes Reuters paling banyak digunakan koleksi telah menjadi Reuters-21.578 koleksi 21.578 Newswire. Baru-baru ini, Reuters merilis banyak lebih besar Reuters Corpus Volume 1 (RCV1), yang terdiri dari 806.791 dokumen. Skala dan kaya annotationmakes itu dasar yang lebih baik untuk penelitian masa depan. 20 Newsgroup Ini adalah teks lain banyak digunakan klasifikasi koleksi, 20 newsgroup dikumpulkan oleh Ken Lang. Ini terdiri dari 1000 artikel dari masing-masing 20 Usenet newsgroup (nama newsgroup yang dianggap sebagai kategori). Setelah penghapusan artikel duplikat, seperti yang biasanya digunakan, mengandung 18.941 artikel.


3.      Cranfield

Sistem Informasi otomatis pertama pengambilan diperkenalkan pada 1950-an dan 1960-an. Pada tahun 1970 beberapa teknik yang berbeda telah terbukti melakukan dengan baik pada kecil corpora teks seperti koleksi Cranfield (beberapa ribu dokumen). [1] sistem pengambilan besar-besaran, seperti sistem Dialog Lockheed, mulai dipakai pada awal tahun 1970-an.
Yaitu tepat kuantitatif ukuran efektifitas pencarian informasi, tetapi saat terlalu kecil untuk apa pun kecuali pilot yang paling dasar pengalaman KASIH. Dikumpulkan di Inggris dimulai pada akhir 1950-an, itu conPeng 1.398 abstrak artikel jurnal aerodinamis,satu set 225 pertanyaan,dan penilaian relevansi lengkap dari semua (query, dokumen) pasang. dan Reuters-RCV1. Untuk klasifikasi teks, koleksi uji yang paling digunakan telah menjadi Reuters-21.578 koleksi 21.578 artikel Newswire. Baru-baru ini, Reuters merilis Volume Reuters jauh lebih besar Corpus 1 (RCV1), yang terdiri dari 806.791 dokumen. Penjelasan yang  lebih sempurna membuat dasar yang lebih baik untuk penelitian masa depan.
    20 Newsgroup. Ini adalah teks lain banyak digunakan klasifikasi koleksi, dikumpulkan oleh Ken Lang. Ini terdiri dari 1000 artikel dari masing-masing 20 newsgroup Usenet (nama newsgroup yang dianggap sebagai kategori). Setelah penghapusan artikel duplikat, seperti yang biasanya digunakan, mengandung 18.941 artikel.

4.    Clef

centrated pada bahasa-bahasa Eropa dan lintas-bahasa pencarian informasi.

isiatif CLEF (Konferensi dan Labs dari Forum Evaluasi, sebelumnya dikenal sebagai Cross-Language Forum Evaluasi) adalah lembaga self-organized misi utamanya adalah untuk mempromosikan penelitian, inovasi, dan pengembangan sistem akses informasi dengan penekanan pada multibahasa dan multimodal informasi dengan berbagai tingkat struktur.
Clef mempromosikan penelitian dan pengembangan dengan menyediakan infrastruktur untuk:
  •    multibahasa dan pengujian sistem multimodal, tuning dan evaluasi;
  •   penyelidikan penggunaan terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik       diperkaya dengan akses informasi;  
  •    penciptaan koleksi tes dapat digunakan kembali untuk pembandingan;                               
  •   eksplorasi metodologi evaluasi baru dan cara-cara inovatif untuk menggunakan data eksperimen;
  •  pembahasan hasil, perbandingan pendekatan, pertukaran ide, dan transfer pengetahuan.    

Inisiatif Clef disusun dalam dua bagian utama:
  •  serangkaian Evaluasi Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses informasi dan lokakarya untuk membahas dan kegiatan percontohan evaluasi yang inovatif;       
  •   Konferensi peer-review pada berbagai isu, termasuk melanjutkan penyelidikan kegiatan Labs Evaluasi;
  •   percobaan menggunakan data multibahasa dan multimodal, khususnya, tetapi tidak hanya, data yang dihasilkan dari kegiatan Clef;
  •   penelitian dalam metodologi evaluasi dan tantangan.          
Sejak tahun 2000 Clef telah memainkan peran utama dalam penyelidikan merangsang dan penelitian di berbagai bidang utama dalam domain pencarian informasi, menjadi terkenal di masyarakat IR internasional. Hal ini juga mempromosikan studi dan implementasi metodologi evaluasi yang tepat untuk beragam jenis tugas dan media. Selama bertahun-tahun, komunitas riset yang luas, kuat, dan multidisiplin telah dibangun, yang meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan untuk menangani penyebaran kegiatan Clef.           
Hasilnya tradisional disajikan dan dibahas pada lokakarya tahunan dalam hubungannya dengan Konferensi Eropa untuk Perpustakaan Digital (ECDL), sekarang disebut Teori dan Praktek di Perpustakaan Digital (TPDL).                                    
Sejak 2010, Clef telah mengambil bentuk suatu peristiwa independen, dibentuk oleh sebuah konferensi peer-review diselenggarakan dengan satu set laboratorium evaluasi.