Crawler Si Bot Pencarian

Tugas Softskill

Assalamu’alaikum..

Pengertian Web Crawler

Dalam rangka tugas softskil, kami satu tim yang terdiri dari 5 orang ditugaskan untuk mencari beberapa ulasan seperti Analisis Web, Search Engine, Web Archiving, dan Web Crawlers . Untuk Pembahasan yang pertama ini salah satunya yang akan kita bahas adalah Web Crawler. Mungkin kalian bertanya Tanya sebenernya Web Crawler itu apa sih ? trus fungsinya untuk apa ? oke dari pada kalian tambah penasaran, mending langsung aja ya disimak pembahasannya..

Web Crawler bisa juga disebut sebagai bot pencarian atau spider ialah program yang berfungsi menelusuri web yang ada di dunia maya dan berkunjung ke web-web tersebut atas nama search engine, hasil dari spider ini untuk menemukan link baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah mengindex dan menyimpan data di database para pemilik botnya.

Tentu saja Web Crawler ini mempunyai fungsi pula, nah disini Ada dua fungsi utama Web Crawler, yaitu :

1. Mengidentifikasikan Hyperlink.

Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

2. Melakukan proses kunjungan/visit secara rekursif.

Dari setiap Hyperlink, web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi. Untuk gambarnya bisa dilihat dibawah :

Lihat Gambar:

Arsitektur Web Crawler

Cara Kerja Web Crawler

Crawler diawali dengan adanya daftar URL yang akan dikunjungi (seeds). Setelah crawler mengunjungi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan kembali ke dalam seeds (Crawl Frontier). Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage.

Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topic tertentu saja. Web crawler yang hanya mengumpulkan topic tertentu saja disebut topical web crawler. Web crawler dimulai dengan sekumpulan URL, kemudian di download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut. Untuk gambar cara kerjanya lihat dibawah :

Lihat Gambar:

Oke biar kalian tambah ngerti kami akan memberikan Beberapa Contoh dari Web Crawler, simak ya.. :

1. Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com/

2. HTTrack

Ditulis dengan menggunakan bahasa Pemrograman C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di http://www.httrack.com .

3. Googlebot

Web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bias jadi itu dari Googlebot.

4. Yahoo! Slurp

Ini merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakusisi oleh Yahoo!.

5. YaCy

Berbeda dengan yang lain , YaCy dibangun atas prinsip P2P (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet (http://sciencenet.fzk.de ), untuk pencarian dokumen di bidang sains.

Sampai disini dulu ya pembahasan mengenai Web Crawler-nya.. bila ada kata-kata yang salah mohonn dimaafkan.. nantikan pembahasan lainnya ya tentang Analisis Web, Search Engine, Web Archiving.. Terima kasih... ^^

Tim Kami :

1. Ayu Amizah ( 51411317 )

2. Mahdhika Juliansyah ( 54411246 )

3. Muhammad Faris Al Fatih ( 54411827 )

4. Rachman Aji Putra Kusumaa ( 58411572 )

5. Tio Pratama Agung ( 57411119 )

Wassalamu'alaikum...

Lihat Sumber:

Baca Juga :

Web Archiving

Analisis Web

Search Engine