Crawler Si Bot Pencarian
Assalamu’alaikum..
Pengertian
Web Crawler
Dalam
rangka tugas softskil, kami satu tim yang terdiri dari 5 orang ditugaskan untuk mencari beberapa ulasan
seperti Analisis Web, Search Engine, Web Archiving,
dan Web Crawlers . Untuk Pembahasan yang pertama ini salah satunya yang
akan kita bahas adalah Web Crawler. Mungkin kalian bertanya Tanya
sebenernya Web Crawler itu apa sih ? trus fungsinya untuk apa ? oke dari
pada kalian tambah penasaran, mending langsung aja ya disimak pembahasannya..
Web
Crawler bisa juga disebut sebagai bot pencarian atau spider ialah program yang
berfungsi menelusuri web yang ada di dunia maya dan berkunjung ke web-web
tersebut atas nama search engine, hasil dari spider ini untuk menemukan link
baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah
mengindex dan menyimpan data di database para pemilik botnya.
Tentu
saja Web Crawler ini mempunyai fungsi pula, nah disini Ada dua fungsi utama Web
Crawler, yaitu :
1.
Mengidentifikasikan Hyperlink.
Hyperlink
yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga
dengan istilah frontier.
2.
Melakukan proses kunjungan/visit
secara rekursif.
Dari
setiap Hyperlink, web crawler akan
menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan
dengan keperluan aplikasi. Untuk gambarnya bisa dilihat dibawah :
Lihat Gambar:
Arsitektur
Web Crawler
Cara Kerja Web Crawler
Crawler diawali dengan adanya daftar
URL yang akan dikunjungi (seeds). Setelah crawler mengunjungi URL tersebut,
kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan
kembali ke dalam seeds (Crawl Frontier). Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di
dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya
ke sebuah storage.
Web
crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topic
tertentu saja. Web crawler yang hanya mengumpulkan topic tertentu saja disebut
topical web crawler. Web crawler dimulai dengan sekumpulan URL, kemudian di
download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi
kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut.
Untuk gambar cara kerjanya lihat dibawah :
Lihat Gambar:
Oke biar kalian tambah
ngerti kami akan memberikan Beberapa
Contoh dari Web Crawler, simak ya.. :
1.
Teleport Pro
Salah satu software web crawler untuk
keperluan offline browsing, software ini cukup popular, terutama pada saat
koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan
beralamatkan di http://www.tenmax.com/
2.
HTTrack
Ditulis dengan menggunakan bahasa
Pemrograman C, merupakan software yang dapat mendownload konten website menjadi
sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik
dari software ini free dan dapat didownload pada website resminya di http://www.httrack.com .
3.
Googlebot
Web crawler untuk membangun index
pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan
oleh orang lain melalui Google, bias jadi itu dari Googlebot.
4.
Yahoo! Slurp
Ini merupakan search engine Yahoo,
teknologinya dikembangkan oleh Inktomi Corporation yang diakusisi oleh Yahoo!.
5.
YaCy
Berbeda dengan yang lain , YaCy
dibangun atas prinsip P2P (peer-to-peer), di develop dengan java, dan
didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di
share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server
central. Contoh search engine yang menggunakan YaCy ialah Sciencenet (http://sciencenet.fzk.de ), untuk pencarian
dokumen di bidang sains.
Sampai
disini dulu ya pembahasan mengenai Web Crawler-nya.. bila ada kata-kata yang
salah mohonn dimaafkan.. nantikan pembahasan lainnya ya tentang Analisis Web,
Search Engine, Web Archiving.. Terima kasih... ^^
Tim Kami :
1. Ayu Amizah ( 51411317 )
2. Mahdhika Juliansyah ( 54411246 )
3. Muhammad Faris Al Fatih ( 54411827 )
4. Rachman Aji Putra Kusumaa ( 58411572 )
5. Tio Pratama Agung ( 57411119 )
Wassalamu'alaikum...
Lihat Sumber:
Nice infonya.. sangat membantu ris.
ReplyDeleteoke sama sama sob, terima kasih telah berkunjung.. ^^
Deleteada batasan gak gan untuk menggunakan web crawler, apakah harus setiap hari atau seminggu sekali agar website kita cepat terindex mesin pencari
ReplyDeletelebih bagusnya update artikel setiap hari kang, tapi mungkin jika kegiatan pada offline nya sibuk, tak apa 3 atau seminggu sekali, asalkan dilakukan terus menerus dan rutin. (pastinya viewer pun berbeda dari yang update setiap hari)
Delete