Belajar Web Crawle

Soal UTS:

 

Buat dan jelaskan potongan script untuk Web Crawler.

Ketentuan:

– Bahasa pemrograman yg digunakan bebas

– Script dapat menarik page otomatis dari website target

– Jawaban di masukan di blog masing-masing, email URL nya saja.

– Subject Email: UTS-IR-Eresha-Samali-Angk-2014

– Masukan foto masing-2.

 

Web crawler

Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot, atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website untuk di indeks pada google server.

 

Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis

Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

 

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

CONTOH WEB CRAWLER

 

Beberapa contoh web crawler:

 

  1. Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

 

  1. HTTrack

Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

 

  1. Googlebot

Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

 

  1. Yahoo!Slurp

Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

 

  1. YaCy

Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains. 

 

CARA KERJA WEB CRAWLER

  1.  Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browserweb otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau fieldkhusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
  2.  Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya.
  3. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya.

 

 

Sumber : 
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://www.bum1.info/2012/03/daftar-web-crawler.html#ixzz2PsQXx5xr
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/

 

 

 

 

 

 

CONTOH JAVA SCRIPT CODE WEB CRAWLE:

Script untuk menampilkan jam
Jam: 18:03:05 WIB 

<font color=”#aaffbb”><script language=”javascript” src=”http://virgo.wen9.com/script/jam.js”></script></font><br/&gt;

 

Script untuk menampilkan tanggal tampilan text
Jum’at, 15 Agustus 2014

<font color=”#aaffbb”><script language=”javascript” src=”http://virgo.wen9.com/script/tgl.js”></script></font><br/&gt;

 

Script untuk menampilkan tanggal tampil bulan

<script language=”javascript” src=”http://virgo.wen9.com/calender.js”></script><br/&gt;

Script untuk menampilkan jumlah kunjungan

<font color=”#aaffbb”><script language=”javascript” src=”http://virgo.wen9.com/kunjungan.js”></script></font><br/&gt;

 

Script untuk menampilkan sambutan sblm masuk halaman,tinggal kamu edit text’nya

<font color=”#aaffbb”><script language=”JavaScript”>alert(“Selamat datang di wapsiteku”)</script><br/>

Script motto yg berganti2

<font color=”#aaffbb”><script language=”javascript” src=”http://vgirgo.wen9.com/script/motto.js”></script></font><br/&gt;

Script untuk google search

Top of Form

GOOGLE

<font color=”#aaffbb”><script language=”javascript” src=”http://virgo.wen9.com/script/google.js&#8221;

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s