Web Archiving Yang Terawetkan
Assalamu’alaikum..
Sesuai
janji saya yang sebelumnya telah Membahas Apa itu Web Crawler, namun kali ini saya dan teman teman akan akan melanjutkan membahas tentang Apa Itu Web Archiving. Ada yang tau ga Web Archiving itu apa ? kalau di
terjemahain pake bahasa indonesia sih Pengarsipan
Web. Maksudnya pengarsipan itu setau saya kita mengelompokkan web tersebut
hingga tersusun rapih. Nah untuk mengetahui lebih lanjut apa itu Web Archiving, simak dibawah ini ya.. :
Apa itu Web Archiving ?
Web Achiving atau pengarsipan adalah proses pengumpulan bagian dari World Wide Web (WWW)
untuk memastikan informasi yang diawetkan dalam arsip bagi para peneliti di
masa depan, sejarawan, dan masyarakat umum. Web terbesar pengarsipan organisasi
berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha
untuk memelihara arsip dari seluruh Web Perpustakaan Nasional , Arsip Nasional dan
berbagai konsorsium organisasi juga terlibat dalam pengarsipan konten Web
budaya penting. Web komersial pengarsipan perangkat lunak tersedia untuk
organisasi yang perlu arsip konten web.
Pengumpulan Web
Arsiparis
web umumnya biasanya mengumpulkan arsip berbagai jenis konten web termasuk HTML
halaman web, style sheet , JavaScript , gambar , dan video yang . Mereka juga
arsip metadata tentang sumber daya dikumpulkan seperti waktu akses, tipe MIME ,
dan panjang konten. Metadata ini berguna dalam membangun keaslian dan asal dari
koleksi arsip. Jangan lupa tak begitu saja arsiparis mengumpulkan arsip yang
begitu banyak adanya, tentu saja ada metode-metodenya.
*maksudnya arsiparis
diatas adalah orang yang mengelola, memelihara, dan memberikan informasi suatu
dokumen/file. Oke silahkan simak metode dibawah ini :
Metode Pengumpulan web
1. Jauh
panen
Yang
paling umum teknik web pengarsipan bekerja sama dengan web crawler untuk
mengotomatisasi proses pengumpulan halaman web . Web crawler biasanya mengakses
halaman web dengan cara yang sama bahwa pengguna dengan browser melihat Web,
dan karena itu menyediakan metode yang relatif sederhana konten web panen jauh.
Contoh web crawler digunakan untuk web pengarsipan meliputi:
• Heritrix
• HTTrack
• Wget
2. On-Demand
Ada
banyak layanan yang dapat digunakan untuk sumber arsip web
"on-demand", namun menggunakan teknik web merangkak. Layanannya
seperti berikut :
• Aleph Arsip ,
layanan pengarsipan web untuk kepatuhan terhadap peraturan dan eDiscovery
bertujuan untuk perusahaan industri hukum dan pemerintah.
• Archive.is , sebuah layanan gratis yang menyimpan halaman
dan semua gambar nya. Hal ini dapat menyimpan halaman Web 2.0.
• Arsip-It ,
sebuah layanan berlangganan yang memungkinkan lembaga untuk membangun,
mengelola dan mencari arsip web mereka sendiri.
• Archivethe.net , shared web-platform pengarsipan dioperasikan
oleh Internet Research Memory, spin-off dari memori internet dasar (sebelumnya
Yayasan Arsip Eropa). IM Situs Web.
• Kepatuhan WatchDog
oleh SiteQuest Teknologi , sebuah layanan berlangganan yang memungkinkan pengguna
untuk menelusuri situs , seperti yang
muncul di masa lalu. Hal ini juga memonitor situs jika disitus tersebut
terdapat perubahan.
• Snapshot freezePAGE
, sebuah layanan gratis / berlangganan. Untuk melestarikan snapshot.
• NextPoint ,
menawarkan berbasis cloud otomatis, untuk kebutuhan terkait pemasaran,
kepatuhan dan litigasi termasuk penemuan elektronik
• Situs-Archive.com ,
layanan berlangganan. Menangkap layar-tembakan halaman, transaksi dan
perjalanan pengguna menggunakan "browser yang sebenarnya".
Layar-tembakan dapat dilihat secara online atau download dalam arsip bulanan.
Menggunakan Pengujian Cloud teknologi.
• Dll, karna
penyedia layanan situs archive ini sangatlah banyak.
Database Pengarsipan
Database
pengarsipan mengacu pada metode untuk pengarsipan konten yang mendasari situs
database-driven. Hal ini biasanya memerlukan ekstraksi dari basis data konten
ke standar skema , sering menggunakan XML . Setelah disimpan dalam format
standar, konten diarsipkan beberapa database kemudian dapat dibuat tersedia
menggunakan sistem akses tunggal. Pendekatan ini dicontohkan oleh DeepArc dan
Xinq alat yang dikembangkan oleh Bibliotheque nationale de France dan National
Library of Australia.
Transaksional
pengarsipan
Transaksional
pengarsipan merupakan pendekatan-event, yang mengumpulkan transaksi aktual yang
terjadi antara server web dan browser web . Hal ini terutama digunakan sebagai
sarana melestarikan bukti dari isi yang sebenarnya dilihat pada tertentu situs
web , pada tanggal tertentu.
Sebuah
sistem pengarsipan transaksional biasanya beroperasi dengan mencegat setiap
HTTP request ke, dan respon dari, web server, penyaringan setiap respon untuk
menghilangkan duplikat konten, dan secara permanen menyimpan tanggapan sebagai
bitstreams. Sebuah sistem pengarsipan transaksional membutuhkan instalasi
perangkat lunak pada server web, dan karenanya tidak dapat digunakan untuk
mengumpulkan konten dari situs remote.
Crawler
Web
arsip yang mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan
Web dipengaruhi oleh kesulitan merangkak web :
• Para robot protokol pengecualian
dapat meminta crawler tidak dapat mengakses bagian dari sebuah situs web.
• Sebagian besar dari
sebuah situs web mungkin tersembunyi di dalam Web . Misalnya, halaman hasil
balik formulir web terletak pada dalam Web karena kebanyakan crawler tidak bisa
mengikuti link ke halaman hasil.
• Perangkap Crawler,
dapat menyebabkan crawler untuk men-download jumlah tak terbatas halaman,
sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis sehingga
tidak pesat kemajuannya.
Namun,
penting untuk dicatat bahwa format web
arsip asli, yaitu, dibrowse arsip web sepenuhnya, dengan link kerja, media,
dll, hanya benar-benar mungkin menggunakan teknologi crawler.
Keterbatasan Umum
Tidak
hanya harus arsiparis web menghadapi tantangan teknis web pengarsipan, mereka
juga harus berhadapan dengan hukum kekayaan intelektual. Peter Lyman menyatakan
bahwa "Meskipun Web Yang Populer
Dianggap Sebagai Domain Publik Sumber Daya, Itu Hak Cipta , Dengan Demikian,
Arsiparis Tidak Memiliki Hak Legal Untuk Menyalin Web ". Namun
perpustakaan nasional di banyak negara memiliki hak legal untuk menyalin
bagian-bagian dari web di bawah perpanjangan deposito hukum .
Beberapa
arsip web nirlaba swasta yang dibuat dapat diakses publik seperti WebCite ,
yang Internet Archive atau memori internet memungkinkan pemilik konten untuk
menyembunyikan atau menghapus konten diarsipkan bahwa mereka tidak ingin publik
untuk memiliki akses ke. Arsip web lainnya hanya dapat diakses dari lokasi
tertentu atau memiliki penggunaan diatur. WebCite mengutip gugatan baru
terhadap caching Google.
Aspek Kurasi Web (menambahkan nilai dan memilih hanya konten yang paling relevan untuk
pengguna spesifik)
Web yang memiliki kurasi,
seperti kurasi digital, harus memiliki seperti :
• Sertifikasi kepercayaan dan integritas isi koleksi
• Mengumpulkan aset Web diverifikasi
• Menyediakan pencarian aset Web dan pengambilan
• Kontinuitas semantik dan ontologis dan komparatif dari isi
koleksi
Dengan
demikian, di samping membahas metode pengumpulan Web, mereka memberikan akses,
sertifikasi, dan pengorganisasian harus disertakan. Ada satu set alat populer
yang membahas langkah-langkah kurasi :
Sebuah suite alat untuk
Web Kurasi oleh International Internet Preservation Consortium :
• Heritrix - situs
resmi - mengumpulkan aset Web
• NutchWAX -
pencarian Web arsip koleksi
• Wayback (Open
source Wayback Machine) pencarian koleksi arsip Web menggunakan NutchWax
• Web Kurator Alat
- Seleksi dan Pengelolaan Web Collection
• dll .
Sampai
disini dulu ya pembahasan tentang Web
Archiving nya.. bila ada kata-kata yang salah mohon dimaafkan.. nantikan
pembahasan lainnya ya tentang Analisis Web dan Search Engine.. Terima kasih... ^^
Tim Kami :
1. Ayu Amizah ( 51411317 )
2. Mahdhika Juliansyah ( 54411246 )
3. Muhammad Faris Al Fatih ( 54411827 )
4. Rachman Aji Putra Kusumaa ( 58411572 )
5. Tio Pratama Agung ( 57411119 )
Wassalamu'alaikum...
0 Response to "Web Archiving Yang Terawetkan"
Post a Comment