Website harus dirayapi dan diindeks untuk bisa ditampilkan di halaman hasil pencarian mesin telusur (search engine results pages | SERP). Sedangkan posisi atau peringkat website di halaman hasil pencarian ditentukan oleh algoritma mesin pencari. Merayapi dan mengindeks website adalah tugas dari search engine crawler yang juga disebut web crawler, spider, atau bots.
Proses merayapi website dimulai dari search engine crawler menemukan website di internet, merayapi halaman, mengikuti tautan (link) yang ditemukan, menganalisa konten, dan kemudian mengindeks yang telah dirayapi. Kapan, seberapa sering, dan berapa banyak URL atau halaman website dirayapi tergantung dari anggaran perayapan (crawl budget).
Apa Itu Crawl Budget?
Crawl budget (anggaran perayapan) adalah jumlah URL atau halaman web yang dirayapi search engine crawler seperti Googlebot dalam jangka waktu tertentu. Anggaran perayapan untuk setiap webste bisa berbeda dipengaruhi oleh banyak hal, misalnya sumber daya server di shared hosting atau dedicated hosting, popularitas website, serta besar kecilnya ukuran website.
Crawl Budget Memiliki Batasan.
Untuk merayapi halaman web, search engine crawler memiliki sumber daya yang terbatas. Search engine crawler harus membagi perhatian dengan jutaan website yang ada. Oleh karena itu, search engine crawler perlu memprioritaskan upaya perayapan dengan cara menentukan crawl budget (anggaran perayapan).
Crawl budget juga dibatasi untuk memastikan agar server hosting tidak kelebihan beban karena banyaknya koneksi bersamaan atau lonjakan lalu lintas. Ini akan berdampak pada penggunaan sumber daya server hosting. Penggunaan sumber daya server yang besar dapat membuat halaman web dimuat lambat yang pada akhirnya mempengaruhi pengalaman pengguna (user experience | UX) pengunjung website.
Kebanyakan website berada di shared hosting dan berbagi pakai server hosting. Umumnya, performa atau kecepatan respon website di shared hosting juga rendah dibanding website yang berada di dedicated hosting. Ini akan berpengaruh pada tinggi rendahnya crawl budget. Website di shared hosting umumnya memiliki crawl budget yang lebih rendah.
Penetapan Crawl Budget.
Penetapan crawl budget pada website dipengaruhi oleh dua faktor penting yaitu crawl rate (tingkat perayapan) dan crawl demand (permintaan perayapan).
1. Crawl rate.
Crawl rate (tingkat perayapan) adalah berapa banyak URL atau halaman web yang akan dicoba untuk dirayapi oleh search engine crawler. Dari sini akan dicapai crawl rate limit yaitu jumlah maksimum perayapan yang dapat dicapai oleh search engine crawler tanpa menurunkan performa website seperti perlambatan akibat masalah pada stabilitas server hosting.
2. Crawl demand.
Kecepatan perayapan bisa bervariasi dari URL atau halaman web satu ke URL atau halaman web lain berdasarkan permintaan (demand) untuk URL atau halaman web tertentu. Permintaan atau akses pengunjung pada halaman web yang diindeks sebelumnya dapat mempengaruhi seberapa sering search engine crawler merayapi halaman web tersebut.
Halaman web yang lebih populer kemungkinan besar lebih sering dirayapi oleh search engine crawler bila dibandingkan dengan halaman yang kurang populer atau halaman yang jarang dikunjungi. Demikian juga halaman web baru biasanya akan mendapat prioritas lebih bila dibandingkan dengan halaman lama yang jarang diubah.
Crawl Budget Berpengaruh Pada SEO.
Crawl budget menentukan seberapa sering perayapan dilakukan dan seberapa banyak URL atau halaman web dirayapi. Semakin besar crawl budget untuk website, akan semakin sering dan semakin banyak URL atau halaman web yang dirayapi. URL atau halaman web baru, halaman web yang diperbarui, dan halaman web yang belum diindeks akan lebih cepat dan lebih banyak diindeks. Ini secara otomatis berpengaruh pada meningkatnya performa SEO.
Halaman web yang sudah diindeks akan ditampilkan di halaman hasil pencarian mesin telusur (search engine resuls pages) dan berkesempatan untuk diklik oleh pengunjung. Semakin banyak traffic atau lalu lintas pengunjung ke website, akan semakin besar konversi seperti klik iklan, pengisian form, atau penjualan produk.
Mengoptimalkan Crawl Budget.
Crawl budget atau anggaran perayapan setiap website berbeda dan memiliki batasan. Mengoptimalkan crawl budget bertujuan agar crawl budget tidak terbuang secara percuma. Ada banyak upaya yang bisa dilakukan agar crawl budget dapat dioptimalkan.
1. Mempercepat pemuatan halaman web.
Kecepatan muat halaman (page speed) mempengaruhi proses perayapan. Halaman web yang dimuat cepat selain disukai pengunjung karena meningkatkan pengalaman pengguna (user experience | UX), juga mempengaruhi proses perayapan yang lebih maksimal. Semakin cepat halaman web dimuat, semakin cepat proses perayapan oleh search engine crawler dan semakin banyak pula URL atau halaman web yang dirayapi.
2. Menambahkan lebih banyak tautan (link).
Jumlah tautan (link) di halaman web bisa menjadi indikator betapa pentingnya halaman web tersebut. Search engine crawler seperti Googlebot memberikan prioritas untuk halaman web dengan lebih banyak tautan internal dan eksternal. Dengan menambahkan lebih banyak tautan dapat meningkatkan anggaran perayapan (crawl budget). Tautan eksternal mungkin sulit didapat, namun Anda dapat memulai dengan opsi yang lebih mudah yaitu tautan internal.
3. Memperbaiki tautan rusak.
Broken link atau tautan rusak, baik tautan internal maupun tautan eksternal, hanya akan membuang anggaran perayapan (crawl budget) yang tidak perlu. Search engine crawler akan merayapi jalan buntu karena halaman web tidak ditemukan. Memperbaiki tautan yang rusak dapat memulihkan anggaran perayapan yang terbuang percuma serta meningkatkan pengalaman pengguna (user experience) yang lebih baik.
4. Menghindari rantai panjang redirect.
Rantai panjang pengalihan (long chains of redirects) menjadikan search engine crawler membutuhkan waktu lebih lama untuk merayapi. Search engine crawler mungkin hanya mengikuti maksimal lima pengalihan berantai. Anda disarankan menghindari pengalihan berantai atau meminimalkan penggunaan pengalihan (redirect). Pengalihan berantai juga menyebabkan waktu muat halaman web lebih lama dan menurunnya pengalaman pengguna (user experience).
5. Menggunakan Disallow di robots.txt.
Robots.txt adalah file teks berisi instruksi untuk search engine crawler. Melalui robots.txt, Anda dapat memberikan instruksi kepada search engine crawler menggunakan Robots Exclusion Protocol. Melarang (disallow) direktori dan halaman yang tidak boleh dirayapi search engine crawler adalah cara yang baik mengoptimalkan crawl budget agar tidak terbuang percuma.
6. Menggunakan noindex di meta robots.
Instruksi disallow terkadang tidak menjamin halaman web tidak akan dirayapi search engine crawler. Search engine crawler dapat menggunakan cara lain seperti tautan internal (internal link) untuk merayapi halaman web yang idealnya dihilangkan atau tidak diindeks. Untuk mencegah search engine crawler mengindeks halaman tersebut, tag meta dengan noindex harus ditempatkan di bagian halaman.
7. Hindari URL salah di sitemap.
Sitemap (peta situs) adalah halaman yang memuat semua informasi tautan (link) yang terdapat di website. Semua tautan di sitemap adalah untuk halaman yang dapat diindeks. Search engine crawler mengandalkan sitemap terutama untuk website besar dalam menggunakan crawl budget secara efisien. Jika sitemap memiliki banyak tautan ke halaman yang tidak ada, crawl budget akan terbuang percuma. Oleh karena itu, Anda perlu memeriksanya secara berkala.
8. Mengatasi duplikasi konten.
Hampir semua website menghadapi duplikasi konten. Duplikasi konten dapat terjadi, misalnya mengubah url yang sudah diindeks secara sembarangan, memindahkan artikel ke direktori lain tanpa melakukan redirect 301, atau kesalahan dalam pengaturan fitur di CMS (Content Management System). Duplikasi konten menyebabkan proses perayapan tidak efisien dan membuang banyak anggaran perayapan (crawl budget).
Duplikasi konten harus diperbaiki untuk memastikan search engine crawler merayapi URL yang tepat. Anda dapat menambahkan artribut rel=canonical
pada url resmi yang harus dirayapi oleh search engine crawler. Bila website dibuat dengan CMS, Anda dapat menggunakan ekstensi (modul atau plugin) untuk memudahkan dalam menangani duplikasi konten yang terjadi.