Ada beberapa hal yang harus anda baca sebelum copy paste Robot.txt dari website kompetitor atau orang lain, karena syntax ini sangat penting untuk dipahami, soalnya kalau salah copy bisa-bisa situs anda tidak ter-index oleh search engine, bacalah dengan seksama.
Syntax ini mempunyai arti yakni melarang crawler robot dari berbagai search engine untuk seluruh situs web anda. Tapi perlu dicatat bahwa dalam beberapa hal, URL
dari situs web masih diindeks oleh crawler, Serta syntax ini
tidak cocok dengan crawler AdsBot, dan harus ditambahkan secara manual. untuk bisa menggunakannya
|
User-agent:
*
Disallow:
/
|
Melarang crawler untuk melihat file direktori /Calender dan /Junk beserta isinya dengan mengikuti nama direktori dengan garis
miring setelahnya. Gunakanlah otentikasi yang tepat untuk memberikan larangan yang sesuai seperti konten yang bersifat pribadi. Mungkin direktori tersebut masih diindeks tanpa
dirayapi karena file robots.txt bisa dilihat oleh siapa saja, yang berpotensi terindex dari lokasi konten pribadi Anda.
|
User-agent: *
Disallow: /calendar/
Disallow: /junk/
|
Yang berarti syntax ini mengijinkan crawler Googlebot-news mengindex situs anda, bot lain tidak bisa meng-crawler situs anda.
|
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
|
Ini bisa diartikan ada beberapa bot tidak bisa meng-crawler situs anda.
|
User-agent:
Unnecessarybot
Disallow:
/
User-agent:
*
Allow: /
|
Syntax ini memerintah bot untuk melarang
perayapan(crawler) hanya 1 halaman web dengan mencantumkan URL setelah slash (/).
|
User-agent:
*
Disallow:
/private_file.html
|
Nah ini berfungsi sebagai pemblokiran index gambar tertentu dari Google Image
|
User-agent:
Googlebot-Image
Disallow:
/images/dogs.jpg
|
Kalau ini memblokir
semua gambar di situs Anda dari pengindex-an Google Image.
|
User-agent:
Googlebot-Image
Disallow:
/
|
Jika syntax ini aktif maka adanya larangan crawler file dari jenis file tertentu (misalnya, .gif) jenis file bisa dirubah, sesuai contoh.
|
User-agent:
Googlebot
Disallow:
/*.gif$
|
Larang
semua Bot untuk crawler seluruh situs, pengecualian iklan AdSense di halaman itu, dan kedua larang semua web crawler selain Bot Mediapartners-Google. Kasus ini, dapat diartikan bahwa anda menyembunyikan halaman web Anda dari hasil pencarian (tidak ter-index) akan tetapi crawler web
Mediapartners-Google masih dapat untuk memutuskan iklan apa
yang akan ditampilkan kepada pengunjung untuk situs Anda.
|
User-agent:
*
Disallow:
/
User-agent:
Mediapartners-Google
Allow: /
|
Sama halnya dengan yang gif tadi, ini adalah contoh lain untuk memblokir supaya file ini tidak terindex oleh search engine.
|
User-agent:
Googlebot
Disallow:
/*.xls$
|
Tags:
Berita Hari Ini