Syntax Robot.txt Sebelum Copy-Paste

mantapkan, itu belum semuanya
Ada beberapa hal yang harus anda baca sebelum copy paste Robot.txt dari website kompetitor atau orang lain, karena syntax ini sangat penting untuk dipahami, soalnya kalau salah copy bisa-bisa situs anda tidak ter-index oleh search engine, bacalah dengan seksama.

Syntax ini mempunyai arti yakni melarang crawler robot dari berbagai search engine untuk seluruh situs web anda. Tapi perlu dicatat bahwa dalam beberapa hal, URL dari situs web masih diindeks oleh crawler, Serta syntax ini tidak cocok dengan crawler AdsBot, dan  harus ditambahkan secara manual. untuk bisa menggunakannya
User-agent: *
Disallow: /
Melarang crawler untuk melihat file direktori /Calender dan /Junk beserta isinya dengan mengikuti nama direktori dengan garis miring setelahnya. Gunakanlah otentikasi yang tepat untuk memberikan larangan yang sesuai seperti konten yang bersifat pribadi. Mungkin direktori tersebut masih diindeks tanpa dirayapi karena file robots.txt bisa dilihat oleh siapa saja, yang berpotensi terindex dari lokasi konten pribadi Anda.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Yang berarti syntax ini mengijinkan crawler Googlebot-news mengindex situs anda, bot lain tidak bisa meng-crawler situs anda.
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
Ini bisa diartikan ada beberapa bot tidak bisa meng-crawler situs anda. 
User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
Syntax ini memerintah bot untuk melarang perayapan(crawler) hanya 1 halaman web dengan mencantumkan URL setelah slash (/).
User-agent: *
Disallow: /private_file.html
Nah ini berfungsi sebagai pemblokiran   index gambar tertentu dari Google Image
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Kalau ini memblokir semua gambar di situs Anda dari pengindex-an Google Image.
User-agent: Googlebot-Image
Disallow: /
Jika syntax ini aktif maka adanya larangan crawler file dari jenis file tertentu (misalnya, .gif) jenis file bisa dirubah, sesuai contoh.
User-agent: Googlebot
Disallow: /*.gif$
Larang semua Bot untuk crawler seluruh situs, pengecualian iklan AdSense di halaman itu, dan kedua larang semua web crawler selain Bot Mediapartners-Google. Kasus ini,  dapat diartikan bahwa anda menyembunyikan halaman web Anda dari hasil pencarian (tidak ter-index) akan tetapi crawler web Mediapartners-Google masih dapat untuk memutuskan iklan apa yang akan ditampilkan kepada pengunjung untuk situs Anda.
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Sama halnya dengan yang gif tadi, ini adalah contoh lain untuk memblokir supaya file ini tidak terindex oleh search engine.
User-agent: Googlebot
Disallow: /*.xls$




Lebih baru Lebih lama

Formulir Kontak