|
Robot.TXT |
Sebuah file robots.txt membatasi akses ke situs Anda dengan robot mesin pencari yang menjelajah web. Bot ini yang otomatis, dan sebelum mereka mengakses halaman situs, mereka memeriksa untuk melihat apakah file robots.txt ada yang mencegah mereka mengakses halaman tertentu. (Semua robot terhormat akan menghormati arahan dalam file robots.txt, meskipun beberapa dapat menafsirkan secara berbeda Namun, robots.txt tidak berlaku,. Dan beberapa spammer dan pengacau lain mungkin mengabaikannya. Untuk alasan ini, kami sarankan password melindungi informasi rahasia.)
Untuk melihat URL Google telah diblokir dari merangkak, kunjungi halaman URL Diblokir dari bagian Kesehatan Webmaster Tools. Anda memerlukan file robots.txt hanya jika situs
Anda mencakup konten yang Anda tidak ingin mesin pencari untuk mengindeks. Jika Anda ingin mesin pencari untuk semua indeks di situs Anda, Anda tidak memerlukan file robots.txt (bahkan tidak satu kosong). Meskipun Google tidak akan merangkak atau mengindeks konten halaman diblokir oleh robots.txt, kita masih dapat mengindeks URL jika kita menemukan mereka di halaman lain di web. Akibatnya, URL dari halaman dan, berpotensi, informasi publik yang tersedia lainnya seperti jangkar teks dalam link ke situs, atau judul dari Open Directory Project (www.dmoz.org), dapat muncul dalam hasil pencarian Google.
Untuk menggunakan file robots.txt, Anda harus memiliki akses ke akar domain Anda (jika Anda tidak yakin, hubungi hoster web Anda). Jika Anda tidak memiliki akses ke root domain, Anda dapat membatasi akses dengan menggunakan tag meta robot. Untuk sepenuhnya mencegah isi suatu halaman dari yang tercantum dalam indeks web Google bahkan jika situs lain link ke sana, menggunakan tag meta noindex atau x-robot-tag. Selama Googlebot mengambil halaman, ia akan melihat meta tag noindex dan mencegah dari halaman yang muncul di indeks web. Header x-robot-tag HTTP adalah sangat berguna jika Anda ingin membatasi pengindeksan file non-HTML seperti grafis atau jenis lain dari dokumen. Buat file robots.txt File robots.txt sederhana menggunakan dua aturan:
User-agent: robot aturan berikut berlaku untuk
Disallow: URL yang akan diblokir
Kedua baris dianggap satu entri di file. Anda dapat memasukkan entri sebanyak yang Anda inginkan. Anda dapat menyertakan baris Disallow ganda dan beberapa pengguna-agen dalam satu entri. Setiap bagian dalam file robots.txt adalah terpisah dan tidak membangun di atas bagian sebelumnya. Sebagai contoh:
User-agent: *Disallow: / folder1 /
User-Agent: Googlebot
Disallow: / Folder2 /
Dalam contoh ini hanya URL yang cocok / Folder2 / akan menjadi batasan bagi Googlebot.User-agen dan bot.
Sebuah agen-pengguna adalah robot mesin pencari tertentu. Web Robot database daftar bot umum. Anda dapat mengatur sebuah entri untuk diterapkan ke bot tertentu (dengan daftar nama) atau Anda dapat mengaturnya agar berlaku untuk semua bot (dengan daftar tanda bintang). Entri yang berlaku untuk semua bot terlihat seperti ini:
User-agent: *
Google menggunakan bot yang berbeda (user-agen). Bot kita gunakan untuk pencarian web kami adalah Googlebot. Bot kami yang lain seperti Googlebot-Mobile dan Googlebot-Image mengikuti aturan yang Anda buat bagi Googlebot, tetapi Anda dapat membuat aturan khusus untuk bot khusus juga.
Memblokir pengguna-agen Garis Larang berisi daftar halaman yang ingin Anda blok. Anda dapat melihat daftar URL tertentu atau pola. Entri tersebut harus dimulai dengan garis miring (/).
Untuk memblokir seluruh situs, gunakan garis miring.
Disallow: /
Untuk memblokir direktori dan segala isinya, ikuti nama direktori dengan garis miring.
Disallow: / junk-direktori /
Untuk memblokir halaman, daftar halaman.
Disallow: / private_file.html
Untuk menghapus gambar tertentu dari Foto Google, tambahkan berikut ini:
User-agent: Googlebot-Image
Disallow: / images / dogs.jpg
Untuk menghapus semua gambar pada situs Anda dari Google Images:
User-agent: Googlebot-Image
Disallow: /
Untuk memblokir file tipe file tertentu (. Misalnya, gif), gunakan berikut:
User-agent: Googlebot
Disallow: / * gif $.
Untuk mencegah halaman di situs Anda tidak ditelusuri, sementara masih menampilkan iklan AdSense di halaman tersebut, melarang semua bot selain Mediapartners-Google. Hal ini membuat halaman muncul dalam hasil pencarian, namun memungkinkan Mediapartners-Google robot untuk menganalisis halaman untuk menentukan iklan yang bisa ditampilkan. Para Mediapartners-Google robot tidak berbagi halaman dengan pengguna-agen lain Google. Sebagai contoh:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /Perhatikan bahwa arahan adalah case-sensitive. Misalnya, Disallow: / junk_file.asp akan memblokir http://www.example.com/junk_file.asp, tapi akan memungkinkan http://www.example.com/Junk_file.asp. Googlebot akan mengabaikan white-space (dalam baris kosong khususnya) dan arahan dikenal di robots.txt.
Googlebot mendukung pengajuan Sitemap file melalui file robots.txt.
Pola pencocokan
Googlebot (tetapi tidak semua mesin pencari) menghormati beberapa pencocokan pola.
Untuk mencocokkan urutan karakter, gunakan tanda bintang (*). Misalnya, untuk memblokir akses ke semua subdirektori yang dimulai dengan swasta:
User-agent: Googlebot
Disallow: / private * /
Untuk memblokir akses ke semua URL yang menyertakan tanda tanya (lebih spesifik, setiap URL yang dimulai dengan nama domain Anda, diikuti dengan string, diikuti dengan tanda tanya, diikuti beberapa string) (?):
User-agent: Googlebot
Disallow: / *?
Untuk menentukan pencocokan akhir URL, gunakan $. Misalnya, untuk memblokir URL yang diakhiri dengan xls.:
User-agent: Googlebot
Disallow: / * xls $.
Anda dapat menggunakan pencocokan pola dalam kombinasi dengan direktif Izinkan. Misalnya, jika? menunjukkan ID sesi, Anda mungkin ingin mengecualikan semua URL yang berisi mereka untuk memastikan Googlebot tidak menjelajah halaman duplikat. Tetapi URL yang diakhiri dengan? mungkin versi halaman yang Anda ingin disertakan. Untuk situasi ini, Anda dapat mengatur file robots.txt Anda sebagai berikut:
User-agent: *
Allow: / * $
Disallow: / *?
Para Disallow: / *? direktif akan memblokir URL yang mencakup? (Lebih spesifik, akan memblokir URL yang dimulai dengan nama domain Anda, diikuti beberapa string, diikuti dengan tanda tanya, diikuti beberapa string).
Izinkan: / * $ direktif akan mengizinkan URL yang diakhiri dengan? (Lebih spesifik, itu akan memungkinkan setiap URL yang dimulai dengan nama domain Anda, diikuti string, diikuti?, Tanpa karakter setelah?).
Simpan file robots.txt Anda dengan men-download file atau menyalin isi ke file teks dan menyimpannya sebagai robots.txt. Simpan file ke direktori tingkat tertinggi situs Anda. File robots.txt harus berada di root domain dan harus bernama "robots.txt". Sebuah file robots.txt yang terletak di subdirektori tidak sah, karena bot hanya memeriksa file ini di root domain.
Misalnya, http://www.example.com/robots.txt adalah lokasi yang valid, tapi
http://www.example.com/mysite/robots.txt tidak.
Menguji file robots.txt
Alat robots.txt Test akan menunjukkan Anda jika file robots.txt Anda tanpa sengaja memblokir Googlebot dari file atau direktori di situs Anda, atau jika itu memungkinkan Googlebot untuk merangkak file yang seharusnya tidak muncul di web. Bila Anda memasukkan teks dari file robots.txt yang diusulkan, alat membacanya dengan cara yang sama Googlebot tidak, dan daftar efek dari file dan masalah yang ada.
Menguji file robots.txt sebuah situs:
Pada halaman Depan Webmaster Tools, klik situs yang Anda inginkan
Dalam Kesehatan, klik URL Diblokir.
Jika belum dipilih, klik tab robots.txt Test.
Salin isi file robots.txt Anda, dan paste ke kotak pertama.
Pada kotak URL, daftar situs untuk uji terhadap.
Dalam daftar User-agen, pilih pengguna-agen yang Anda inginkan.
Setiap perubahan yang Anda buat dalam alat ini tidak akan disimpan. Untuk menyimpan perubahan, Anda harus menyalin isi dan paste ke dalam file robots.txt Anda.
Alat ini memberikan hasil hanya untuk Google pengguna-agen (seperti Googlebot). Bot lain mungkin tidak menafsirkan file robots.txt dengan cara yang sama. Misalnya, Googlebot mendukung definisi diperpanjang dari protokol robots.txt standar. Ini memahami Izinkan: arahan, serta beberapa pencocokan pola. Jadi sementara alat bantu menunjukkan baris yang menyertakan ekstensi seperti yang dipahami, ingatlah bahwa ini hanya berlaku untuk Googlebot dan tidak perlu untuk bot lain yang dapat menjelajah situs Anda.
Untuk Lebih Jelasnya Baca
Disini