Robots.txt Nedir & Nasıl Oluşturulmalı? Gerekli Kodlar + Örnek!

Robots.txt
Google News | Abone Ol
Robots.txt Nedir & Ne İşe Yarar?

Google, Yandex gibi arama motorlarının böcek/örümcek/bot (crawler) denen araçları, web siteyi tararlar. Robots.txt dosyasında, bu botların veya herhangi bir tarayıcının, hangi sayfalara erişebileceği ve erişemeyeceği belirtilir. (Botlar, bunlara uymayabilirler.)

Robots.txt Dosyası Nereye Atılır/Nerede?

Robots.txt dosyası, “public_html” veya “www” klasöründe, yani web sitenizin ana dizininde olmalıdır. Başka bir dizine taşınması halinde taranmaz ve geçersiz olur.

Robots.txt Dosyasının Adı Değiştirilebilir Mi?

Hayır, robots.txt için standartlar bellidir; ismi değiştirilemez ve web sitesinin ana dizininde bulunmalıdır. Bu kriterlerin dışına çıkılmamalıdır.

Robots.txt Dosyası Nasıl Olmalı?

Robots.txt dosyasında, robotların ve örümceklerin erişmeleri, arama motorları tarafından gösterilmemesi gereken klasörleri belirtmeniz önemlidir.

User Agent

User Agent, ziyaretçinin/botun kimliğini belirtir. Herkesi veya belirli user agent’ları kapsayacak şekilde kural oluşturabilirsiniz. Örnek:

User-agent: *

Yukarıdaki kuralda kullanılan * (yıldız işareti), kuralın her bir bot/örümcek için geçerli olduğunu tanımlar. Başka bir örnek:

User-agent: Googlebot-Image

Bu kuralda, Google Görseller’e ait izinleri tanımlayabilirsiniz. Bir dizindeki görsellerin Google Resimler botu tarafından taranmasını istemiyorsanız, bu user agent’ı kullabilirsiniz.

Allow & Disallow

Allow: /wp-content/uploads/

Bu kural ile, web sitenizdeki “wp-content/uploads/” klasörünün taranmasına izin verebilirsiniz.

Disallow: /readme.html

Bu kural ile de, “readme.html” dosyasının taranmasını engelleyebilirsiniz.

Sitemap

Son olarak, web sitenizin sitemap dosyasının konumunu da ekliyoruz. Bu, arama motorlarının web sitenizdeki içeriklere kolayca ulaşabilmesi yani SEO açısından çok önemlidir.

Sitemap: https://cipies.com/sitemap_index.xml

Örnek Robots.txt Dosyası

Yukarıdaki kurallar ile, WordPress için örnek bir robots.txt dosyası oluşturduk:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /wp-content/plugins/
Disallow: /refer/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

Sitemap: https://cipies.com/post-sitemap.xml
Sitemap: https://cipies.com/sitemap_index.xml

Eklenti dizininin ve readme.html gibi WordPress web siteniz hakkında kritik olacak bilgiler içeren dosya veya klasörlerin, örümcekler tarafından taranması risklidir. Bunları “disallow” yapmanız tavsiye edilir.

Robots.txt Dosyasını Test Edin Ve Google’a Gönderin

  • Dosyayı oluşturun ve ardından Google’ın “robots.txt Test Aracı” sayfasına gidin.
  • Oluşturduğunuz kuralları kopyalayın ve yapıştırın. Bu araç sayesinde, Google botlarının herhangi bir sayfanıza erişebilip erişemediğini test edebilirsiniz.
  • Test, istediğiniz gibi sonuçlandıysa, robots.txt dosyasını Google’a göndererek güncellemesini isteyebilirsiniz. Bundan sonra Google’a ait örümcekler, web sitenizi tararken belirtmiş olduğunuz kurallara uyacaklar.

KAYNAK: https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=tr


İlgili Yazılar


Bir cevap yazın