SEO’da küçük şeyler yoktur. Bazen sadece küçük bir dosya olan Robots.txt, web sitesi tanıtımını etkileyebilmektedir. Arama robotlarının ihtiyaç duyduğunuz sayfaları atlaması için sitenizin dizine eklenmesini istiyorsanız, onlar için öneriler yazmanız gerekmektedir.
“Bu mümkün mü?” diye soruyorsunuz. Belki. Bunu yapmak için sitenizin bir robots.txt dosyasına sahip olması gerekmektedir. Bir robot dosyası nasıl doğru bir şekilde oluşturulmakta, yapılandırılmakta ve siteye eklenmektedir. Bu konuyu, bu makalede anlıyoruz.
robots.txt nedir? Ne işe yaramaktadır?
Robots.txt, arama robotları için öneriler içeren düz bir metin dosyasıdır. Hangi sayfaların taranması ve hangilerinin taranmaması gerektiğini göstermektedir.
Önemli: Dosya UTF-8’de kodlanmalıdır. Aksi takdirde arama robotları dosyayı kabul etmeyebilmektedir.
Bu dosyaya sahip olmayan bir site dizine girer mi? Olacaktır, ancak robotlar, arama sonuçlarında istenmeyen sayfaları “yakalayabilir”. Örneğin oturum açma sayfaları, yönetici paneli, kişisel kullanıcı sayfaları, yansıtma siteleri vb. Bütün bunlar “çöp arama” olarak kabul edilmektedir.
Arama sonuçlarında kişisel bilgiler yer alırsa hem siz, hem de site zarar görebilmektedir. Başka bir nokta ise, bu dosya olmadan sitenin indekslenmesi daha uzun sürecektir.
Robots.txt dosyasında arama örümcekleri için üç tür komut belirtilebilmektedir. Bunlar;
- Tarama yasaktır;
- Taramaya izin verilir;
- Taramaya kısmen izin verilir.
Bütün bunlar direktifler kullanılarak yazılmıştır.
Doğru Robots.txt dosyası nasıl oluşturulmaktadır?
Robots.txt dosyası, herhangi bir bilgisayarda varsayılan olarak bulunan Not Defteri programında kolayca oluşturulabilmektedir. Bir dosyayı ayarlamak, yeni başlayanlar için bile en fazla yarım saat sürecektir (komutları biliyorsanız).
Diğer programları da kullanabilirsiniz. Örneğin Not Defteri. Dosyayı otomatik olarak oluşturabilen çevrimiçi hizmetler de vardır.
Sitenizin adresini, hangi arama motorları için kurallar belirlemeniz gerektiğini, ana aynayı (www ile veya www olmadan) belirtmeniz yeterlidir. O zaman servis her şeyi kendisi yapacaktır.
Şahsen, eski yolu tercih ediyorum. Dosyayı manuel olarak not defterine kaydetmek en kolaydır. Ayrıca “tembel bir yol” vardır. Geliştiricinizi bununla şaşırtmak gerekmektedir. Ancak bu durumda bile, orada her şeyin doğru yazılıp yazılmadığını kontrol etmelisiniz. Bu nedenle, bu dosyayı nasıl derleyeceğimizi ve nerede olması gerektiğini bulalım.
Robots.txt dosyası nerede bulunmalıdır?
Biten Robots.txt dosyası sitenin kök klasöründe bulunmalıdır. Sadece bir dosya olarak bulunmalıdır. Klasörde bulunmamalıdır.
Sitenizde olup olmadığını kontrol etmek ister misiniz? Adres çubuğuna adresi yazı. Örnek; siteadresiniz.com/robots.txt. Aşağıdaki sayfayı göreceksiniz (eğer dosya varsa):
Dosya, bir girinti ile ayrılmış birkaç bloktan oluşmaktadır. Her blok, farklı arama motorlarının arama robotları için öneriler (artı herkes için genel kuralları olan bir blok) ve site haritasına bağlantılar içeren ayrı bir blok ve Site Haritası içermektedir. Bir arama robotu için kurallarla bloğun içine girinti yapmaya gerek yoktur. Her blok, User-agent yönergesi ile başlamaktadır.
Her yönergeyi bir “:” işareti (iki nokta üst üste), ardından bir değerin belirtildiği (örneğin, indekslemeden hangi sayfanın kapatılacağı) bir boşluk izler.
Mutlak olanları değil, göreli sayfa adreslerini belirtmeniz gerekmektedir. Göreceli olan adresler, “www.siteadresiniz.com” olma olmayacaktır. Örneğin, www.siteadresiniz.com/shop sayfasının indekslenmesini yasaklamanız gerekmektedir. Bu yüzden iki nokta üst üste işaretinden sonra bir boşluk, eğik çizgi ve “shop” koyarız. Örnek şu şekildedir;
Disallow: /shop.
Yıldız işareti (*) herhangi bir karakter kümesini belirtir.
Dolar işareti ($) satırın sonudur.
Karar verebilirsiniz. Herhangi bir sitede açıp kendinize kopyalayabiliyorsanız neden sıfırdan bir dosya yazıyorsunuz?
Her site için benzersiz kurallar belirlemeniz gerekmektedir. CMS’nin özelliklerini dikkate almak gereklidir. Örneğin, aynı yönetici paneli WordPress motorunda /wp-admin’de bulunmaktadır. Ancak başka bir adreste farklı olacaktır. Tek tek sayfaların adresleri, site haritası vb. ile aynıdır.
Robots.txt dosyasını ayarlama: indeksleme, ana ayna, direktifler
Ekran görüntüsünde de gördüğünüz gibi, User-agent yönergesi önce gelmektedir. Aşağıdaki kuralların hangi arama robotuna gideceğini göstermektedir.
Kullanıcı aracısı: * – tüm arama robotları, yani herhangi bir arama motoru (Google, Yandex, Bing, Rambler, vb.) için kurallar içerebilmektedir.
User-agent: Googlebot – Google arama örümceğinin kurallarını belirtmektedir.
User-agent: Yandex – Yandex arama robotu için kurallar içermektedir.
Hangi arama robotunun kuralları önce yazacağı konusunda bir fark yoktur. Ancak genellikle tüm robotlar için öneriler önce yazılmalıdır. Daha önce yazdığım gibi, her robot için öneriler girintilidir. Bunlar;
- Disallow: Dizine eklemeyi yasakla
Sitenin bir bütün olarak veya tek tek sayfalar olarak indekslenmesini devre dışı bırakmak için Disallow yönergesini kullanmak gerekmektedir.
Örneğin, siteyi dizine eklemekten tamamen kapatabilirsiniz (kaynak sonlandırılıyorsa ve bu durumda arama sonuçlarına girmesini istemiyorsanız). Bunu yapmak için aşağıdakileri yazabilirsiniz;
User-agentı: *
Disallow: /
Bu nedenle, tüm arama robotlarının sitedeki içeriği dizine eklemesi yasaktır.
Dizine eklemek için bir siteyi şu şekilde açabilirsiniz;
User-agent: *
Disallow:
Bu nedenle siteyi kapatmak istiyorsanız Disallow yönergesinden sonra eğik çizgi olup olmadığını kontrol edin. Daha sonra açmak isterseniz, kuralı kaldırmayı unutmayın (Bu genellikle olmaktadır.). Tek tek sayfaları indekslemeden kapatmak için adreslerini belirtmeniz gerekmektedir.
User-agent: *
Disallow: /wp-admin
Böylece sitede admin paneli üçüncü şahısların görüşlerinden kapatılmıştır.
Başarısız bir şekilde indekslemeden kapatmanız gerekenler;
- Yönetim paneli;
- Kullanıcıların kişisel sayfaları;
- Sepetler;
- Site arama sonuçları;
- Giriş, kayıt, yetkilendirme sayfaları.
İndekslemeden ve belirli dosya türlerinden kapatabilirsiniz. Diyelim ki sitenizde dizine eklenmesini istemediğiniz bazı .pdf dosyalarınız var. Bu nedenle de arama robotları siteye yüklenen dosyaları çok kolay bir şekilde taramaktadır. Bunları indekslemeden aşağıdaki gibi kapatabilirsiniz;
User-agent: *
Disallow: /*. pdf$
İndeksleme için bir site nasıl açılmaktadır?
Bir site indekslemeye tamamen kapalı olsa bile, robots.txt için belirli dosyalara veya sayfalara giden yolu açabilirsiniz. Diyelim ki siteyi yeniden tasarlıyorsunuz, ancak hizmetler dizini olduğu gibi kalıyor. Bölümü indekslemeye devam etmeleri için arama robotlarını oraya yönlendirebilirsiniz. Bunun için Allow yönergesi kullanılabilmektedir. Örnek olarak;
User-agent: *
Allow: /servisler
Disallow: /
Ana web sitesi aynası
20 Mart 2018’e kadar Yandex arama robotunun robots.txt dosyasında Host yönergesi aracılığıyla ana site aynasının belirtilmesi gerekiyordu. Artık bunu yapmanıza gerek yoktur. Sadece sayfa sayfa 301 yönlendirmesi ayarlamak gerekmektedir.
Ana ayna nedir? Bu, sitenizin ana adresidir. www ile veya www olmadan. Bir yönlendirme ayarlamazsanız, her iki site de dizine eklenecektir. Yani tüm sayfaların kopyaları olacaktır.
Site Haritası: robots.txt site haritası
Robotlar için tüm yönergeler yazıldıktan sonra Site Haritasına giden yolu belirtmelisiniz. Site haritası, dizine eklenmesi gereken tüm URL’lerin belirli bir adreste bulunduğunu robotlara göstermektedir. Örneğin:
Sitemap: siteadresiniz.com/sitemap.xml
Robot siteyi taradığında, bu dosyada hangi değişikliklerin yapıldığını görecektir. Sonuç olarak, yeni sayfalar daha hızlı dizine eklenecektir.
robots.txt’de yorumlar
Diğer web yöneticileri için dosyaya yorum bırakmanız gereken zamanlar vardır. Örneğin, kaynak iş için başka bir ekibe aktarılırsa veya sitede tüm ekip çalışıyorsa gerekebilmektedir. Diğer tüm dosyalarda olduğu gibi bu dosyada da diğer geliştiriciler için yorum bırakabilirsiniz. Bu basitçe yapılmaktadır. Mesajdan önce bir karma işareti koymanız gerekmektedir. Örneğin: “#”. Sonra notunuzu yazabilirsiniz, robot yazılanları dikkate almazsınız.
User-agent: *
Disallow: /*. xls$
# endekslemeden kapalı fiyatlar
robots.txt dosyasını doldururken sık yapılan hatalar
Web yöneticileri veya kaynak sahipleri tarafından en sık yapılan hatalar nelerdir?
- Hiç dosya yok. Bu en sık meydana gelen hatadır. Ayrıca sorunun kaynağı SEO denetimi sırasında ortaya çıkmaktadır. Kural olarak, o sırada sitenin istediğimiz kadar hızlı dizine eklenmediği veya dizine çöp sayfaların girdiği zaten fark edilmektedir.
- Bir komutta birden fazla klasör veya dizin listeleme eklemek. Yani, şöyle:
Allow: /katalog /hizmetler /mağaza
- Buna “neden daha fazla yazalım …” denmektedir. Bu durumda robot neyi indeksleyebileceğini bilemez. Her talimat yeni bir satırda başlamalıdır. Her klasörün veya sayfanın indekslenmesine izin verilmesi veya yasaklanması ayrı bir tavsiyedir.
- Farklı kayıtlar. Dosya adı küçük harf olmalı ve küçük harflerle yazılmalıdır. Büyük harf kullanılmamalıdır. Aynısı talimatlar için de geçerlidir. Her biri büyük harfli, diğer her şey küçüktür. Büyük harflerle yazarsanız, tamamen farklı bir yönerge olarak kabul edilecektir.
- Boş Kullanıcı aracısı. Hangi arama motoru için bir dizi kural olduğunu belirtmek gerekmektedir. Hepsi için ise bir yıldız işareti koyun, ancak boş bir alan bırakamazsınız.
- Tüm çalışmalardan sonra kaynağı indeksleme için açmayı unutmuşlardır. Sadece İzin Verme’den sonra eğik çizgiyi kaldırmamışlardır.
- Ekstra yıldızlar, boşluklar, diğer karakterler. Sadece dikkatsizlik.
Web yöneticisi araçlarınızı düzenli olarak kontrol edin ve robots.txt dosyanızdaki hataları zamanında düzeltin.