SAYFALARI DEĞERLENDİRMEK VE SPAM’I SAPTAMAK İÇİN GOOGLE’IN ALGORİTMASI: PhraseRank
Ta en başından beri, Google’ın ayırıcı özelliği, popülarite sıralama sonucunda çıkan hyperlinklerdi. Web belgelerinin anlamlılığını değerlendirmek için metin içeriğini kullanan algoritmalar, daha az rol oynarlar. Bu ayrılığa sebep olan şeyler kısaca pragmatiktir: web belgelerinin yazarları kendi içerikleri üzerinde bütün kontrole sahiptirler ve sıralama algoritmalarını oyuna getirmek ve arama motorlarında daha üst pozisyonlar edinmek için bunu değiştirmekte özgürdürler. Bununla birlikte, hyperlinkler web uzmanlarından daha az etkilenirler ve daha makul otorite (link ağırlığı) ve anlamlılık (link anchor) miktarı sağlarlar.
Google daha sonra, anahtar kelime zengini web sayfalarının otomatikleştirilmiş oluşumu veya anahtar kelime yoğunluğunu ayarlama gibi manipulasyon girişimlerine duyarsız olmak için kendini kanıtlayabilen içeriğine dayalı bir web belgesinin anlamlılığını değerlendirmek için yeni bir yol tanıtmıştır. Aslında bu sistem, paralı içeriksel reklamlarla birlikte anlamsız anahtar zengini içerik gösteren MFA (Made for Adsense) sitelerine karşı bir ilaç olabilir.
Google ’ın 2007 yılında ortaya çıkardığı indeksleme ve sıralama sistemi, sözcük öbeklerinin (phrases) kullanımına dayalıdır. Kullanıcının gözünden, çoğu durumda arama sorguları, anahtar kelime gruplarından ziyade, sözcük öbekleri veya kavramlarına dayalıdır. Buna rağmen, alışılagelmiş indeksleme sistemleri hala bireysel terimlere bağlıdır. Sözcük öbeklerinin indekslenmesinden kaçınılır çünkü mümkün olan bütün kelime kombinasyonlarının tanımlanması çok büyük hafıza ve sayısal kaynaklar gerektirebilir. Örneğin, 200,000 benzersiz kelimenin bir sözlüğü, yaklaşık 3.2×10 26 sözcük öbeğine sahip olabilir ve bu seo çalışmalarımızda bir çıkmaza sebep olucaktır. Böylesi büyük miktarda bir veriyi de saklayacak veya etkili bir şekilde manipule edecek bir hafıza yoktur.
Bu sorun, takip edilen belgelerde etkili bir şekilde alışılmış ve ayrılmış sözcük öbeklerini saptayan yeni sistemde çözülmüştür. Sözcük öbeklerini saptayarak ve geçerliliklerini belirleyerek, sistem birden fazla kelime öbeğini tanımlayabilir. Bu da, çeşitli uzunluktaki kelime öbeklerinin bütün olası kombinasyonlarını indeksleme ihtiyacını ortadan kaldırır.
Diğer bir önemli özellik ise, bir web sayfasındaki diğer kelime öbeklerinin varlığını tahmin eden sözcük öbeklerinin yetisidir. Mesela, Türkiye’nin Cumhurbaşkanı gibi bir kelime öbeği, içinde Çankaya Köşkü geçen bir kelime öbeğini içeren bir belgeyi gösterir. Her bir kelime öbeği için, sistem, onların önemine göre sıralanmış ilişkili uygun bir kelime öbekleri listesi oluşturur. Bu da sistemin alakalı kelime öbeklerinin çok fazla görünümüne dayalı spam sayfalarını saptamasını sağlar.
Peki sistem nasıl işler ve nasıl seo uygulamsı yapılır?
İndeksleme süreci, alakalı kelime öbekleriyle bu kelime öbeklerinin tanımlanmasını içerir. Sistem, kelimeler dizilerini analiz eder ve onları “iyi” veya “kötü” kelime öbekleri olarak işaretler. İyi kelime öbekleri, indekslenen belgelerde sıklıkla oluşan veya fark edilebilir bir görünüme sahip olanlardır: işaretleme imleri, noktalama veya diğer işaretlerle sınırlandırılanlar gibi. İyi kelime öbeklerinin diğer bir ayırıcı nokta ise, az önce Türkiye’nin Cumhurbaşkanı örneğinde belirtmiş olduğumuz alakalı kelime gruplarını tahmin edebilme yetisidir. Mesela, Ay ışığı ile mavi rengi gibi iki anlamsız kelime grupları, biribirleriyle ilgili çağrışım yapmadığından kötü kelime öbekleri olarak adlandırılabilir.
İndeksleme süreci sonunda, sistem, tahmine dayalı bir ölçüm olarak bir birliktelik matrisiyle birlikte geçerli kelime öbeklerinin bir listesini oluşturur. Böyle bir listenin tahmini boyutu 650,000 sözcük öbeğidir.
İyi kelime öbekleri listesi veya kayıt listesi aşağıdaki yapıya sahiptir:
Kelime öbeği i: liste: (belge d, [liste: ilişkili kelime öbeği sayımı] [ilişkili kelime öbeği bilgisi]
Her bir “i” kelime öbeği için “i” yi içeren d belgesinin bir listesi vardır. Her bir belge için “i” ile ilişkili olan kelime öbeklerinin oluşum sayısı ve ilişkili kelime öbekleriyle ilgili bilgileri içeren bir bit vektörü vardır.
Arama sistemi, bir sorgu alır ve içindeki kelime öbeklerini tanımlar. Sorgu kelimelerinin Q grubu yaratıldığında, sistem Q’daki sorgu kelime öbekleri için kayıt listeleri alır. Kayıt listeleri, belgelerin bir listeden fazlasında göründüğü noktada karar vermek için kesişirler.
Belgeler, kendi bit vektörü değerlerine göre sıralanabilirler. En anlamlı kelime öbeklerini içeren bir belge, en yüksek bit vektörü değerine sahiptir ve en yüksek sıralamayı alır. Bu yaklaşım, arama sonuçlarını sıralayan alakalı kelime öbekleri hakkında bilgi kullanır ve böylece zayıf sıklığı olan kelime öbeğine sahip belgeler bile yüksek sıklığı olan alakalı kelime öbekleri sayesinde yüksek pozisyonlara ulaşırlar.
Son sıralama skorunu üretmek için “body hit” skorları çizgisel bir işlev formunda “anchor hit” skorlarıyla bütünleşir.
Seo=Rank = (body hit score)*weight1 + (anchor hit score)*weight2.
Her bir kelime öbeği için indeksleme sistemi ayrıca, gelen ve giden linklerdeki bir anchor olan verilmiş kelime öbeklerindeki belgeler listesini yaratır. Yani d belgesi için anchor hit skoru, d belgesini referans eden bir belgedeki anchor terimi olan Q sorgu kelime öbeklerinin alakalı kelime öbeği bit vektörlerinin bir işlevi olarak hesaplanabilir.
Google’ın bu önceki kelime öbeği temelli yaklaşımı, spam belgelerini saptamak ve cezalandırmak için gelecek indeksleme sistemini mevcut kılar. Belge koleksiyonunun istatistiksel bir analizi, normal bir web sayfasının 8 ila 20 alakalı kelime öbeği içerdiğini gösterir. Abartılı anahtar kelime yoğunluğuyla şişirilmiş Arama sıralama sistemini kandıran spam sayfalarının 100 veya daha fazla alakalı kelime öbeği kullanması beklenmektedir. Bu sebeple, alakalı kelime öbeklerini saptamak, aynı zamanda spam sayfaları da saptamak anlamına gelecektir.
Bu sistem ayrıca otomatik olarak oluşturulmuş içerikleri saptamak için de uygulanabilir. Böyle içerikler genelde MFA denilen çok fazla reklam içerikli sitelerdir ve anlamsız anahtar kelime yoğunluğundan başka bir şey değildir. Alışılagelmiş eski indeksleme sistemlerinin bu gibi siteleri saptamasına karşın, bu siteler yine de zaman zaman sonuç sayfalarında yer alabilmektedir.