Nieuw algoritme moet zoekmachine spam tegengaan

  • Bron (c) 2006, VirusAlert

Microsoft heeft blijkbaar een nieuw algoritme ontwikkeld om spam van zoekmachines tegen te gaan. De patentaanvraag werd in september 2004 door het bedrijf ingediend, maar is nu pas gepubliceerd. Het gaat hierbij om het fenomeen dat een pagina zo ontworpen wordt dat ze onterecht in de zoekresultaten van populaire termen terecht komt, te bestrijden. In de patentaanvraag beschrijven ze een algoritme waarmee spamsites herkend kunnen worden, om ze vervolgens uit de zoekresultaten te kunnen weren.

Op basis van onderzoek deed Microsoft enkele vaststellingen met betrekking tot eigenschappen van zoekmachinespam-pagina’s. Deze pagina’s blijken iedere keer aangepast en er is vaak sprake van aanwezigheid van pornografisch materiaal. Verder blijken de meeste spamsites te zijn opgebouwd uit grammaticaal correcte zinnen, die blijkbaar willekeurig uit een database worden gehaald. Tenslotte viel op dat een miljoen pagina’s van ruim honderdduizend ‘host’-namen allemaal vanaf hetzelfde ip-adres werden gehost en door één organisatie werden beheerd. Door middel van een proces dat ‘shingling’ genoemd wordt, is het voor een computersysteem mogelijk om een pagina te herkennen die opgebouwd is uit zinnen van andere sites. Aangevuld met enkele extra kenmerken, is het hierdoor mogelijk deze spampagina’s uit de zoekresultaten te filteren.