SEO spider tools: bekijk websites door de ogen van zoekmachines
Als je je website wil optimaliseren voor zoekmachines, moet je weten hoe ze je site 'zien'. Er zijn meerdere manieren, en tools, om dat te doen. In dit artikel een kleine bloemlezing. Ik concentreer me op eenvoudige en goedkope opties die je op je eigen desktop kunt gebruiken.
Google text cache
De eerste is niet eens een tool, maar iets waar iedereen bij kan: de Google text cache. Dit is een opgeslagen versie van een pagina zoals het in de Google index staat, op het moment dat de Googlebot deze voor het laatst gedownload heeft. Je kunt die cache eenvoudig vinden, door in een Google-resultaat op de link 'In cache' te drukken. Ik neem als voorbeeld de homepage van MONLOG:
1. Resultaatpagina's van MONLOG, zie de 'In cache' link

2. De visuele cache, zie de 'Tekstversie' link

3. De tekstcache

Deze links worden trouwens ook vaak gebruikt door Google spambestrijders om cloaking op te sporen.
Download
Je hoeft niets voor de Google text cache te downloaden, maar misschien is dit Greasemonkey scriptje (wat is Greasemonkey?) wel handig als je van plan bent om het vaker te gaan gebruiken.
Tekstbrowsers: Lynx of Web developer toolbars
Een andere manier om wat sneller meerdere tekstversies van een website te bekijken is door simpelweg te browsen over websites zonder dat JavaScript, CSS en cookies geladen worden. Daarvoor kun je bijvoorbeeld de Web Developer Toolbar van Firefox gebruiken (of equivalenten) en kiezen voor 'Disable Styles -> Disable CSS' en 'Disable JavaScript':

Je kunt ook een tekst-only browser gebruiken zoals Lynx, waarbij CSS en JavaScript standaard uit staan.
Download
Web Developer Toolbar Firefox/Chrome
Desktop 404 checkers: Integrity & Xenu
Het nadeel van Tekst caches en tekst-only browsers is dat je niet naar sites als geheel kunt kijken. Misschien wil je wel duizenden pagina's van een site bekijken om naar bepaalde patronen te zoeken, bijvoorbeeld of duplicate content veel voorkomt op de site.
In dat geval kun je dus zelf een spider gebruiken die al die pagina's langsgaat. Traditioneel maakte ik daarbij altijd gebruik van 404-checkers, die een complete website spideren op zoek naar dode links. Daarover rapporteren ze dan.
Maar daarnaast geven ze ook allerlei aanvullende informatie, over andere fouten die ze tegenkomen, hoe vaak naar die pagina's gelinkt wordt, wat de metatitles van die paginas zijn (je moet ze immers kunnen herkennen), ontbrekende alt-attributen, etc. Uiteraard kun je die data exporteren naar Excel of Refine voor nadere analyse.
Een goede voor Windows is Xenu, en een goede voor Mac is Integrity. Op SEOmoz hebben ze trouwens een tijdje terug een - terechte - bloemlezing gehouden over wat je allemaal met Xenu kunt doen.
Download
Xenu - Windows
Integrity - Mac
SEO spider: Screaming Frog
Een nieuwe ster aan het firmament is de Screaming Frog SEO spider, die vergelijkbaar is met de eerdere crawlers. Het verschil hierbij is dat deze crawler speciaal voor SEO-doeleinden ontwikkeld is, nog meer data bekijkt, en ook naar custom code kan zoeken. Het rapporteert over alles wat op SEO-gebied van belang kan zijn. Ik heb 'm bijvoorbeeld hieronder gebruikt voor mijn site en zie al snel dat sommige meta-descriptions ontbreken:

Nadeel van Screaming Frog is dat het 100 Britse ponden per jaar kost waar Xenu gratis is. Ikzelf vind deze tool het waard, maar ik gebruik 'm dan ook veel.
Download
Interessant?
Lees dan ook eens meer artikelen over automatisering, seo, ...
Reacties
door Ramon Eijkemans, 2011 05 10
Overigens hoef je niet perse gebruik te maken van commerciele crawlers; er zijn ook prima opensource crawlers en html parsers, zoals scrapy (http://scrapy.org/), scraperwiki (http://scraperwiki.com/) en verscheidene html parsers, zoals je hier ziet: http://www.google.nl/search?q=site:sourceforge.net+html+parser+html+extractor
Wat is MONLOG
Sinds 2002 is MONLOG het weblog van Ramon Eijkemans, freelance SEO-gun for hire.
Dit weblog bevat how-to's, mijmeringen, soms wat humor. Het gaat vrijwel altijd over SEO. Ik herhaal geen nieuws. Het doel van dit weblog is om jou van praktische en doordachte informatie te voorzien!
En dan nog dit: guestpostings zijn welkom! Mail me als je je ei kwijt wil op dit goed rankende podium.
Laatste comments
Ola Wilco, long time no speak ;) Notes.app zit ook in iCloud...
21.02.2012 door Ramon Eijkemans op Mac OS X SEO software
Oh, en http://raventools.nl/ werkt niet.. :)
21.02.2012 door Wilco op Mac OS X SEO software
Leuk overzicht! Kende Patterns nog niet dus bedankt! :-)
...
21.02.2012 door Wilco op Mac OS X SEO software
@Aartjan: ik heb hetzelfde met 'lekker kontje' :)...
25.11.2011 door Ramon Eijkemans op Ranken op Banaan
Bij mij is 'banaan' toevallig al jaren het zoekwoord waar ik...
23.11.2011 door Aartjan van Erkel op Ranken op Banaan
Gewoon maken waar vraag naar is. Dat is zo oud als de weg...
22.11.2011 door Thomas op Ranken op Banaan
Een banaan natuurlijk :)
09.11.2011 door Ramon Eijkemans op Ranken op Banaan
In welk tineu zien we jou terug binnenkort?
09.11.2011 door Emiel op Ranken op Banaan
@Simme @Navin proost! :)
07.09.2011 door Ramon Eijkemans op Vakantie!
Zo maak je mij wel erg jaloers :)
05.09.2011 door Navin Poeran op Vakantie!



door Sjors, 2011 05 18
Bedankt voor die laatste aanvulling, heb ik weer een paar leuke tools om te testen. :D