Aug
2
2009

SEO Tools: feedback e nuova versione del crawler

I primi feedback ricevuti per la versione Beta dei SEO Tools che sto sviluppando sono stati veramente interessanti.
Ho avuto conferma di un buon interesse nei confronti del Website Analyzer, ed i risultati della comparazione tra le pagine raggiungibili di un sito web e quelle indicizzate da Google, e alcune indicazioni molto utili per capire quale linea seguire nelle future release.

Questa sera ho pubblicato la nuova versione dell’engine dei tools che, oltre a risolvere alcune anomalie segnalate, migliora le prestazioni del crawler e, quindi, i tempi di analisi.

Grazie per i feedback!

3 Commenti + Add Comment

  • Ciao.
    Complimenti per i tool. Ho apprezzato in particolare quello che permette di valutare se una pagina è indicizzata. Siccome è un problema sul quale stavo ragionando anche io ho un paio di considerazioni:
    - Mi piacerebbe sapere come fa il tool a valutare se una URL è indicizzata o meno. Suppongo che faccia una ricerca con l’operatore “inurl” ma vorrei sapere di più. Un semplice ma, per la mia esperienza efficace, algoritmo è quello usato da Site diagnois che riassumo qui:
    1. Fa inurl: per ogni url del sito
    2. Per ogni URL che non salta fuori con inurl fa un
    site:nomedominio.org titolo_della_pagina
    3. Se la pagina non è fra i primi 10 risultati della SERP allora c’è un problema.
    - Il problema con il quale mi sono scontrato io quando ho cercato di protipare un tool simile è legato al fotto che dopo poche query con inurl google mi bannava allegramente anche usando intervalli consistenti fra le query. Hai avuto anche tu un problema simile? Come lo hai risolto?
    - Sarebbe bello che il tool accettasse come input una lista di URL o anche una sitemap XML. In questo modo risparmieresti il lavoro di crawling che su grossi siti come sai bene è piuttosto dispendioso.
    - Per costruire il crawler sei partito da zero ho hai usato un crawler esistente?
    A presto!

  • Ciao Alessandro,
    in realtà il tool non indica solo quali pagine sono indicizzate o meno, ma anche l’attuale status di quelle presenti in Google.
    Per evitare i ban c’è da giocare molto con lo user-agent, è uno degli aspetti che sto perfezionado.
    L’idea (molto buona :) ) di accettare le sitemap XML o elenchi di URL è in cantiere, vorrei fossero funzionalità in più a quelle del progetto principale.
    Il crawler l’ho sviluppato io perchè dovendo ‘pesare’ le risorse del server ho preferito questa soluzione per poterlo customizzare al meglio.
    Grazie
    Simone

  • Ciao.
    Per evitare il ban ho trovato che un fattore molto importante è anche accettare, dichiarandolo negli header HTTP, contenuto compresso.

Lascia un commento

About Me

Lavoro nell'informatica dal 2000. Ho iniziato come consulente analista programmatore presso TSF S.p.A. nello sviluppo di sistemi informatici per il Gruppo Ferrovie dello Stato.
Ho lavorato in Ad Maiora come Project Manager e SEO specialist.
Oggi curo la visibilità online dei clienti di Mamadigital dove ricopro l'incarico di Technical Manager.