Telefono: +39 392 33 73 731

Scrivere e usare la sitemap xml

Stai utilizzando una Sitemap XML nel tuo sito? L'hai poi connessa a Google Webmaster Tools? Se hai risposto NO ad una di queste domande allora ti suggerisco di continuare a leggere questo articolo.

 

La sitemap xml è un file che serve per aiutare i crawler di Google ad indicizzare il tuo sito. Ti pare poco? Basta inserire il file nella root del tuo sito, poi vai in Google Webmaster Tools a suggerire il path. Se non hai ancora un account Google devi farlo, apri questo link.

L'account Google Webmaster Tools

Ogni account Google può accedere a questo strumento e può inserire molti siti web (come Google Analytics), il procedimento per inserire un sito è il seguente:

  1. Fai login in Google Webmaster Tools col tuo Google Account.
  2. Clicca "aggiungi un sito" e scrivi l'indirizzo URL. Mettilo completo (es: http://www.example.com/)
  3. Clicca "continua". Si apre la pagina di verifica.
  4. (Opzionale) Nel campo nome puoi inserire il nome del tuo sito.
  5. Seleziona il metodo di verifica che preferisci e segui le istruzioni.

 

Quando hai completato la verifica, è il momento di connettere la tua sitemap.xml. Al momento non vedrai dati riguardanti il nuovo sito perché è troppo presto, ma fra qualche giorno ne avrai, intanto nella prima pagina (la dashboard) cerca “Sitemaps” e premi il bottone “Collega una Sitemap”. Inserisci il path verso la tua sitemap.xml e salva. Se tutto è andato bene, non avrai errori, in caso contrario Google te li segnala.

Ora aspetta 24-36 ore per avere i primi dati. Google Webmaster Tools è un ottimo abbinamento con Google Analytics.

La sintassi della Sitemap XML

Ora vediamo come tecnicamente creare un file di sitemap: deve essere un XML con codifica utf-8 e deve avere le seguenti caratteristiche:

  • si apre con il tag <urlset> e si chiude con </urlset>.
  • bisogna specificare il protocollo namespace dentro al tag <urlset>.
  • si usa il tag <url> per ogni indirizzo da inserire.
  • si usa il tag <loc> all'intero di ogni tag <url>.

Tutti gli altri tag sono opzionali.

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

</urlset>
Attributo Descrizione
<urlset> richiesto

Incapsula il file e identifica il protocollo.

<url> richiesto

Tag parent che racchiude altri tag che descrivono un singolo record di pagina.

<loc> richiesto

Tag per inserire l'URL della pagina. Deve avere il protocollo (esempio http) e finire con slash se il server lo richiede. Non deve superare 2,048 caratteri.

<lastmod> opzionale

Data di ultima modifica della pagina. Deve essere in formato W3C Datetime. E' permesso omettere la porzione del time e usare solo YYYY-MM-DD.

Nota che questo tag è diverso dal header "If-Modified-Since (304)" che il server può rispondere, e i motori di ricerca possono utilizzare entrambe le informazioni in modo differente.

<changefreq> opzionale

Quanto frequente è l'aggiornamento della pagina. Può suggerire ai crawler quanto spesso venire a controllare la pagina, ma non è un obbligo per loro seguire queste istruzioni, sono solo suggerimenti. Inoltre è bene non barare ed essere onesti, senza dare frequenze elevate a pagine che in effetti sono statiche. Google potrebbe penalizzare chi non è onesto. I valori sono:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Il valore "always" è indicato per le pagine che cambiano ad ogni apertura, sono generate dinamicamente in modo continuo. Il valore "never" è indicato per le pagine statiche che non cambiano mai.

Anche se le pagine sono indicate come "hourly" è molto probabile che i crawler passino in modo molto meno frequente, e le pagine indicate come "yearly" potrebbero essere invece visitate più frequentemente. Potrebbero addirittura visitare le pagine contraddistinte da "never" per verifica.

<priority> opzionale

Questo è un indice di priorità relativo a tutti gli url del sito. I valori validi sono da un range di 0.0 fino a 1.0. Indica al crawler quanto importanti consideri determinate pagine rispetto ad altre.

La priorità default è 0.5.

Questo valore non cambia il ranking della tua pagina nei risultati di ricerca, non si compara con gli altri siti. I motori di ricerca possono usare questa informazione solo relativamente al tuo sito web, quando elencano una lista delle tue pagine, per ordinarle in base all'importanza.

Inoltre considera che mettere priorità alta a tutte le pagine è scorretto e non ti aiuta, la comparazione appunto è relativa. Quindi deve esserci una relazione di importanza tra le pagine del tuo sito per funzionare.

Escaping

La codifica è UTF-8. Come tutti i file XML tutti i dati (inclusi URL) devono usare i codici di escape per i caratteri indicati nella tabella seguente.

CharacterEscape Code
Ampersand & &amp;
Single Quote ' &apos;
Double Quote " &quot;
Greater Than > &gt;
Less Than < &lt;

Inoltre gli indirizzi devono essere URL-escaped e codificati in modo opportuno per il web server dove sono ospitate le pagine. Controllare che si seguano questi standard: RFC-3986 per URIs, RFC-3987 per IRIs, e XML standard.

 

Sitemap multiple ed uso di sitemapindex

Si possono fornire più file sitemap, ogni file non deve avere più di 50,000 URL e non deve pesare più di 10MB (10,485,760 bytes). E' possibile comprimere il file con gzip. Per la maggioranza dei siti web questi limiti sono abbondanti, ma in casi particolari con molte migliaia di pagine può esserci la necessità di fare diversi file sitemap.

In questo caso ogni sitemap deve essere inserita in una lista sitemap index. Sitemap index è un file che non deve avere più di 50,000 Sitemap e non deve pesare più di 10MB (10,485,760 bytes), anche questo file può essere compresso. E' possibile avere molti file sitemap index. Il formato XML è molto simile a quello della sitemap e deve avere le seguenti caratteristiche:

  • Aprire con il tag <sitemapindex> e chiudere con </sitemapindex>.
  • Inserire un tag <sitemap> per ogni Sitemap.
  • Inserire un tag <loc> come child di ogni tag <sitemap>.

Resta opzionale il tag <lastmod> che ha lo stesso significato visto per la sitemap.

Nota: il file sitemap index deve contenere solo sitemap residenti nello stesso server.

<?xml version="1.0" encoding="UTF-8"?>

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      <loc>http://www.example.com/sitemap1.xml.gz</loc>

      <lastmod>2004-10-01T18:23:17+00:00</lastmod>

   </sitemap>

   <sitemap>

      <loc>http://www.example.com/sitemap2.xml.gz</loc>

      <lastmod>2005-01-01</lastmod>

   </sitemap>

</sitemapindex>
Attribute Description
<sitemapindex> richiesto Incapsula le informazioni di tutte le sitemap nel file.
<sitemap> richiesto Contiene le informazioni di una sitemap specifica.
<loc> richiesto

URL della sitemap. Può essere un formato sitemap, Atom, RSS o txt semplice.

<lastmod> opzionale

Identifica il momento della modifica della sitemap. La modifica di ogni pagina contenuta nella sitemap potrebbe essere diversa. Deve essere in formato W3C Datetime.

Con questa opzione si indica ai crawler di controllare solo le sitemap che sono state modificate rispetto la visita precedente. Questo sistema incrementale serve ad aggiornare velocemente gli indici in siti davvero molto grandi.

Generatori e validatori di sitemap

Per maggiori informazioni sulle sitemap è possibile consultare il sito http://www.sitemaps.org.
Se utilizzate un valido CMS (come Contao) è probabile che le sitemap vengano generate automaticamente dal sistema, quindi non dovete preoccuparvi di farle. In alternativa esistono vari generatori di sitemap online, ma una volta utilizzati è bene controllare il codice prodotto manualmente, onde evitare errori. In ogni caso inserire solo le pagine vere, non quelle vecchie e irraggiungibili, il sito potrebbe risentirne parecchio (da test effettuati Google è molto sensibile sulle sitemap).

http://www.xml-sitemaps.com/

http://www.seoutility.com/it/tools/google/sitemap_generator.aspx

Anche per validare la sitemap esistono dei tools:

http://www.validome.org/google/

Lunedì 05 Novembre 2012
(0 commenti)

Aggiungi un commento

Nome
E-mail (non verrà pubblicata)
Sito Web
Commento