archive

Traitement automatique des langues

Bonjour tout le monde !

Ce week-end, en effectuant ma veille stratégique sur les outils SEO avec mon logiciel de veille automatique, j’ai trouvé un outil en ligne de MOZ très intéressant : le Open Site Explorer.

C’est un outil qui permet de voir en une seule vue l’autorité du domaine, le PageRank, les backlinks, les noms de domaines qui pointent vers notre site, les ancres de textes utilisés, etc.

La version, que je vais vous présenter, est la version gratuite. Avec la version non payante, on n’a qu’un nombre très limité de données.

Voici la page d’accueil, et c’est ici qu’il faut entrer l’URL ou le nom de domaine que vous voulez traiter :

Open Site Explorer de MOZ

 

Je vais utiliser mon propre petit site pour éviter tout problème de citations de marque, etc. : http://autoveille.free.fr

Open Site Explorer de MOZ et AUTOVEILLE

 

Cliquez sur « Search » pour lancer l’analyse des liens. On peut ensuite analyser les ancres de texte, la popularité de la page en hyperlien. L’outil vous indique également si vous avez à faire du dofollow ou nofollow ! C’est vraiment pas mal je trouve.

Analyse de backlinks - AUTOVEILLE

 

Dans les exemples ci-dessus, les liens sont issus des commentaires sur les blogs d’où les liens en nofollow. L’ancre utilisée est mon nom et mon prénom (Véronique Duong) comme vous pouvez le voir. On peut aussi observer l’autorité de la page qui pointe vers le mien.

L’outil est assez complet, je vous ai juste présenté une des ses caractéristiques premières, et je vous laisse découvrir la suite par vous-même (Linking Domains, Top Pages, etc.)

Bon courage à tous !

Véronique Duong –

 

Bonjour tout le monde !

Un petit article pour vous parler du site http://www.htaccesstools.com. En faisant ma veille technologique via mes logiciels de veille pour trouver des outils SEO, je suis tombée sur le site Htaccesstools qui traite des sujets et des problématiques liées au .htaccess !

La semaine dernière, j’avais déjà publié un petit article en proposant un mini tutoriel sur le .htaccess pour un public débutant / moyen qui s’intéresserait au SEO technique. Je vous invite à le lire pour avoir un premier aperçu de l’élément.

Le site htaccesstools.com vient compléter mes connaissances en la matière, et je découvre qu’il existe aussi la possibilité de mettre en place le fichier .htpasswd pour créer des mots de passe afin de protéger le site web. Ca à l’air très pratique en tout cas !

Le site propose un outil pour en générer automatiquement (cliquez sur l’image pour y accéder) :

Ce site propose également de générer des fichiers .htaccess pour des redirections par langue, par exemple :

J’adore ce site ! Je pense qu’il va me faciliter la vie pour certaines choses. Cependant, je vérifie tout de même les codes générés car on ne sait jamais. En tout cas, ce site mériterait d’être plus connu je pense ! 🙂 

Sinon, mes classements bougent de temps en temps en ce moment, et je pense que c’est probablement lié aux backlinks que je perds / gagne. Pour l’instant, ça à l’air de se stabiliser.

Requête "logiciel de veille" AUTOVEILLE

 

Mais bon, comme je le disais hier, pensons aux internautes plutôt. Les mots-clés devraient avoir un peu moins d’importance maintenant.

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde !

Me revoilà avec un article sur le SEO et les astuces ! Je vais vous parler de l’attribut rel=canonical qu’on utilise dans la balise <link> pour indiquer à Google que la page qu’il verrait actuellement n’est pas la version référente. Cet attribut permet de gérer correctement les pages dupliquées ou ayant un contenu très similaire. Il pourrait être utile pour les pages web des produits déclinés, les différentes versions linguistiques d’un site (français-France, français-Suisse, français-Canada, par exemple), etc.

En travaillant sur certains sites, je découvre que cet attribut n’est pas mis en place pour beaucoup d’entre eux, et je trouve que cela est vraiment dommage de ne pas en « profiter » !

Google la prend bien en compte (voici la documentation de Google sur ce Canonical tag), et il faudrait l’utiliser pour votre site. Surtout si vous avez un site e-commerce avec beaucoup de produits déclinés, ce n’est pas négligeable.

Voici un exemple de pages web dupliquées : les URL sont différentes mais les contenus sont identiques et sans canonical tag !

Duplicate content et Canonical tag manquant

 

L’attribut rel=canonical est en effet introuvable :

pas-de-canonical-tag

 

Le duplicate content est très pénalisant pour un site web. Il ne faut donc pas prendre cette problématique à la légère. En tout cas, avec les moteurs de recherche, on évite au maximum de copier / coller les contenus, de les dupliquer, etc. Après, avec certains CMS, on doit utiliser des plugins et des règles pour éviter cela.

Il faudrait juste ajouter cette balise sur toutes les pages web déclinées de votre site :

Astuce SEO : canonical tag - AUTOVEILLE

 

J’espère que les sites vont bientôt implémenter cette technique !

Bon courage !

Véronique Duong –

Bonsoir tout le monde !

Voici une information que je viens de lire il y a quelques instants en faisant ma veille automatique du SEO : Matt Cutts recommande de ne pas dupliquer les textes des méta descriptions pour différentes pages web d’un même site. Il faudrait qu’elles soient uniques.

Matt Cutts ajoute également qu’il ne s’embête pas à créer des descriptions pour son propre blog, et qu’il faudrait laisser Google choisir automatiquement l’affichage du snippet (ça me rappelle un peu le web sémantique avec l’algorithme Colibri) :

In short, it is better to let Google auto-create snippets for your pages versus having duplicate meta descriptions.

Pour débattre sur ce sujet, une vidéo a également été créée et postée sur YouTube :

Personnellement, je suis d’accord avec lui de ne pas répéter la même description pour toutes les pages web, mais peut être pas de laisser Google choisir les extraits pour former mes snippets automatiquement. En effet, je veux que mes descriptions sonnent comme des annonces marketing, qu’elles correspondent avec le contenu de la page web, et qu’elles ne soient pas tronquées par des … à la fin.

Qu’en pensez-vous ?

Bon courage !

Véronique Duong –

Source de l’article en anglais : Search Engine Land

Bonjour tout le monde !

Ce week-end, j’ai trouvé une petite infographie intéressante en faisant ma veille automatisée avec mon logiciel de veille automatique ! C’est une illustration sur les commandes vocales et opérateurs utiles de Google pour faire de la veille ou de la recherche d’informations de façon encore plus efficace.

Je l’ai déjà postée sur Twitter, mais je la remets ici pour ceux qui l’auraient loupée ! Cette image a été réalisée par Trendblog.net :

Commandes de Google

Commandes de Google

Je trouve qu’il manque les opérateurs booléens dans cette illustration qui est tout de même déjà très complète ! Mais je pense que cela aurait été encore plus intéressant de mettre les opérateurs booléens qui peuvent fonctionner avec les expressions régulières (Regex) pour trouver des résultats encore plus nombreux.

Côté SEO, ces commandes permettraient aussi aux utilisateurs d’obtenir des réponses encore plus pertinentes à leurs requêtes (Colibri …) car ils « répondraient » à des questions précises. Je pense qu’ils devraient jouer un rôle dans le web sémantique car les résultats qui seront affichés, vont être personnalisés selon chaque internaute.

Qu’en pensez-vous ? Faites-vous aussi un lien de ces commandes avec le web 3.0 ? ou du moins, un début dans cette « Ã¨re » ?

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde !

Aujourd’hui, je vais aborder un sujet plutôt technique dans le domaine du SEO : le fichier .htaccess. Mais je vais aller droit à l’essentiel, en parlant essentiellement de deux actions principales du SEO technique : la gestion des redirections 301 et des pages erreurs 404.

En réalité, ces deux actions ne sont pas très compliquées à mettre en place (lorsqu’on sait programmer surtout). Grâce à mes connaissances en Perl et en Regex (avec le développement de mon logiciel de veille et des autres outils, je pense que ce n’est plus un secret pour tout le monde .. ), cela m’a parlé quasi-immédiatement.

1) Comment faire une redirection 301 permanente sans réécriture d’URL ?

Il nous faut :

  • La commande / la fonction pour faire une redirection 301 (ici en bleu : Redirect 301)
  • L’URI de l’ancienne page ou de l’ancien répertoire (ici en orange : /2012/ancienne-page.html)
  • La nouvelle URL sur laquelle on fait la redirection (ici en vert : http://autoveille.free.fr/ nouvelle-page.html)

Redirection permanente 301 - Exemple - AUTOVEILLE

2) Comment faire une redirection 301 permanente avec réécriture d’URL ?

Il nous faut :

  • La commande / la fonction pour faire une redirection 301 avec réécriture (ici en bleu : RedirectMatch 301)
  • L’URI de l’ancienne page ou de l’ancien répertoire (ici en orange : /2012/(.*)\.html$)
  • La nouvelle URL réécrite sur laquelle on va faire les redirections permanentes (ici en vert : http://autoveille.free.fr/ $1)

Là, dans mon exemple ci-dessous, je demande au système de reconnaître toutes les URI contenant « /2012/ » suivi de n’importe quel caractère (le point « . ») zéro ou plusieurs fois (l’astérique  « * ») et qui se termine par .html (le dollar « $ » marque la fin de ligne).

Dès que le système a fait cette correspondance, il va attraper, grâce aux parenthèses capturantes, ce que j’ai encadré en rouge (le point et l’astérique) dans la partie orange et placer ces éléments à la fin de la nouvelle URL réécrite (le $1 reprend les éléments des parenthèses capturantes) dans la partie verte.

Redirection 301 avec réécriture URL - Exemple - AUTOVEILLE

Voilà, c’est à peu près tout. J’espère que j’ai été assez claire (sinon, vous pouvez me poser des questions dans les commentaires ou par mail).

3) Comment personnaliser la page 404 ?

Par défaut, si un internaute tombe sur une page 404, il verra une page comme celle-ci :

page erreur 404 - par défaut - AUTOVEILLE

Pas très attirante, ni parlante non ? On peut alors personnaliser la page, et faire rediriger les erreurs sur cette dernière. Voici une page 404 personnalisée aux couleurs vitaminées !

Page erreur 404 personnalisée

Le code à mettre dans le fichier .htaccess :

Page erreur 404 personnalisée - AUTOVEILLE

J’ai tenté d’expliquer le .htaccess de façon concise et précise. Mais il y a bien évidemment beaucoup autres choses qu’on peut faire avec ce fichier. Attention cependant, Google n’aime pas tellement les redirections, et Baidu encore moins ! A mettre en place avec modération.

Bon courage à tous 🙂

Véronique Duong –

Hello tout le monde !

Voici une petite information SEO pour bien commencer à la journée ! En faisant ma veille quotidienne des classements de mes pages HTML dans les résultats de recherche, je viens de voir qu’il est possible de vérifier le nombre d’articles ou de pages web qui ont été crawlées et indexées par Google tout en prenant compte de l’Authorship.

Pour regarder cela, je n’étais pas connectée à mon compte Google, j’ai entré la requête « AUTOVEILLE »Â et j’ai juste cliqué sur mon nom « Speedwell Duong » dans l’un des snippets, et cette page est apparue :

Speedwell Duong - Véronique Duong - Authorship

 

Avec cette technique, on peut voir les pages qui ont été liées à notre profil. Il y a également les publications les plus récentes postées dans Google+ (et qui sont déjà indexées par Google) qui apparaissent aussi dans la partie « snippet / profil de l’auteur » :

Snippet Profil Google+ Authorship Speedwell Duong

 

Si je change de mots-clés dans les requêtes, d’autres informations apparaissent à la place des « Posts récents » :

Google Authorship : lier les articles au profil Google+

 

Dans l’exemple ci-dessus, il y a l’un de mes articles récents « Ne pas se laisser faire par Google » qui apparaît dans le snippet de mon profil. Ces éléments apparaissent en fonction des requêtes, et cela tend vers un web de plus en plus sémantique.

Qu’en pensez-vous de tout cela ? Personnellement, j’aime beaucoup. Je trouve que ce service de Google permet aux internautes de mieux connaître les auteurs des publications, et de se faire une idée plus précise de leurs backgrounds.

Bon courage à tous ! (et discutons sur Twitter pour ceux qui le veulent : @veroduong)

Véronique Duong –

Hello tout le monde !

Je vous propose un nouvel article sur une petite technique de référencement sur le nom de la marque et les noms de produits que j’appelle le « SEO Branding« .

Je travaille beaucoup les mots-clés génériques, et un peu moins les mots-clés contenant le nom de la marque. Cependant, il est en effet essentiel de travailler ces mots aussi (personnellement, je ne travaillais pas à fond sur le référencement de marques car je me disais (et je me dis toujours) que si on ne connait pas ces marques, les sites auraient beaucoup de mal à être visibles …).

SEO Branding et Google - AUTOVEILLE

De ce fait, il ne faut pas négliger la mise en valeur de la marque et de vos produits (leurs noms) lors de l’implémentation des actions SEO (études de mots-clés, localisation des mots, etc.). Quand je parle de SEO branding, je pense surtout aux sites e-commerce qui peuvent classés avant votre site … alors que vous êtes la version authentique et fiable !

C’est pour cela que vous devez absolument tenter d’être 1er sur votre marque pour :

  • 1) Votre référencement
  • 2) Votre E-réputation

Je vous donne quelques petites astuces pour référencer votre site sur votre marque et vos noms de produits. Je prends l’exemple de Sasa (équivalent de Sephora à Hong Kong) :

1) Utilisez Google Keyword Planner pour trouver les mots-clés les plus pertinents liés à votre marque et à vos produits (noms, déclinaisons, etc.)

SEO Branding - Keyword Planner - AUTOVEILLE

2) Mettez les mots-clés sélectionnés au début des balises title des pages web concernées

Sasa Brand - SEO Branding - AUTOVEILLE

 

3) Patientez (les crawls des moteurs de recherches peuvent être plus ou moins longs … )

4) Faites une veille régulière de vos résultats de recherche pour voir si votre marque est toujours bien visible dans les SERP :

Le page d’accueil de Sasa

Sasa site web - AUTOVEILLE

 

 

Le site de Sasa, dans les résultats de recherche, positionné en 1er sur sa marque :

Sasa résultats de recherche SEO brand

 

Bon courage à tous !

Véronique Duong –

PS : je ne travaille pas pour Sasa ! C’est un exemple que j’ai pris au hasard 😉

 

Bonjour tout le monde !

Je souhaite tout d’abord remercier Jérôme Sepeau pour avoir parlé et mentionné AUTOVEILLE Monitoring et mes services de veille stratégique avec mon logiciel de veille lors de l’atelier La Veille et la Prospection en BtoB pour les PME d’Aquitaine au Pôle Numérique CCI de Bordeaux.

Pour cet atelier, j’avais réalisé une présentation en trois slides pour expliquer en quelques mots ce que AUTOVEILLE Monitoring propose comme fonctionnalités et services.

Je vous invite à retrouver ci-joint l’article rédigé par Jérôme Sepeau pour cet atelier : Veille et la Prospection en BtoB: Pôle Numérique CCI de Bordeaux

CCI de Bordeaux - Atelier sur la veille et la prospection

D’autres outils ont également été présentés pendant cette conférence.

Je vous mets les slides réalisées pour cette occasion :

1) Les différents outils proposés

AUTOVEILLE : Veille et prospection B2B | ATELIER

2) Description d’AUTOVEILLE Monitoring

AUTOVEILLE : Veille et prospection BtoB

3) Quelques exemples réalisés dans le passé

autoveille-presentation-veille-prospection-3

La présentation est simple et très visuelle pour permettre aux interlocuteurs de capter l’information essentielle tout de suite : « AUTOVEILLE Monitoring est un service de veille stratégique fourni par Véronique Duong, et qui fonctionne sur les technologies du traitement automatique des langues et le langage informatique Perl ».

Si vous êtes intéressés par les outils d’AUTOVEILLE pour automatiser veille, référencement naturel, crawling, etc. N’hésitez pas à m’écrire via ma page Contact.

Actuellement, je suis en train de réfléchir à l’intégration d’un autre processus automatique (réalisé avec le langage XML) dans ma chaîne de traitements de veille, mais cela pourrait être un peu de temps. Dès que le tout est prêt, je rédigerais un article pour l’annoncer !

Bon courage à tous ! We can do it !

Véronique Duong –

Bonjour tout le monde !

Dans ce nouvel article, je ne pense pas vous apprendre quelque chose de très nouveau, mais ce serait plutôt un ensemble de piqûres de rappel sur le robots.txt. Il doit se trouver à la racine du site.

Ce fichier .txt est un « outil SEO »  très utile qui vous permet d’indiquer aux crawlers des moteurs de recherche d’indexer ou d’exclure certaines pages, certains répertoires de votre site. Il peut également servir à désindexer un site en entier … si vous ne souhaitez pas que les internautes vous trouvent (… ça me fait penser au nettoyage de la e-réputation, oui, cela pourrait aussi être utile dans ce cadre, mais c’est un autre sujet :)).

Vu qu’il peut désindexer un site complet, le robots.txt doit donc être manipulé avec précautions. De plus, il ne faut pas mettre de lignes vides entre chaque ligne de restriction.

Il est essentiellement composé de trois éléments :

  • User-agent (Crawlers)
  • Allow (Permettre)
  • Disallow (Interdire)

Les deux éléments qu’on utilise surtout sont :

  • User-agent (Crawlers)
  • Disallow (Interdire)

Le robots.txt permet surtout de dire ce qu’on ne veut pas que les crawlers indexent, d’où l’utilisation plus fréquente du Disallow que du Allow. Voici quelques exemples (je mets des numéros, mais il n’y en a pas évidemment) :

1) Cas de figure 1

  1. User-Agent: *
  2. Disallow: /

Ces deux lignes veulent dire qu’on demande à tous les crawlers de ne pas indexer le site !

2) Cas de figure 2

  1. User-Agent: *
  2. Disallow: /pdf

Ces deux lignes veulent dire qu’on demande à tous les crawlers de ne pas indexer le dossier ou le répertoire pdf !

3) Cas de figure 3

  1. User-Agent: Googlebot
  2. Disallow: /admin/login.html
  3. User-Agent: Baiduspider
  4. Disallow: /repertoire-1

Ces 4 lignes indiquent les choses suivantes : on dit à Googlebot (crawler de Google) de ne pas indexer la page web /admin/login.html, et parallèlement, on dit à Baiduspider (crawler de Baidu) de ne pas indexer le dossier /repertoire-1.

Voici une petite infographie en guise de mémento (créée par http://www.elliance.com en 2008) :

Infographie simple du robots.txt | AUTOVEILLE

Bonne restriction !

Véronique Duong –