archive

Traitement automatique des langues

Bonjour tout le monde !

Après une semaine et quelques articles sur le web chinois, et les techniques SEO chinoises, je reviens avec un article sur mon logiciel de veille ! J’ai récemment testé AUTOVEILLE Monitoring sur les flux RSS de Scoop.it, et maintenant sur ceux de Mention.

Mention propose de solutions de veille média sous forme d’alertes. Une tonalité (positive / neutre / négative) peut être attribuée aux retombées. Cela est donc très pratique pour pré-catégoriser les discours, et pour faire des analyses de tonalités.

Mon outil de veille permet de garder et de stocker toutes les données crawlées du web dans des fichiers XML ou des fichiers Excel. Cette technique permet alors d’avoir toujours la main sur les informations qui nous seront peut être nécessaire un jour.

Voici mes dernières retombées sur Mention :

Veille automatique de média sur Mention

 

Après le crawling, la conversion automatique du XML en Excel, voici le résultat du stockage de données :

Veille automatique : Flux RSS de Mention

 

J’ai encadré en vert les catégories pour que vous voyez que différents types d’informations peuvent être rapatriées automatiquement, et stockées ! Avec cette méthode, je n’ai pas besoin de me connecter sans arrêt à toutes les plateformes auxquelles je suis abonnée ! Je gagne beaucoup de temps.

Si vous êtes intéressés pour tester, contactez-moi par mail et donnez-moi un flux RSS ! 🙂

Bon courage à tous,

Véronique Duong –

Bonjour tout le monde !

Un article pour vous présenter deux outils SEO que j’utilise pour travailler le référencement naturel chinois. Le premier permet de mesurer la longueur des méta tags et le deuxième permet de calculer la densité de mots-clés. D’après mes études, les moteurs de recherche chinois ne pénaliseraient pas le keyword stuffying … il faudrait alors se concentrer un peu plus particulièrement sur les mots-clés, mais cela n’est qu’une hypothèse.

Baidu indique désormais les sites auxquels il fait « confiance » avec une icône bleue :

Baidu met une icone bleue pour les sites de confiance | AUTOVEILLE

L’outil SEO pour mesurer la longueur de méta tags est 网页META信息检测工具 (soit « outil d’analyse de méta tags on-page »). Voici un exemple avec la page d’accueil d’Apple :

SEO chinois sur Baidu : Apple ne respecte pas les critères des méta tags

Apple ne respecterait pas assez la longueur des méta tags. (D’ailleurs, je trouve bizarre que les méta tags de leur version chinoise soit en anglais !!). Pour atteindre les critères chinois des méta tags, il faudrait :

  • des balises meta title de 80 caractères
  • des balises meta keywords de 100 caractères
  • des balises meta description de 200 caractères

L’outil qui me permet de calculer la densité de mots-clés est 网页关键词密度检测工具 (soit « outil de mesure de fréquence de mots-clés on-page »).

Voici un exemple avec « veille » et la page d’accueil AUTOVEILLE :

Densité de mots-clés pour le SEO chinois | AUTOVEILLE

La page d’accueil AUTOVEILLE respecte le conseil donné par tool.chinaz.com avec ses 4,4%. Une densité qui dépasse 8% pourrait être vu comme du spam.

Si vous êtes intéressés par le SEO chinois, et que vous voulez en savoir plus, contactez-moi par mail ou laissez-moi un commentaire.

Bon courage à tous !

Véronique Duong –

Hello tout le monde !

Récemment, comme je l’annonçais dans un de mes tweets, je suis en train de mettre en place différents tests sur différents types de flux RSS. J’ai lancé mon logiciel de veille / agrégateur de flux RSS sur les flux de Scoop.it pour implémenter la veille automatisée, et … cela fonctionne très bien !

Pour obtenir les flux RSS des tableaux de Scoop.it que vous suivez, je vous invite à les récupérer avec ce bouton :

Bouton des flux RSS Scoop.it | AUTOVEILLE

Le flux, que j’ai récupéré, ressemblait à cela : http://www.scoop.it/t/the-seo-scoop/rss.xml

Ensuite, je l’ai passé mon outil de veille pour récupérer les informations en y ajoutant les paramètres nécessaires (temps de surveillance, conversion des extensions, etc.)

A la sortie, j’ai comme d’habitude un bon fichier Excel avec toutes les informations issues du tableau que je veille. Pour ce test, j’ai pris le tableau The SEO Scoop de Valerio Villari. Voici sa timeline au 16 septembre 2013 :

Timeline The SEO Scoop | AUTOVEILLE

Comme on peut le constater, l’auteur de ce tableau n’a pas ajouté de contenu depuis le 1er septembre 2013.

On retrouve exactement les mêmes informations aux mêmes dates dans le fichier Excel que j’ai généré en sortie dont voici un extrait ci-dessous :

Informations récupérées par AUTOVEILLE depuis Scoop.it

 

Et voilà ! Avec cette méthode je peux garder tous mes scoop dans un même fichier Excel, et trier par date, par mots-clés, etc. les informations dont j’en aurais besoin pour d’autres projets, par exemple 🙂

Très prochainement, je vais publier un autre article sur les flux RSS de Mention que je suis en train de tester. Je vous tiens au courant des résultats du test.

J’espère que ce test vous aura plu !

Bon courage à tous !

Véronique Duong –

Hello tout le monde !

Je viens de mettre la dernière news sur mon logiciel de veille en ligne, et j’ai eu envie de vous parler de … Yandex ! Oui, pour continuer à faire dans la diversité, j’ai décidé de vous présenter rapidement le générateur de mots-clés russe de Yandex !

Moteur de recherche russe : YandexBon, je vous rassure tout de suite, je ne lis et parle pas russe en plus (lol).

Yandex est un moteur de recherche qui a été créé en 1997à Moscou. Il me semble plus « transparent » que Baidu, et propose des versions anglaises de ses outils. Il se tournerait donc vers un public plutôt international qu’uniquement un public russe.

Voici l’interface qui se trouve sur la page d’accueil de Yandex Keyword Tool :

Générateur de mots-clés russe de Yandex | AUTOVEILLEIl suffit de saisir un mot-clé dans le champs prévu à cet effet, et de cliquer sur « Submit » pour obtenir les idées de mots-clés et leurs volumes de recherche par mois :

Idées de mots-clés et leurs volumes de recherche par mois sur YandexPour mieux cibler son public, on peut également faire une recherche de mots-clés selon la ville ou la province que l’on veut en Russie. Dans l’exemple ci-dessous, on voit qu’à Moscou, il y a environ 170 impressions par mois pour le mot-clé « russian food » :

Idées de mots-clés ciblées en Russie par Yandex | AUTOVEILLEOn peut également regarder les volumes de recherche et la popularité du mot-clé « russian food » sur l’ensemble des territoires dans le monde (les gens ont bien évidemment effectués leurs recherches sur le moteur Yandex) :

Idées de mots-clés et volumes de recherche à l'international sur Yandex | AUTOVEILLEDe tous les générateurs que j’ai utilisés, je trouve que celui de Yandex a le moins de fonctionnalités. Le plus complet, c’est bien celui de Google ! Bing a encore du boulot à faire (son générateur est en version beta). Celui de Baidu est assez complet, mais les statistiques sont comptées par jour, et non par mois, de ce fait, la logique de choix est différente.

Yandex reste intéressant à utliser, et je pense que je vais continuer à l’étudier, mais pas forcément à me spécialiser dessus comme je le ferai pour Baidu.

N’hésitez pas à le tester 😉

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde !

Cela fait longtemps que je n’ai pas posté d’infographies ! Ce matin, en laissant ma veille automatisée avec mon logiciel de veille, il a rapatrié une nouvelle infographie SEO qui liste le top 10 des facteurs de positionnements de Google !

Pour résumer, l’algorithme de classements de Google dans la partie recherche naturelle / résultats naturels prendrait en compte :

– Les scores de Page MozRank (popularité = quantité de visites), MozTrust (confiance = qualité)

– Les liens externes (backlinks) avec ancres de textes (mots-clés)

– Les scores d’autorité de la page (plus une page est vieille, mieux serait-elle classée)

– Les métriques sur les backlinks (nombre total de backlinks, et selon le type : ancres de textes, liens externes, etc.)

– Les statistiques de popularité sur les réseaux sociaux comme :

  • les partages, les commentaires et les Like sur Facebook
  • les Tweets et Retweets sur Twitter
  • les +1 pour Google+ (même si on nous dit qu’ils ne valent pas grand chose …)
  • les partages sur Linkedin

– Le nombre de caractères dans les URL (éviter des URL trop longues !)

– La correspondance plus ou moins exacte des mots-clés dans le nom de domaine et les URL avec ceux de la requête de l’internaute

Voici l’infographie SEO, réalisée par Netmark.com (il y a une deuxième partie de l’infographie qui sera publiée en octobre) :

top 10 des facteurs de classement SEO de Google | AUTOVEILLE

 

Personne ne connait exactement ce que fait l’algorithme de classements de Google. Nous avons ici des hypothèses testées par de nombreux référenceurs, et qui donnent de bons résultats.

Mais aujourd’hui, concentrez-vous sur la qualité de vos contenus. Vos lecteurs doivent apprendre quelque chose de nouveau et d’intéressant sur chacune de vos pages web. Et, mettez souvent à jour vos contenus 🙂

Bon courage à tous,

Véronique Duong –

Bonjour à tous,

Pour faire suite à la publication de mon article précédent sur mon nouvel outil SEO (sur l’extraction automatique de balises title), j’ai effectué un test sur un site chinois qui est apparu parmi les premiers résultats dans la première SERP de Baidu.

Je voulais voir quels sites web apparaîtraient dans la première page de résultats naturels de Baidu avec un mot-clé ultra générique comme « 皮包 » (sac en cuir).

Baidu priorise bien évidemment ses propres services … bien plus que Google comme vous pourriez le constater. Je différencie donc les résultats provenant du nom de domaine baidu.com des autres sites web  :

Détails d'une SERP de Baidu | AUTOVEILLE

Celui qui m’a intéressé parmi les trois sites encadrés en vert, et le résultat http://www.bag86.com. (La date qui suit, est la date du dernier crawl de Baiduspider).

Pourquoi ? Le nom de domaine de http://www.bag86.com ne contient aucun mot chinois en pinyin, mais juste un mot anglais ultra, méga générique, « bag » suivi de « 86« , et il est très bien classé avec « 皮包 » (sac en cuir) sur Baidu. C’est la page d’accueil qui est très bien placée ici.

J’ai donc voulu en savoir plus en lançant quelques petites analyses sur cette page d’accueil et les title du site bag86.com.

Baidu m’indique que la page d’accueil de bag86.com n’est pas tout à fait optimisée … il y a une bonne moitié des éléments qui ne sont pas « valides » pour le moteur de recherche chinois (cliquez sur l’image pour agrandir) :

Elements qui devraient être optimisés par bag86 pour Baidu | AUTOVEILLE

Cependant, ces éléments auraient une importance plus minime car ils concernent essentiellement les attributs ALT, le CSS, le JavaScript, les images, qui ralentissent surtout le temps de chargement du site.

Baidu accorde une grande importance dans ces « recommandations » sur le JavaScript et le Flash car il ne les indexe pas du tout (contrairement à Google qui commencerait à indexer des contenus Flash).

En revanche, bag86.com a bien optimisé le reste (pas de Flash, etc.), ses meta tags, et surtout ses balises title selon Baidu :

Éléments bien optimisés sur la page d'accueil de bag86 | AUTOVEILLE

Les méta tags de http://www.bag86.com restent conformes aux règles des moteurs de recherche chinois car elles ne dépassent pas la limite de caractères et comportent des mots-clés :

Méta tags de bag86 de Baidu | AUTOVEILLE

La dernière fois que ces méta ont été mis à jour date du 10 juillet 2012.

Pour bien comprendre comment la page d’accueil peut être si bien positionnée … j’ai finalement procédé à l’extraction automatique de toutes les balises title du site. J’ai lancé un simple Ctrl+F pour vous montrer le nombre de fois que le mot-clé « 皮包 » est répété :

mot clé répété dans les balises title Baidu | AUTOVEILLEPour chaque title, le mot-clé est au moins répété 2 fois (en moyenne). Il est également répété dans les balises méta keywords et méta description. Pour Google, ça serait de la sur-optimisation absolue !!

Baidu prend également en compte le Page Rank. La page d’accueil bag86.com est très populaire (PR 4), et cela permettrait de comprendre pourquoi il est aussi bien classé dans la première SERP de Baidu.

Voilà, j’espère que cette analyse vous aurait appris quelque chose de plus sur Baidu ! 🙂

Bon courage à tous,

Véronique Duong –

Bonjour à tous !

J’ai récemment développé une nouvelle petite technique pour extraire toutes les balises title d’un site web en quelques secondes ! Cette nouvelle fonctionnalité va également rejoindre le package d’outils SEO d’AUTOVEILLE.

Pour faire cette extraction, j’ai eu besoin de « détourner » AUTOVEILLE Monitoring (le logiciel de veille) en tant qu’outil de crawl pour collecter toutes les pages du site web. A la suite de la récupération automatique des pages web du site, je lance ma règle d’extraction sur cette collecte pour n’extraire que les informations dont j’ai besoin : ici, les balises title.

J’ai pris le site d’Oliver Duffez pour faire le test :

1) Voici la première extraction brute, sans nettoyage

extraction automatique de balises title par AUTOVEILLE

 

2) Après quelques lignes de commandes lancées dans la Konsole de Kubuntu pour le nettoyage :

balises title wri extraites par AUTOVEILLE

 

En tout, l’extraction a duré moins de 2 secondes … mais dépendant de la taille du site, le temps d’extraction pourrait varier. On peut utiliser cette extraction de balises title pour vérifier la longueur de ces dernières, les mots-clés, etc. Très pratique dans l’ensemble.

 

Peu à peu, j’utilise de moins en moins Xenu ou autres outils de ce type pour faire les crawls, car je trouve qu’ils sont moins souples et personnalisables par rapport à AUTOVEILLE qui est composé d’outils codés essentiellement en Perl (mais pas que !).

En tout cas, si vous voulez tester la fonctionnalité d’extraction complète d’URL de site web (crawl) et/ou l’extraction de balises title, contactez-moi ! 🙂 Il se peut que j’ouvre une nouvelle session de tests, très bientôt, pour le SEO aussi. Les tests sont fait pour vous faire découvrir l’ingénierie linguistique / le traitement automatique des langues (ou des données plutôt), et ils ne sont pas payants.

Bon courage à tous !

Véronique Duong –

Bonjour à tous !

Suite à la publication de mon article Tests de mon logiciel de veille AUTOVEILLE (datant du 9 août 2013),  l’agence Adecco m’a contactée pour tester mon outil de veille ! 🙂

J’ai lancé la veille automatique avec mon agrégateur de flux RSS (« fait maison ») sur l’un des flux surveillés par l’agence le 16 août 2013 et j’ai terminé la collecte automatique le 26 août 2013. La veille automatisée aura duré 10 jours. A la fin du test, le fichier Excel qui a stocké toutes les informations a été envoyé à Adecco.

adecco

Lors de ce test, je n’ai pas rencontré de problèmes particuliers au niveau du crawl ou de la conversion du XML en Excel. Cependant, un nettoyage semi-automatique au niveau des résumés ou des descriptions était nécessaire car des balises ont également été rapatriées.

Voici un extrait du fichier Excel final envoyé à Adecco après le nettoyage des balises dans les descriptions des informations :

Logiciel de veille : test de l'outil pour Adecco | AUTOVEILLE

A ce jour (04/09/2013), mon logiciel de veille a continué à tourner sur les éléments testés pour la veille de l’agence leader en offre d’emploi intérimaire. Une nouvelle a été rapatriée datant du 26 août 2013.

Je proposerais une nouvelle phase de tests dans 1 ou 2 mois (gratuit), si vous êtes intéressés, contactez-moi. Je ne peux prendre que 1 ou 2 personnes pu entreprises pour chaque session en raison d’un planning très chargé.

Grâce à vous, mon outil de veille s’améliore de plus en plus, et je vous en remercie ! 🙂

Bon courage à tous !

Véronique Duong –

Bonjour à tous !

C’est la rentrée ! Nous sommes en Septembre ! Et pour bien commencer, je vous propose de faire un petit rappel sur ce qu’est le Big Data … ou plutôt quels sont les éléments principaux qui le constituent.

En effectuant ma veille automatisée avec mon logiciel de veille, je suis tombée sur une infographie qui démontre, de façon plus ou moins vulgarisée, les 4 principaux pilliers du Big Data.

Le Big Data se définirait par la règle des 4V : Volume, Variété, Véracité et Vélocité (Vitesse)

Je profite également de cet article pour donner une définition complète et détaillée du Big Data (une définition provenant du site d’IBM) :

Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données.

Les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets. Le Big Data va bien au-delà de la seule notion de volume : il constitue une opportunité d’obtenir des connaissances sur des types de données et de contenus nouveaux, afin de rendre votre entreprise plus agile et de trouver enfin une réponse aux questions laissées en suspens.

D’après cette définition, le Big Data équivaut à tout ce que l’on trouve sur le web. En tout cas, c’est ma vision des choses. Chaque information, chaque vidéo, constitue une petite partie du Big Data. En veillant de façon régulière sur cette masse de données, les particuliers et les entreprises peuvent en apprendre de plus sur leurs domaines et affiner leurs stratégies. C’est pourquoi, il faut absolument gérer, classer, analyser ces données, ces informations.

Voici l’infographie sur les 4 pilliers du Big Data, réalisée par IBM :

Les 4 pilliers de la Big Data | AUTOVEILLEActuellement, aucun logiciel n’est encore capable de gérer toutes ces données sur le web. En plus de cela, il faut encore prendre en compte les données « cachées » dans le web profond ou le web invisible qui pourraient être encore plus difficile à récupérer. Les problématiques du Big Data font partie de notre quotidien, et il faudrait des solutions de plus en plus avancées pour gérer la masse de données qui ne cesse d’augmenter.

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde 🙂

Ce matin, en voulant développer une nouvelle fonctionnalité pour récupérer des images via mon logiciel de veille, j’ai fait une petite recherche de visuels dans le moteur Google.com (version américaine). Et … je suis tombée sur un slideshow d’images rangées par catégories !

Ce slideshow se trouve au dessus des résultats d’images :

Google change l'affichage des résultats d'images : un slideshow en plus !

 

Personnellement, j’aime beaucoup le nouvel affichage des visuels. Il met vraiment en valeur ces dernières et leurs donne une apparence très propre et professionnelle. Cela serait bien que ça se déploie en France. Si les images sont très belles et attirantes, les internautes iraient cliquer dessus.

1) Pensez donc à bien optimiser vos images pour le SEO en les nommant bien (on évite de laisser IMG001.jpg qui n’est pas pertinent),

2) Donnez systématiquement une description des images dans l’attribut alt

3) Choisissez des images de bonne qualité et non trop volumineuse

4) Entourez également votre image dans un contexte textuel pertinent, car les moteurs ne lisent pas les images en elles-même, mais se basent aussi sur leurs environnements sémantiques

De plus, en fournissant un beau design, de beaux visuels sur votre site, cela vous donne une image numérique très professionnelle, et ce n’est pas plus mal 😉

Voilà pour ces quelques conseils rapides ! Et vous, qu’en pensez-vous de ce nouvel affichage ?

Bon courage à tous !

Véronique Duong –