archive

Traitement automatique des langues

Bonjour tout le monde !

AprĂšs une semaine et quelques articles sur le web chinois, et les techniques SEO chinoises, je reviens avec un article sur mon logiciel de veille ! J’ai rĂ©cemment testĂ© AUTOVEILLE Monitoring sur les flux RSS de Scoop.it, et maintenant sur ceux de Mention.

Mention propose de solutions de veille mĂ©dia sous forme d’alertes. Une tonalitĂ© (positive / neutre / nĂ©gative) peut ĂȘtre attribuĂ©e aux retombĂ©es. Cela est donc trĂšs pratique pour prĂ©-catĂ©goriser les discours, et pour faire des analyses de tonalitĂ©s.

Mon outil de veille permet de garder et de stocker toutes les donnĂ©es crawlĂ©es du web dans des fichiers XML ou des fichiers Excel. Cette technique permet alors d’avoir toujours la main sur les informations qui nous seront peut ĂȘtre nĂ©cessaire un jour.

Voici mes derniÚres retombées sur Mention :

Veille automatique de média sur Mention

 

AprÚs le crawling, la conversion automatique du XML en Excel, voici le résultat du stockage de données :

Veille automatique : Flux RSS de Mention

 

J’ai encadrĂ© en vert les catĂ©gories pour que vous voyez que diffĂ©rents types d’informations peuvent ĂȘtre rapatriĂ©es automatiquement, et stockĂ©es ! Avec cette mĂ©thode, je n’ai pas besoin de me connecter sans arrĂȘt Ă  toutes les plateformes auxquelles je suis abonnĂ©e ! Je gagne beaucoup de temps.

Si vous ĂȘtes intĂ©ressĂ©s pour tester, contactez-moi par mail et donnez-moi un flux RSS ! 🙂

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour tout le monde !

Un article pour vous prĂ©senter deux outils SEO que j’utilise pour travailler le rĂ©fĂ©rencement naturel chinois. Le premier permet de mesurer la longueur des mĂ©ta tags et le deuxiĂšme permet de calculer la densitĂ© de mots-clĂ©s. D’aprĂšs mes Ă©tudes, les moteurs de recherche chinois ne pĂ©naliseraient pas le keyword stuffying … il faudrait alors se concentrer un peu plus particuliĂšrement sur les mots-clĂ©s, mais cela n’est qu’une hypothĂšse.

Baidu indique dĂ©sormais les sites auxquels il fait « confiance » avec une icĂŽne bleue :

Baidu met une icone bleue pour les sites de confiance | AUTOVEILLE

L’outil SEO pour mesurer la longueur de mĂ©ta tags estÂ çœ‘éĄ”METAäżĄæŻæŁ€æ”‹ć·„ć…·Â (soit « outil d’analyse de mĂ©ta tags on-page »). Voici un exemple avec la page d’accueil d’Apple :

SEO chinois sur Baidu : Apple ne respecte pas les critÚres des méta tags

Apple ne respecterait pas assez la longueur des mĂ©ta tags. (D’ailleurs, je trouve bizarre que les mĂ©ta tags de leur version chinoise soit en anglais !!). Pour atteindre les critĂšres chinois des mĂ©ta tags, il faudrait :

  • des balises meta title de 80 caractĂšres
  • des balises meta keywords de 100 caractĂšres
  • des balises meta description de 200 caractĂšres

L’outil qui me permet de calculer la densitĂ© de mots-clĂ©s estÂ çœ‘éĄ”ć…łé”źèŻćŻ†ćșŠæŁ€æ”‹ć·„ć…·Â (soit « outil de mesure de frĂ©quence de mots-clĂ©s on-page »).

Voici un exemple avec « veille » et la page d’accueil AUTOVEILLE :

Densité de mots-clés pour le SEO chinois | AUTOVEILLE

La page d’accueil AUTOVEILLE respecte le conseil donnĂ© par tool.chinaz.com avec ses 4,4%. Une densitĂ© qui dĂ©passe 8% pourrait ĂȘtre vu comme du spam.

Si vous ĂȘtes intĂ©ressĂ©s par le SEO chinois, et que vous voulez en savoir plus, contactez-moi par mail ou laissez-moi un commentaire.

Bon courage Ă  tous !

VĂ©ronique Duong –

Hello tout le monde !

RĂ©cemment, comme je l’annonçais dans un de mes tweets, je suis en train de mettre en place diffĂ©rents tests sur diffĂ©rents types de flux RSS. J’ai lancĂ© mon logiciel de veille / agrĂ©gateur de flux RSS sur les flux de Scoop.it pour implĂ©menter la veille automatisĂ©e, et … cela fonctionne trĂšs bien !

Pour obtenir les flux RSS des tableaux de Scoop.it que vous suivez, je vous invite à les récupérer avec ce bouton :

Bouton des flux RSS Scoop.it | AUTOVEILLE

Le flux, que j’ai rĂ©cupĂ©rĂ©, ressemblait Ă  cela : http://www.scoop.it/t/the-seo-scoop/rss.xml

Ensuite, je l’ai passĂ© mon outil de veille pour rĂ©cupĂ©rer les informations en y ajoutant les paramĂštres nĂ©cessaires (temps de surveillance, conversion des extensions, etc.)

A la sortie, j’ai comme d’habitude un bon fichier Excel avec toutes les informations issues du tableau que je veille. Pour ce test, j’ai pris le tableau The SEO Scoop de Valerio Villari. Voici sa timeline au 16 septembre 2013 :

Timeline The SEO Scoop | AUTOVEILLE

Comme on peut le constater, l’auteur de ce tableau n’a pas ajoutĂ© de contenu depuis le 1er septembre 2013.

On retrouve exactement les mĂȘmes informations aux mĂȘmes dates dans le fichier Excel que j’ai gĂ©nĂ©rĂ© en sortie dont voici un extrait ci-dessous :

Informations récupérées par AUTOVEILLE depuis Scoop.it

 

Et voilĂ  ! Avec cette mĂ©thode je peux garder tous mes scoop dans un mĂȘme fichier Excel, et trier par date, par mots-clĂ©s, etc. les informations dont j’en aurais besoin pour d’autres projets, par exemple 🙂

TrÚs prochainement, je vais publier un autre article sur les flux RSS de Mention que je suis en train de tester. Je vous tiens au courant des résultats du test.

J’espĂšre que ce test vous aura plu !

Bon courage Ă  tous !

VĂ©ronique Duong –

Hello tout le monde !

Je viens de mettre la derniĂšre news sur mon logiciel de veille en ligne, et j’ai eu envie de vous parler de … Yandex ! Oui, pour continuer Ă  faire dans la diversitĂ©, j’ai dĂ©cidĂ© de vous prĂ©senter rapidement le gĂ©nĂ©rateur de mots-clĂ©s russe de Yandex !

Moteur de recherche russe : YandexBon, je vous rassure tout de suite, je ne lis et parle pas russe en plus (lol).

Yandex est un moteur de recherche qui a Ă©tĂ© créé en 1997Ă  Moscou. Il me semble plus « transparent » que Baidu, et propose des versions anglaises de ses outils. Il se tournerait donc vers un public plutĂŽt international qu’uniquement un public russe.

Voici l’interface qui se trouve sur la page d’accueil de Yandex Keyword Tool :

GĂ©nĂ©rateur de mots-clĂ©s russe de Yandex | AUTOVEILLEIl suffit de saisir un mot-clĂ© dans le champs prĂ©vu Ă  cet effet, et de cliquer sur « Submit » pour obtenir les idĂ©es de mots-clĂ©s et leurs volumes de recherche par mois :

IdĂ©es de mots-clĂ©s et leurs volumes de recherche par mois sur YandexPour mieux cibler son public, on peut Ă©galement faire une recherche de mots-clĂ©s selon la ville ou la province que l’on veut en Russie. Dans l’exemple ci-dessous, on voit qu’Ă  Moscou, il y a environ 170 impressions par mois pour le mot-clĂ© « russian food » :

IdĂ©es de mots-clĂ©s ciblĂ©es en Russie par Yandex | AUTOVEILLEOn peut Ă©galement regarder les volumes de recherche et la popularitĂ© du mot-clĂ© « russian food » sur l’ensemble des territoires dans le monde (les gens ont bien Ă©videmment effectuĂ©s leurs recherches sur le moteur Yandex) :

IdĂ©es de mots-clĂ©s et volumes de recherche Ă  l'international sur Yandex | AUTOVEILLEDe tous les gĂ©nĂ©rateurs que j’ai utilisĂ©s, je trouve que celui de Yandex a le moins de fonctionnalitĂ©s. Le plus complet, c’est bien celui de Google ! Bing a encore du boulot Ă  faire (son gĂ©nĂ©rateur est en version beta). Celui de Baidu est assez complet, mais les statistiques sont comptĂ©es par jour, et non par mois, de ce fait, la logique de choix est diffĂ©rente.

Yandex reste intĂ©ressant Ă  utliser, et je pense que je vais continuer Ă  l’Ă©tudier, mais pas forcĂ©ment Ă  me spĂ©cialiser dessus comme je le ferai pour Baidu.

N’hĂ©sitez pas Ă  le tester 😉

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

Cela fait longtemps que je n’ai pas postĂ© d’infographies ! Ce matin, en laissant ma veille automatisĂ©e avec mon logiciel de veille, il a rapatriĂ© une nouvelle infographie SEO qui liste le top 10 des facteurs de positionnements de Google !

Pour rĂ©sumer, l’algorithme de classements de Google dans la partie recherche naturelle / rĂ©sultats naturels prendrait en compte :

– Les scores de Page MozRank (popularitĂ© = quantitĂ© de visites), MozTrust (confiance = qualitĂ©)

– Les liens externes (backlinks) avec ancres de textes (mots-clĂ©s)

– Les scores d’autoritĂ© de la page (plus une page est vieille, mieux serait-elle classĂ©e)

– Les mĂ©triques sur les backlinks (nombre total de backlinks, et selon le type : ancres de textes, liens externes, etc.)

– Les statistiques de popularitĂ© sur les rĂ©seaux sociaux comme :

  • les partages, les commentaires et les Like sur Facebook
  • les Tweets et Retweets sur Twitter
  • les +1 pour Google+ (mĂȘme si on nous dit qu’ils ne valent pas grand chose …)
  • les partages sur Linkedin

– Le nombre de caractĂšres dans les URL (Ă©viter des URL trop longues !)

– La correspondance plus ou moins exacte des mots-clĂ©s dans le nom de domaine et les URL avec ceux de la requĂȘte de l’internaute

Voici l’infographie SEO, rĂ©alisĂ©e par Netmark.com (il y a une deuxiĂšme partie de l’infographie qui sera publiĂ©e en octobre) :

top 10 des facteurs de classement SEO de Google | AUTOVEILLE

 

Personne ne connait exactement ce que fait l’algorithme de classements de Google. Nous avons ici des hypothĂšses testĂ©es par de nombreux rĂ©fĂ©renceurs, et qui donnent de bons rĂ©sultats.

Mais aujourd’hui, concentrez-vous sur la qualitĂ© de vos contenus. Vos lecteurs doivent apprendre quelque chose de nouveau et d’intĂ©ressant sur chacune de vos pages web. Et, mettez souvent Ă  jour vos contenus 🙂

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour Ă  tous,

Pour faire suite Ă  la publication de mon article prĂ©cĂ©dent sur mon nouvel outil SEO (sur l’extraction automatique de balises title), j’ai effectuĂ© un test sur un site chinois qui est apparu parmi les premiers rĂ©sultats dans la premiĂšre SERP de Baidu.

Je voulais voir quels sites web apparaĂźtraient dans la premiĂšre page de rĂ©sultats naturels de Baidu avec un mot-clĂ© ultra gĂ©nĂ©rique comme « çšźćŒ… » (sac en cuir).

Baidu priorise bien Ă©videmment ses propres services … bien plus que Google comme vous pourriez le constater. Je diffĂ©rencie donc les rĂ©sultats provenant du nom de domaine baidu.com des autres sites web  :

Détails d'une SERP de Baidu | AUTOVEILLE

Celui qui m’a intĂ©ressĂ© parmi les trois sites encadrĂ©s en vert, et le rĂ©sultat http://www.bag86.com. (La date qui suit, est la date du dernier crawl de Baiduspider).

Pourquoi ? Le nom de domaine de http://www.bag86.com ne contient aucun mot chinois en pinyin, mais juste un mot anglais ultra, mĂ©ga gĂ©nĂ©rique, « bag » suivi de « 86« , et il est trĂšs bien classĂ© avec « çšźćŒ… » (sac en cuir) sur Baidu. C’est la page d’accueil qui est trĂšs bien placĂ©e ici.

J’ai donc voulu en savoir plus en lançant quelques petites analyses sur cette page d’accueil et les title du site bag86.com.

Baidu m’indique que la page d’accueil de bag86.com n’est pas tout Ă  fait optimisĂ©e … il y a une bonne moitiĂ© des Ă©lĂ©ments qui ne sont pas « valides » pour le moteur de recherche chinois (cliquez sur l’image pour agrandir) :

Elements qui devraient ĂȘtre optimisĂ©s par bag86 pour Baidu | AUTOVEILLE

Cependant, ces éléments auraient une importance plus minime car ils concernent essentiellement les attributs ALT, le CSS, le JavaScript, les images, qui ralentissent surtout le temps de chargement du site.

Baidu accorde une grande importance dans ces « recommandations » sur le JavaScript et le Flash car il ne les indexe pas du tout (contrairement Ă  Google qui commencerait Ă  indexer des contenus Flash).

En revanche, bag86.com a bien optimisé le reste (pas de Flash, etc.), ses meta tags, et surtout ses balises title selon Baidu :

ÉlĂ©ments bien optimisĂ©s sur la page d'accueil de bag86 | AUTOVEILLE

Les méta tags de http://www.bag86.com restent conformes aux rÚgles des moteurs de recherche chinois car elles ne dépassent pas la limite de caractÚres et comportent des mots-clés :

Méta tags de bag86 de Baidu | AUTOVEILLE

La derniÚre fois que ces méta ont été mis à jour date du 10 juillet 2012.

Pour bien comprendre comment la page d’accueil peut ĂȘtre si bien positionnĂ©e … j’ai finalement procĂ©dĂ© Ă  l’extraction automatique de toutes les balises title du site. J’ai lancĂ© un simple Ctrl+F pour vous montrer le nombre de fois que le mot-clĂ© « çšźćŒ… » est rĂ©pĂ©tĂ© :

mot clé répété dans les balises title Baidu | AUTOVEILLEPour chaque title, le mot-clé est au moins répété 2 fois (en moyenne). Il est également répété dans les balises méta keywords et méta description. Pour Google, ça serait de la sur-optimisation absolue !!

Baidu prend Ă©galement en compte le Page Rank. La page d’accueil bag86.com est trĂšs populaire (PR 4), et cela permettrait de comprendre pourquoi il est aussi bien classĂ© dans la premiĂšre SERP de Baidu.

VoilĂ , j’espĂšre que cette analyse vous aurait appris quelque chose de plus sur Baidu ! 🙂

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour Ă  tous !

J’ai rĂ©cemment dĂ©veloppĂ© une nouvelle petite technique pour extraire toutes les balises title d’un site web en quelques secondes ! Cette nouvelle fonctionnalitĂ© va Ă©galement rejoindre le package d’outils SEO d’AUTOVEILLE.

Pour faire cette extraction, j’ai eu besoin de « dĂ©tourner » AUTOVEILLE Monitoring (le logiciel de veille) en tant qu’outil de crawl pour collecter toutes les pages du site web. A la suite de la rĂ©cupĂ©ration automatique des pages web du site, je lance ma rĂšgle d’extraction sur cette collecte pour n’extraire que les informations dont j’ai besoin : ici, les balises title.

J’ai pris le site d’Oliver Duffez pour faire le test :

1) Voici la premiĂšre extraction brute, sans nettoyage

extraction automatique de balises title par AUTOVEILLE

 

2) AprÚs quelques lignes de commandes lancées dans la Konsole de Kubuntu pour le nettoyage :

balises title wri extraites par AUTOVEILLE

 

En tout, l’extraction a durĂ© moins de 2 secondes … mais dĂ©pendant de la taille du site, le temps d’extraction pourrait varier. On peut utiliser cette extraction de balises title pour vĂ©rifier la longueur de ces derniĂšres, les mots-clĂ©s, etc. TrĂšs pratique dans l’ensemble.

 

Peu Ă  peu, j’utilise de moins en moins Xenu ou autres outils de ce type pour faire les crawls, car je trouve qu’ils sont moins souples et personnalisables par rapport Ă  AUTOVEILLE qui est composĂ© d’outils codĂ©s essentiellement en Perl (mais pas que !).

En tout cas, si vous voulez tester la fonctionnalitĂ© d’extraction complĂšte d’URL de site web (crawl) et/ou l’extraction de balises title, contactez-moi ! 🙂 Il se peut que j’ouvre une nouvelle session de tests, trĂšs bientĂŽt, pour le SEO aussi. Les tests sont fait pour vous faire dĂ©couvrir l’ingĂ©nierie linguistique / le traitement automatique des langues (ou des donnĂ©es plutĂŽt), et ils ne sont pas payants.

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour Ă  tous !

Suite Ă  la publication de mon article Tests de mon logiciel de veille AUTOVEILLE (datant du 9 aoĂ»t 2013),  l’agence Adecco m’a contactĂ©e pour tester mon outil de veille ! 🙂

J’ai lancĂ© la veille automatique avec mon agrĂ©gateur de flux RSS (« fait maison ») sur l’un des flux surveillĂ©s par l’agence le 16 aoĂ»t 2013 et j’ai terminĂ© la collecte automatique le 26 aoĂ»t 2013. La veille automatisĂ©e aura durĂ© 10 jours. A la fin du test, le fichier Excel qui a stockĂ© toutes les informations a Ă©tĂ© envoyĂ© Ă  Adecco.

adecco

Lors de ce test, je n’ai pas rencontrĂ© de problĂšmes particuliers au niveau du crawl ou de la conversion du XML en Excel. Cependant, un nettoyage semi-automatique au niveau des rĂ©sumĂ©s ou des descriptions Ă©tait nĂ©cessaire car des balises ont Ă©galement Ă©tĂ© rapatriĂ©es.

Voici un extrait du fichier Excel final envoyé à Adecco aprÚs le nettoyage des balises dans les descriptions des informations :

Logiciel de veille : test de l'outil pour Adecco | AUTOVEILLE

A ce jour (04/09/2013), mon logiciel de veille a continuĂ© Ă  tourner sur les Ă©lĂ©ments testĂ©s pour la veille de l’agence leader en offre d’emploi intĂ©rimaire. Une nouvelle a Ă©tĂ© rapatriĂ©e datant du 26 aoĂ»t 2013.

Je proposerais une nouvelle phase de tests dans 1 ou 2 mois (gratuit), si vous ĂȘtes intĂ©ressĂ©s, contactez-moi. Je ne peux prendre que 1 ou 2 personnes pu entreprises pour chaque session en raison d’un planning trĂšs chargĂ©.

GrĂące Ă  vous, mon outil de veille s’amĂ©liore de plus en plus, et je vous en remercie ! 🙂

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour Ă  tous !

C’est la rentrĂ©e ! Nous sommes en Septembre ! Et pour bien commencer, je vous propose de faire un petit rappel sur ce qu’est le Big Data … ou plutĂŽt quels sont les Ă©lĂ©ments principaux qui le constituent.

En effectuant ma veille automatisée avec mon logiciel de veille, je suis tombée sur une infographie qui démontre, de façon plus ou moins vulgarisée, les 4 principaux pilliers du Big Data.

Le Big Data se définirait par la rÚgle des 4V : Volume, Variété, Véracité et Vélocité (Vitesse)

Je profite Ă©galement de cet article pour donner une dĂ©finition complĂšte et dĂ©taillĂ©e du Big Data (une dĂ©finition provenant du site d’IBM) :

Le Big Data se prĂ©sente sous la forme de donnĂ©es structurĂ©es ou non structurĂ©es (texte, donnĂ©es de capteurs, son, vidĂ©o, donnĂ©es sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces donnĂ©es.

Les entreprises sont submergĂ©es de volumes de donnĂ©es croissants de tous types, qui se comptent en tĂ©raoctets, voire en pĂ©taoctets. Le Big Data va bien au-delĂ  de la seule notion de volume : il constitue une opportunitĂ© d’obtenir des connaissances sur des types de donnĂ©es et de contenus nouveaux, afin de rendre votre entreprise plus agile et de trouver enfin une rĂ©ponse aux questions laissĂ©es en suspens.

D’aprĂšs cette dĂ©finition, le Big Data Ă©quivaut Ă  tout ce que l’on trouve sur le web. En tout cas, c’est ma vision des choses. Chaque information, chaque vidĂ©o, constitue une petite partie du Big Data. En veillant de façon rĂ©guliĂšre sur cette masse de donnĂ©es, les particuliers et les entreprises peuvent en apprendre de plus sur leurs domaines et affiner leurs stratĂ©gies. C’est pourquoi, il faut absolument gĂ©rer, classer, analyser ces donnĂ©es, ces informations.

Voici l’infographie sur les 4 pilliers du Big Data, rĂ©alisĂ©e par IBM :

Les 4 pilliers de la Big Data | AUTOVEILLEActuellement, aucun logiciel n’est encore capable de gĂ©rer toutes ces donnĂ©es sur le web. En plus de cela, il faut encore prendre en compte les donnĂ©es « cachĂ©es » dans le web profond ou le web invisible qui pourraient ĂȘtre encore plus difficile Ă  rĂ©cupĂ©rer. Les problĂ©matiques du Big Data font partie de notre quotidien, et il faudrait des solutions de plus en plus avancĂ©es pour gĂ©rer la masse de donnĂ©es qui ne cesse d’augmenter.

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde 🙂

Ce matin, en voulant dĂ©velopper une nouvelle fonctionnalitĂ© pour rĂ©cupĂ©rer des images via mon logiciel de veille, j’ai fait une petite recherche de visuels dans le moteur Google.com (version amĂ©ricaine). Et … je suis tombĂ©e sur un slideshow d’images rangĂ©es par catĂ©gories !

Ce slideshow se trouve au dessus des rĂ©sultats d’images :

Google change l'affichage des résultats d'images : un slideshow en plus !

 

Personnellement, j’aime beaucoup le nouvel affichage des visuels. Il met vraiment en valeur ces derniĂšres et leurs donne une apparence trĂšs propre et professionnelle. Cela serait bien que ça se dĂ©ploie en France. Si les images sont trĂšs belles et attirantes, les internautes iraient cliquer dessus.

1) Pensez donc Ă  bien optimiser vos images pour le SEO en les nommant bien (on Ă©vite de laisser IMG001.jpg qui n’est pas pertinent),

2) Donnez systĂ©matiquement une description des images dans l’attribut alt

3) Choisissez des images de bonne qualité et non trop volumineuse

4) Entourez Ă©galement votre image dans un contexte textuel pertinent, car les moteurs ne lisent pas les images en elles-mĂȘme, mais se basent aussi sur leurs environnements sĂ©mantiques

De plus, en fournissant un beau design, de beaux visuels sur votre site, cela vous donne une image numĂ©rique trĂšs professionnelle, et ce n’est pas plus mal 😉

VoilĂ  pour ces quelques conseils rapides ! Et vous, qu’en pensez-vous de ce nouvel affichage ?

Bon courage Ă  tous !

VĂ©ronique Duong –