archive

Archives d’Auteur: VĂ©ronique Duong

Bonsoir !

J’ai dĂ©cidĂ© de poster un petit article sur Lexico 3, un outil de lexicomĂ©trie / textomĂ©trie fournissant des statistiques textuelles dĂ©veloppĂ© par l’UniversitĂ© Sorbonne Nouvelle.

Il y a deux ans (pratiquement jour pour jour !), je me suis servie de cet outil pour faire des analyses sĂ©mantiques (style « journalistique » et style « conversations en ligne » sur les forums, blogs, etc.), et cela avait bien marchĂ©. Les spĂ©cificitĂ©s positives, nĂ©gatives, statistiques textuelles sont prĂ©cises, et permettent de faire de bonnes analyses.

Par exemple, pour le style « conversations en ligne », j’ai travaillĂ© sur les contenus textuels du site communautaire Samestory. Il fallait catĂ©goriser les verbatims en positif / neutre / nĂ©gatif Ă  l’aide de Lexico 3 (concordances / collocations / coocurrences). Vous remarquerez que les textes sont effectivement classĂ©s par tonalitĂ© dans le site:

tonalité discours samestory

Lexico 3 nous offre la possibilitĂ© d’avoir un outil de concordance pour identifier tous les contextes oĂč chaque mot-clĂ© qu’on aura dĂ©terminĂ© se trouve. Un mot positif dans un contexte nĂ©gatif a une tonalitĂ© nĂ©gative, et vice-versa. Il faut Ă©galement faire attention aux textes avec un ton ironique, humoristique, les sous-entendus, etc.

C’est pour cela que nous avons besoin d’analyser les contextes.

outil concordance lexico3

De plus, pour mesurer la prĂ©sence d’un mot dans les contenus textuels, on peut utiliser les statistiques textuelles, et en former des graphes ou des histogrammes. La version histogramme est plus claire Ă  mon goĂ»t car on voit tout de suite si un mot est plus prĂ©sent dans une thĂ©matique par rapport Ă  une autre, ou selon votre catĂ©gorisation:

histogramme Lexico 3

 

En tout cas, cet outil est utile pour faire de l’analyse sĂ©mantique reposant sur des statistiques textuelles. Je l’utilise Ă©galement pour faire de l’analyse d’opinions.

La prise en main peut ĂȘtre un peu technique au dĂ©but, mais on s’habitue trĂšs vite (si on l’utilise rĂ©guliĂšrement). Lexico 3 prend un certain format de balises dans le corpus.txt Ă  mettre en entrĂ©e.

Si vous voulez en savoir plus, je peux vous expliquer plus en dĂ©tails avec les Ă©tudes que j’ai faites.

Bon courage 🙂

Véronique Duong

 

 

Bonjour Ă  tous !

Si vous me suivez sur Twitter, vous devriez déjà avoir vu passé un petit tweet sur cette nouvelle: je suis en train de développer deux outils >> un pour trouver les pages NON indexées par Google, et un autre pour catégoriser automatiquement en trois grandes catégories (positif / neutre / négatif) des contenus extraits depuis les réseaux et les médias sociaux.

Pour cet article, il est question de ce deuxiĂšme outil: le catĂ©goriseur automatique en positif, neutre et nĂ©gatif. Evidemment, je le disais dans mes posts prĂ©cĂ©dents, ce catĂ©goriseur ne pourra en AUCUN cas remplacer une analyse humaine des contenus qui devra ĂȘtre effecutĂ©e ensuite. Il permettra de faire un bon tri parmi l’ensemble des contenus collectĂ©s automatiquement avec AUTOVEILLE (par exemple).

Pour le moment, mon outil est composĂ© de 2 Ă©lĂ©ments indispensables: le catĂ©goriseur, le fichier d’entrĂ©e avec les verbatims. Trois fichiers (positif / neutre / nĂ©gatif) sont ensuite automatiquement gĂ©nĂ©rĂ©s par l’outil de catĂ©gorisation.

Voici dĂ©jĂ  un petit exemple gĂ©nĂ©rĂ© automatiquement pour le fichier « positif »:

Outil analyse Opinion Mining

Son développement est toujours en cours. Des nouveautés à venir trÚs bientÎt !

Bon courage

Véronique Duong

Hello tout le monde,

Je vais crĂ©er une catĂ©gorie « J’ai testĂ© … » pour ce blog. Et le premier outil en liste est ERDIL CRM Analytics. Cet outil permet de faire une analyse sĂ©mantique automatiquement. Voici le test en image:

Image

Humainement, il m’a fallu 49 secondes pour dĂ©terminer la tonalitĂ© et les concepts du verbatim. L’outil a mis 0.03 secondes. Je pense que pour ce test en ligne, il y a dĂ©jĂ  un grand corpus de verbatims tout prĂȘt et annotĂ© avec les tonalitĂ©s et les concepts.

Toutefois, je trouve que l’outil peut ĂȘtre pas mal pour faire une premiĂšre catĂ©gorisation des contenus collectĂ©s sur le web. Mais, il faut toujours une analyse humaine pour mieux dĂ©finir les tons, les sens, etc.

Un outil comme celui-ci pourrait ĂȘtre tout Ă  fait dĂ©velopper par un(e) ingĂ©nieur(e) linguiste :p car c’est notre coeur de mĂ©tier (traitement automatique des langues).

Bon courage

Véronique Duong

Bonjour !

AprĂšs avoir Ă©tudiĂ© plusieurs cas en rĂ©fĂ©rencement naturel, la meilleure façon de rester au top, c’est de produire souvent du contenu pertinent et unique ou de mettre Ă  jour certaines pages. Il ne faut surtout pas avoir un site ou un blog statique. C’est Ă  l’encontre d’un bon rĂ©fĂ©rencement.

Pour un site web, essayez de poster au moins deux ou trois nouveautĂ©s par semaine: sur un produit, sur une thĂ©matique, sur un fait, sur une actualitĂ© de l’entreprise, etc.

Pour un blog, essayez de poster au moins deux à trois articles par jour: des news, des découvertes, des constats, des opinions, etc.

Ayez un site ou un blog DYNAMIQUE ! 🙂

Il y a beaucoup de sujets, rĂ©flĂ©chissez et travaillez bien chacun d’entre eux. Je sais que ce n’est pas toujours facile (surtout quand on manque d’inspiration, ça arrive hein), mais il faut continuer Ă  creuser en permanence.

Image

En ce moment, je suis en train de dĂ©velopper un outil pour trouver les pages NON indexĂ©es par Google. Avant, avec Webmaster tools, on pouvait voir la volumĂ©trie des pages non sĂ©lectionnĂ©es par Google, mais bon, cette fonctionnalitĂ© n’existe plus …

Si vous avez des Ă©quivalents, n’hĂ©sitez pas Ă  m’en faire part !

Merci !!

Véronique

 

Hello tout le monde !

Je fais beaucoup de veilles, de SEO, mais Ă©galement des Ă©tudes et des analyses d’e-rĂ©putation !

Automatiser l’analyse des tonalitĂ©s dans les verbatims = pratiquement impossible pour le moment. Avec l’automatisation, on peut catĂ©goriser les contenus en deux grands thĂšmes comme « positif » / « nĂ©gatif », et encore … car un poste avec pleins de termes Ă  tonalitĂ© positif peut ĂȘtre Ă©crit avec un ton ironique et moqueur, et vice versa. Vous voyez ce que je veux dire.

De ce fait, pour une analyse sérieuse des opinions, il faut une analyse humaine.

Avec AUTOVEILLE monitoring, je constitue mon corpus de verbatims en collectant automatiquement ces derniers via les blogs, forums, Twitter, Facebook, etc. Puis, je trie ces contenus avec mon moteur de recherche interne pour extraire les meilleurs, et je les analyse de façon humaine pour les catégoriser en positif / neutre / négatif.

Faites attention aux agences qui vous disent qu’ils ont des outils pour faire l’analyse. Ils ont des outils pour collecter, mais pour analyser et catĂ©goriser, ça doit rester le travail des humains, et non des robots :).

opinion-mining-ereputation

Surveillez votre rĂ©putation sur le web ! 😉

Véronique

Bonjour bonjour !

Comment optimiser un texte chinois en texte SEO friendly ? Surtout un texte chinois dans le domaine du luxe. Pas facile, mĂȘme quand on est bilingue !

Il faut garder Ă  la fois le style trĂšs « luxe » du discours, trĂšs littĂ©raire et poĂ©tique, et en mĂȘme temps l’optimiser techniquement pour le SEO avec des mots-clĂ©s populaires issus d’un discours / langage moyen du peuple.

Pour traduire les textes chinois luxe en textes chinois SEO, je relĂšve premiĂšrement tous les termes ou les expressions clĂ©s de la thĂ©matique, ensuite je fais une analyse sĂ©mantique (coocurrents, collocations, contexte, synonymes) avec des outils pour trouver les mots-clĂ©s populaires qui renvoient vers le mĂȘme sens que les termes « luxe ».

Finalement je les intégre dans le corps des contenus textuels en créant quelques ancres de liens.

Image

Tous les jours, des dĂ©fis Ă  relever en SEO 🙂

Bon courage !

Véronique Duong

Bonjour !

Pour mieux comprendre les comportements de Google Adwords Hong Kong  / Chine et Baidu Trends au niveau du volume de la recherche des mots-clĂ©s, j’ai dĂ©cidĂ© d’effectuer une petite comparaison sur deux mots: « jaeger lecoultre » et « ç§Żćź¶ » (en chinois).

Les rĂ©sultats sont trĂšs trĂšs intĂ©ressants. A Hong Kong, « ç§Żćź¶ » est trĂšs peu recherchĂ© par les internautes. Il n’y a qu’environ 210 recherche par mois.

En revanche, « jaeger lecoultre » est beaucoup plus recherchĂ©: 2900 recherches par mois Ă  Hong Kong. Entre 210 et 2900, on voit qu’il y a une grosse diffĂ©rence, et qu’il faudrait mieux prĂ©fĂ©rer utiliser de l’anglais Ă  Hong Kong que le Chinois.

Google Adwords Hong Kong

En Chine, les rĂ©sultats sur Google Adwords Chine sont Ă©galement intĂ©ressants Ă  Ă©tudier. Pour « jaeger lecoultre », on aurait Ă©galement environ 2900 recherches par mois en Chine continentale.

Je me demande si ce 2900 ne prend pas en compte l’ensemble des recherches effectuĂ©es sur un mĂȘme mot-clĂ© pour l’ensemble des territoires « chinois » (Chine, Hong Kong, Macau, TaĂŻwan, etc.). Une Ă©tude va ĂȘtre menĂ©e sur cette problĂ©matique.

En revanche, on constate que « ç§Żćź¶ » est beaucoup plus recherchĂ© en Chine continentale qu’Ă  Hong Kong. On a un score de 1900 contre 210 recherches par mois, ce qui n’est pas minime. Il y a presque 10 fois plus de recherches en chinois (aprĂšs il faut prendre en compte que la Chine est aussi presque 30 fois plus grande que Hong Kong, et donc beaucoup plus peuplĂ©e !).

Google Adwords Chine

En Chine, mieux vaut prĂ©fĂ©rer l’emploi du chinois que de l’anglais pour ĂȘtre sĂ»r d’acquĂ©rir un maximum de visiteurs et de trafic sur le site / blog.

Et qu’en est-il de Baidu ? Regardez les rĂ©sultats ci-dessous, et vous comprendrez trĂšs vite:

Baidu Trends Volume

Dans le graphique, en orange, c’est le terme en alphabet « jaeger lecoultre », et en vert le terme chinois « ç§Żćź¶ ». Les rĂ©sultats sont Ă©vidents: les Chinois continentaux recherchent essentiellement en chinois, et mĂȘme pour les marques ! (vous avez bien la preuve lĂ  !)

Pour notre cas prĂ©sent, ce sont les villes de Shanghai et de PĂ©kin qui recherchent le plus « ç§Żćź¶ », ce que je trouve normal car elles font partie des villes les plus riches et modernes de la Chine.

Pour résumer, si vous souhaitez vous lancer dans le web chinois (pour le SEO / SEM surtout):

– Faites traduire votre marque, votre slogan, votre site web en chinois

– Attention aux Ă©critures simplifiĂ©es et traditionnelles. A Hong Kong et TaĂŻwan: traditionnelle (encodage Big5) et en Chine: simplifiĂ©e (encodage GB2312)Ce n’est pas du tout pareil ! Si vous vous trompez sur cela, votre site (pages HTML) risque d’ĂȘtre illisible.

– Si vous ĂȘtes rĂ©putĂ©s (grande marque de luxe, notoriĂ©tĂ©, etc.), ciblez votre stratĂ©gie vers les villes les plus riches et modernes de la Chine (Shanghai, PĂ©kin, Hangzhou, etc.)

Bon courage !

Véronique Duong

Bonjour Ă  tous !

RĂ©cemment, j’ai fait une intervention Ă  la Sorbonne Nouvelle lors de la JournĂ©e sur les mĂ©tiers du Traitement Automatique des Langues, et j’ai parlĂ© de la veille, et d’AUTOVEILLE, entitĂ© que j’ai créée depuis 2011 (logiciels automatiques de veille, d’emailings, de traduction, etc.).

Une journée riche en échanges et en apprentissage.

Ci-dessous, une petite photo prise par l’Ă©quipe AFTAL que je remercie beaucoup une fois de plus pour m’avoir invitĂ©e Ă  intervenir Ă  cette journĂ©e !

Véronique Duong, intervention à la Sorbonne Nouvelle le 30 mars 2013

Diaporama sur le domaine de la veille disponible ici: Travailler dans le domaine de la veille

Bon courage Ă  tous !

Véronique Duong

Bonjour à tous 🙂

Hier, je vous ai dĂ©montrĂ© comment trouver des mots-clĂ©s chinois pour faire une Ă©tude de mots-clĂ©s SEO friendly avec Baidu Trends (癟ćșŠæŒ‡æ•°). Pour le moment, avec Baidu, on n’a pas (encore (?)) d’Ă©quivalent de Google Adwords. Il faut aussi savoir que sur Baidu, on a Ă©normĂ©ment de liens sponsorisĂ©s, et que les liens naturels viennent bien aprĂšs.

Cependant, je trouve que Baidu Trends est plus complet que Google Trends. Baidu Trends donne des donnĂ©es dĂ©mographiques, des donnĂ©es sur le niveau d’Ă©ducation des internautes tapant telle ou telle requĂȘte, permet de comparer les rĂ©sultats de deux ou plusieurs provinces chinoises, etc. Cela permet alors de mieux cibler stratĂ©giquement l’audience que l’on veut.

Données complÚtes de Baidu Trends pour le SEO

Si j’ai un bon conseil Ă  vous donner, c’est de faire traduire votre site en chinois, parce que 90% de la population chinoise ne parle pas anglais. J’ai fait une comparaison sur Baidu Trends avec un mot-clĂ© anglais et un mot-clĂ© chinois, et le mot-clĂ© chinois rapportait presque 90% de trafic en plus, ce qui n’est pas nĂ©gligeable !

Sinon, voici les autres outils de Baidu:

Baidu Analytics (癟ćșŠç»ŸèźĄ):

baidu-analytics

Baidu SEM (ćčżć‘ŠçźĄćź¶) qui est pratiquement l’Ă©quivalent de la gestion des campagnes Adwords:

Baidu SEM

Il y en a encore bien d’autres, mais ce sont les deux principaux pour la gestion du trafic et des campagnes publicitaires payantes.

Pour les noms en anglais (Baidu Trends, Baidu Analytics, et Baidu SEM), c’est moi qui les a inventĂ©s, car je n’ai pas trouvĂ© les appellations en anglais sur le site de Baidu (ils sont uniquement en chinois). Mais pour que l’Occident comprenne, il faut bien les traduire. *Merci Ă  mes origines biculturelles*

Je travaille beaucoup avec la Chine et le web, et je peux vous assurer que Baidu est en train de monter en puissance, et que si vous souhaitez conquĂ©rir le marchĂ© chinois, pensez Ă  hĂ©berger votre site web en Chine, et Ă  travailler le SEO … chinois :).

Liste des principaux hébergeurs chinois (Merci à David Houstin):

1. XINNET.COM
http://www.xinnet.com

2. HICHINA.COM
http://www.net.cn

3. DNS-DIY.COM
http://www.dns-diy.com

4. DNS.COM.CN
http://www.dns.com.cn

5. CNOLNIC.COM
http://cnolnic.com

6. 4EVERDNS.COM
http://www.4everdns.com

7. CNMSN.NET
http://www.cnmsn.net

8. ONLINENIC.NET
http://www.onlinenic.com/chinese

9. 365.COM
http://www.365.com

10. MAINONE.COM
http://www.mainone.com

11. TODAYISP.COM
http://www.now.cn

12. DNSFAMILY.COM
http://www.dnsfamily.com

Bon courage !

Véronique Duong

Hello tout le monde !

Je pense que les personnes qui sont dĂ©jĂ  passĂ©es sur mon site AUTOVEILLE, ont remarquĂ© qu’il est trĂšs simple au niveau du design. J’utilise juste deux ou trois couleurs comme le blanc, le gris et le noir (un peu de rouge par ci, par lĂ  pour la touche couleur vive, et je ne mets aucune image dans mon design.Le reste, surtout pour la page d’actualitĂ©s, c’est du contenu textuel ou visuel.

J’allĂšge Ă©galement au maximum mon code HTML toujours en suivant une structure logique :

Image

Si vous avez un site pleins d’images, de CSS, de JavaScript, faites une rĂ©vision de votre site en optimisant par exemple les textes alternatifs.

De plus, supprimez tous les bouts de code inutiles. PageSpeed vous dira merci ! 😉

Bon courage !

VD