archive

Archives de Tag: ingénierie linguistique

Bonjour tout le monde !

Aujourd’hui, je vous ai prĂ©parĂ© un article qui va toucher deux disciplines qui sont Ă©troitement corrĂ©lĂ©es, Ă  savoir le traitement automatique des langues (ou ingĂ©nierie linguistique) et le rĂ©fĂ©rencement naturel (ou SEO).

Ce que vous allez lire par la suite ne sont que des hypothĂšses car je ne connais pas l’algorithme de Google, mais aprĂšs de nombreux tests, je trouve qu’il y a de (fortes) similitudes qui existent entre la mĂ©thode que j’utilise pour retrouver des pages web ou des fichiers dans mon systĂšme et celle du moteur de Google.

En effet, j’utilise souvent l’aspiration de sites web pour stocker les pages web qui m’intĂ©ressent, et pour en retrouver certaines, j’utilise des mots-clĂ©s … comme des requĂȘtes que les internautes taperaient sur Google !

Voici l’exemple de mon propre site ci-dessous. Comme vous pouvez le voir, les pages web / HTML, les images, les autres fichiers sont tous crawlĂ©s par mon logiciel de crawling (qui n’est autre que mon logiciel de veille dĂ©tournĂ© en outil de crawl) :

base de données AUTOVEILLE |Logiciel de veille

 

Ensuite, pour trier les pages HTML que j’ai dans ma base ci-dessus, je lance une requĂȘte (encadrĂ©e en vert) de ce genre dans ma Konsole :

résultats de recherche egrep AUTOVEILLE

 

Je pense que Google possĂ©derait une base de donnĂ©es gigantesque au vu du nombre de pages web qui existent, et des milliers de corpus thĂ©matiques / catĂ©goriques. A chaque requĂȘte tapĂ©e, Google essayerait de fournir la meilleure rĂ©ponse Ă  l’utilisateur parmi ses trilliards de pages HTML 🙂

Je prĂ©cise Ă©galement que mon outil de crawl / de veille ne lit et ne crawl pas les images, le JavaScript. En tout cas, il y a des choses extrĂȘmement corrĂ©lĂ©es entre le TAL et le SEO, et je m’Ă©clate en faisant des recherches, des tests dans ces deux domaines ! 🙂

TrĂšs prochainement, je vous montrerai comment faire du content spinning propre !

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour à tous 🙂

Un petit article pour vous montrer comment Ă©crire automatiquement la balise SEO title avec du Perl ! Cette technique peut vous sembler un peu black hat, mais si on utilise bien l’automatisation, il n’y a rien de bien mĂ©chant, voire cela pourrait ĂȘtre un petit coup de pouce si jamais on a beaucoup de pages Ă  travailler. Comme vous l’auriez constater, j’adore coupler SEO et traitement automatique des langues quand il est possible (bien sĂ»r !).

Voici un petit exemple (que j’ai repris de ma page AUTOVEILLE des outils SEO) pour automatiser l’Ă©criture de la balise title:

 

automatiser l'Ă©criture des balises title

On constate que les balises title en sortie sont bien structurĂ©es et propres, et elles ont Ă©tĂ© Ă©crites en quelques secondes ! Si vous souhaitez d’autres exemples, faites moi signe ! 🙂

L’Ă©criture des mĂ©ta descriptions peut Ă©galement ĂȘtre automatisĂ©e.

N’hĂ©sitez pas Ă  vous rendre sur le site officiel d’AUTOVEILLE de temps en temps pour vous tenir au courant des nouveaux services que je mets en place.

Bon courage !

VĂ©ronique Duong –

Bonjour Ă  tous !

Me voilĂ  de nouveau avec un article 100% geek. Aujourd’hui, je vais vous prĂ©senter un outil qui permet de traduire automatiquement des contenus textuels. On est vraiment dans l’ingĂ©nierie linguistique pur et dur lĂ  !

Ce petit outil se nomme Golgu Translate, et il est programmĂ© en Shell. Il est donc nĂ©cessaire de savoir coder en Shell pour pouvoir l’utiliser, du moins, maĂźtriser les lignes de commandes Unix 😉

Golgu Translate est inspirĂ© de Google Translate, et permet d’effectuer des traductions directement depuis le Terminal, ce qui est bien pratique lorsqu’on travaille sur la konsole, et qu’on veut traduire quelque chose tout de suite (comme un verbatim :p).

>> Alors comment se présente t-il ?

C’est un script Shell. Il ressemble Ă  cela:

traduire automatiquement avec Shell

Vous pouvez le télécharger depuis ce package >> Golgu Translate

Puis installez-le en suivant la procĂ©dure dĂ©crite dans le README ou dans la documentation en ligne 😉

Pour saisir une traduction, faites « golgu-translate -o fr -t « my sentence to translate in French »

RĂ©sultats dans la Konsole d’Unix

golgu translate traduire automatiquement traduction automatique

Simple, pratique et rigolo ! J’adore 🙂

Merci Ă  Noireaude pour l’avoir partager sur le web !

Bon courage !

VĂ©ronique Duong

Bonjour à tous 🙂

J’espĂšre que vous allez bien en ce beau jour ensoleillĂ© ! Aujourd’hui, je vais vous parler des mots-clĂ©s sur lesquels votre site pourrait ĂȘtre positionnĂ© sans que vous le sachiez. Pour prendre mon propre exemple, je travaille surtout des mots-clĂ©s touchant le domaine de la veille et de l’automatisation. Mais qui dit domaine de veille, dit Ă©galement collecte de donnĂ©es, collecte de l’information, constitution de corpus de contenus, etc.

Ce matin, j’ai eu la curiositĂ© de vĂ©rifier dans Google oĂč mon site se situe par rapport Ă  des requĂȘtes comme « automatiser collecte donnĂ©es« , « automatiser constitution corpus« , « constitution automatique corpus », « mailing automatique« , et Ă  ma belle surprise, AUTOVEILLE est en premiĂšre page Google sur toutes ces requĂȘtes !

8e sur « automatiser collecte donnĂ©es« 

Image

2e sur « automatiser constitution corpus« 

Image

1er sur « constitution automatique corpus« 

Image

2e sur « mailing automatique« 

Image

Je ne cherchais pas spĂ©cialement Ă  positionner AUTOVEILLE sur ces requĂȘtes, mais bien sĂ»r que lorsque j’ai crĂ©Ă© ces pages, je les ai optimisĂ©s en termes de SEO. Mais par la suite, je m’Ă©tais surtout concentrĂ©e sur les requĂȘtes concernant l’automatisation de la veille.

Je pense qu’il y a encore beaucoup d’autres requĂȘtes sur lesquelles mon site est positionnĂ© (… comme le vĂŽtre :)) car sĂ©mantiquement parlant, tous les internautes disent les choses d’une certaine façon (le mĂȘme sens), mais pas toujours sous la mĂȘme forme (pas les mĂȘmes mots-clĂ©s).

Le conseil: creusez un peu les requĂȘtes sur Google, et regardez un peu oĂč se situe votre site.

Bon courage 🙂

VĂ©ronique Duong

 

%d blogueurs aiment cette page :