
Fil RSS sur l'actualité du GFII
GFII
25, rue Claude Tillier
75012 Paris
Tél. : 01 43 72 96 52
Mél : gfii à gfii.asso.fr
Actualités adhérents
Séminaire organisé avec le soutien de Total
Jeudi 1er Juillet 2004 de 14 heures à 18 heures
Avertissement aux lecteurs
Cette synthèse regroupe les présentations des intervenants de la demi-journée "Quelles méthodes et quelles technologies pour organiser et représenter les contenus ? - Exemples d’application" du 1er Juillet 2004.
Chaque présentation est accompagnée d’un compte-rendu. Tous les documents, publiés dans cette page, ont été validés par les différents orateurs et les membres du groupe de travail du GFII "Fédérer des sources d’information : outils et méthodes".
Pourquoi ce séminaire ?
Dans la continuité des trois premières sessions, ce séminaire a pour objectif de présenter les méthodes et les outils facilitant l’accès et la restitution des documents.
A partir d’un exposé précisant les technologies et les différentes terminologies employées, une large place est consacrée à l’expérimentation et la mise en oeuvre de ces nouveaux outils.
En particulier, ce séminaire permet de répondre concrètement aux questions posées par la augmentation très importante du volume d’informations en ligne, notamment :
Alain Beauvieux souhaite la bienvenue aux participants et remercie Total d’accueillir le séminaire. Il présente en introduction le GFII et ses différentes activités, puis introduit le séminaire.
Pourquoi ce séminaire ?
Dans la continuité des trois premières sessions, ce séminaire a pour objectif de présenter les méthodes et les outils facilitant l’accès et la restitution des documents.
Après un exposé précisant les technologies et les différentes terminologies employées, une large place est consacrée, au cours de cette session, à l’expérimentation et la mise en oeuvre de ces nouveaux outils.
En particulier, ce séminaire permet de répondre concrètement aux questions posées par l’augmentation très importante du volume d’informations en ligne, notamment :
Présentation du groupe de travail
Au sein du GFII le groupe de travail " Fédérer les sources d’information : outils et méthodes " s’inscrit dans la continuité du groupe " Portails d’entreprise ". Il s’est fixé comme objectif d’aborder l’ensemble des problématiques liées à l’accès aux sources d’information disponibles sur les intranets et sites portail. Le groupe traite notamment des aspects suivants :
A la date du séminaire, le groupe de travail regroupe les organismes et sociétés suivantes : AFNOR, CCI de Paris, Diva Press, Go Albert France, IAURIF, Institut Pasteur, Jouve, Qwam System, Sinequa.
1. Moteur d’indexation et recherche d’information
L’objectif de ces méthodes est d’organiser l’information pour faciliter la lecture et la compréhension de l’information présente dans de vastes ensembles documentaires.
Pour cela, il est indispensable de caractériser le contenu du document et par conséquent de définir les éléments qui vont servir à représenter le contenu du texte.
C’est là qu’intervient le processus d’indexation. On distingue deux étapes :
Dans le modèle vectoriel, les documents sont classés en fonction de leur proximité avec la requête sur un graphique. Les documents sont présentés comme des points dans un espace. On va pouvoir mesurer la similarité entre 2 documents. Deux vecteurs qui pointent dans la même direction sont proches. L’écart est mesuré par l’angle fait entre le vecteur du document et le vecteur de la question.
Choix des termes d’indexation
Indexation selon des critères linguistiques
Plusieurs étapes :
2. Indexation et extraction d’information
En association un concept (défini par une liste de mots) à un pattern (structure formelle), une règle ajoute de l’information à une séquence de mots en lui attribuant un nom de classe sémantique.
Les informations qui peuvent être ainsi extraites, sont du type :
L’extraction permet de sélectionner des phrases clés ou d’extraire des concepts de haut niveau d’abstraction.
On peut appliquer ces méthodes d’extraction dans le domaine de l’intelligence économique (identification d’actions de communication, de transactions, informations financières, fusions...), dans le domaine de la gestion des clients (satisfaction/insatisfaction,...) ou dans le domaine des brevets.
Une fois l’indexation effectuée, les documents sont annotés de concepts, d’étiquettes selon les différentes techniques employées.
3. Indexation et classification de l’information
Catégorisation
La catégorisation est une classification dans des classes préexistantes (taxinomie, plan de classement...). Il existe diverses méthodes pour déterminer automatiquement la catégorie d’un document. Ces techniques sont fondées sur la présence ou l’absence de mots.
Les applications les plus courantes de la catégorisation : catégorisation de fonds documentaire, alimentation de taxinomies, routage documentaire.
La qualité et la fiabilité sont mesurées par un calcul de rappel et précision.
On se trouve dans des applications qui permettent de s’interroger sur l’appartenance du texte à telle ou telle catégorie.
Il y a plusieurs méthodes dont la méthode des "K plus proches voisins".
Cette méthode est basée sur l’hypothèse qu’un document devrait être classé dans la même classe que ses K plus proches voisins dans le corpus d’apprentissage, en calculant la "distance" entre le document et les exemples du corpus. Les K éléments les plus proches sont sélectionnés et le document est assigné à la classe majoritaire.
Pour chaque catégorie, on dispose d’un ensemble de documents représentatifs.
L’évaluation de la qualité du modèle construit se fait sur un ensemble de documents du corpus annoté qui n’ont pas participé à l’apprentissage (par défaut 10% du corpus annoté de départ) : mesure de la précision, du rappel.
Précision : proportion de documents pertinents parmi les documents affectés à la catégorie par le système
Rappel : proportion de documents pertinents retenus dans l’ensemble des documents pertinents pour la catégorie.
La catégorisation permet de faciliter la recherche d’information à travers une structure pré-déterminée (alimentant une interface de recherche) ou mettre en place un service de push sur profil d’utilisateur.
Clustering
Cette méthode permet de construire de classes sans a priori sur la structure syntaxique des corpus.
Principe : comparer les données pour les regrouper (to cluster) par similarité de contenu, chaque groupe devant être le plus homogène possible et les groupes devant être les plus différents possibles entre eux.
Rassembler au sein d’un même groupe les documents similaires.
De nombreuses algorythmes existent, hiérarchiques ou non.
Exemple de 2 méthodes
Les mots associés
On calcule le nombre de co-occurrences. On met en valeur un certain nombre de mots (présents simultanément dans le document).
On emploie un algorithme de classification pour regrouper les mots proches les uns des autres, des classes de mots pour simplifier les relations entre ces mots (qui seraient beaucoup trop nombreuses et donc non exploitables sans regroupement).
C’est une classification hiérarchique avec comme paramètres : la taille des clusters, le nombre de liens, le nombre minimal de co-occurrences.
La Classification non supervisée non hiérarchique
On cherche à déterminer le nombre de classes que l’on veut obtenir et à les faire pointer dans les zones où il y a beaucoup de documents.
On positionne au hasard les k axes et on place le document. L’axe se déplace pour s’accorder avec le document. On arrête quand la position des axes ne bouge plus. On pointe donc au final vers la zone où se trouvent le plus de documents qui ont une forte valeur de projection sur cette classe.
L’avantage est que l’on va pouvoir regrouper des documents similaires. C’est une aide contextuelle à la recherche et à la navigation.. Elle permet de désambiguiser le résultat d’une recherche et d’avoir une vue d’ensemble sur un corpus (ex. : France dans la presse allemande : on peut voir les thèmes abordés dans ces articles ; spam ; offres d’emploi d’un grand groupe). Ce système peut générer des taxinomies. On peut en extraire un plan de classement qui pourra être réutilisé dans un outil de catégorisation.
La cartographie peut être associée au clustering en représentant les liens existants entre les classes, en distinguant la grosseur des classes, l’épaisseur du trait (nombre de documents partagés entre les classes reliées)...
Conclusion
Nous devons faire face à une information abondante, très hétérogène (format, type de documents). On ne peut employer qu’une seule technique. Seule une combinaison de techniques de text mining peut être appliquée.
Le text mining regroupe des techniques sui extraient les éléments informationnels jugés importants dans le texte. Ils permettent d’organiser l’information, soit en la classant par thème prédéfini (catégorisation), ou en découvrant les thèmes dominants dans une collection de documents (clustering). Elles peuvent être associées aux techniques de cartographie pour visualiser un document ou un ensemble de documents sous forme de graphe ou de carte.
L’objectif est de mieux exploiter l’information disponible (aider à filtrer l’information, aider à l’analyse de grandes masses d’information...)
Quelques références
A. Zanasi, Text Mining and Its Applications to Intelligence, CRM and Knowledge Management (Management Information Systems), WIT Press (UK) ; 300 pages. A paraître.
Publications accessibles en ligne : archivesic.ccsd.cnrs.fr.
Présentation de Total
Présentation du département GVI
Leur mission est d’accompagner les directions dans la gestion de leur patrimoine d’informations non structurées. Le département n’apporte aucune valeur ajoutée sur l’information structurée.
Ce département appartient au département stratégie et risques.
Vision d’ensemble de l’information - Quatre pôles de compétence :

Le département se concentre sur les informations qui permettent de prendre les bonnes décisions au bon moment, à savoir :
Son rôle :
Mode de fonctionnement
Projets de Knowledge Management
Les projets KM sont axés, à 95%, sur des projets scientifiques et techniques. 40% des projets sont issus du terrain (démarchebottom-up). 50% des projets ont donné lieu à la réalisation d’un outil mais également à une organisation.
Le groupe s’est organisé en réseaux d’experts et en communautés de pratique. Les experts échangent, se réunissent physiquement, les nouveaux embauchés s’intègrent plus facilement, les problèmes se résolvent plus rapidement grâce à l’appui de la communauté : c’est une véritable économie de réseau.
Des outils collaboratifs sont proposés au comité pratique comme support technologique à l’échange d’informations.
Le département intervient également sur le "personal KM" : beaucoup de salariés ne s’en sortent pas avec leurs propres documents et méls.
Sont proposés :
La connaissance collective se distingue notamment des savoir-faire individuels acquis dans l’entreprise : elle est le produit de l’interaction des savoir-faire, des connaissances et des compétences individuelles (capital humain) et des moyens mis à disposition par l’organisation (méthodologiques, financiers, technologiques : capital organisationnel). Cette connaissance collective est un actif intangible que l’entreprise mobilise quotidiennement afin d’ajuster son fonctionnement à son environnement. Pour mener cette réflexion une thèse de Doctorat en contrat CIFRE avec l’Intergroupe des Ecoles Centrales en Génie Industriel a été conduite sur une durée de 3 ans.
Présentation de la division Veille Information Archives
Elle est rattachée à la Direction Siège et Services Partagés au sein de la DRHC.
Elle se compose de 4 départements :
Les Missions de la Division
La division Veille Information Archives a pour missions de pourvoir toute structure du groupe en information, matière première de décision et d’organisation :
La Division doit faire en sorte que les professionnels du métier puissent évoluer sur la base d’outils et de pratiques communes et innovantes.
Plus spécifiquement, le département Conseil et Coordination Technique a pour mission de :
Information Miner est une solution de text-mining pour la veille concurrentielle et l’intelligence économique, en aval de tout système de diffusion d’information sous forme électronique.
Cette solution permet la fouille de données textuelles, non structurées, de réaliser des analyses morpho-syntaxique et de la catégorisation.
Cette solution permet la transformation de l’information primaire en connaissance, en information utile à l’entreprise en vue de la prise de décision stratégique.
Information Miner a été la première phase pour la mise en place d’une plate-forme opérationelle d’analyse stratégique de l’information.
Les motivations de cette solution côté utilisateurs étaient :
Les motivations côté documentaires sont :
Information Miner permet de repenser l’accès à l’information textuelle, en optimisant son exploitation et en prenant en compte des volumes d’informations au delà des capacités humaines d’analyse. Il n’y a plus d’accès linéaire à l’information.
Il fait une analyse linguistique de documents textuels, structurés ou non, extrait et catégorise l’information. Tous les types de formats de texte sont pris en compte sans difficulté.
L’information critique est ensuite visualisée sur une interface html / intranet.
Ce n’est pas un moteur de recherche. L’information est déjà classée selon l’intérêt afin que l’utilisateur aille directement à l’information.
La langue de travail est l’anglais.
Le taux de satisfaction atteint 92%. Une enquête va être menée.
Mode opératoire
Il y a une connexion automatique quotidienne sur les serveurs d’information presse. Il s’agit de sources issues des services de Factiva et de Lexis-Nexis. Un certain nombre de documents sont mis à disposition manuellement dans le système lorsqu’ils sont jugés pertinents..
Une fois par jour, les données sont extraites et analysées.
Cette application est pour les personnes en charge de l’intelligence économique, la veille concurrentielle.
C’est une application dédiée au suivi de l’information au quotidien. C’est une application actuellement "consommable" : elle travaille sur un historique de 8 jours.
Le temps est un facteur à prendre en compte. L’utilisateur a besoin d’accéder rapidement à une information simple. C’est pourquoi on utilise les taxonomies.
Cela constitue le cœur de métier de Factiva.
Les utilisateurs demandent plus de granularité et plus de codes.
La taxonomie de Factiva représente aujourd’hui 300 000 sociétés, 760 industries, 450 sujets, 370 régions, 22 langues ...
Factiva travaille avec Microsoft sur la recherche d’un concept à partir d’un document word.
Mission spécifique chez Factiva : rendre les forces de vente plus efficaces ce qui est le cas quand elles sont plus souvent sur le terrain ; lancer une initiative interne de Knowledge Management qui doit se faire avec retour sur investissement.
Méthodologie d’audit informationnel avant lancement d’une taxonomie :
Les services taxonomiques doivent être créés parce qu’ils ne sont pas préexistants.
Le commercial passe plus de temps à faire sa recherche mais obtient de meilleurs résultats. L’efficacité est accrue.
Les leçons tirées de cette approche sont les suivantes :
6 mois ont été nécessaires à l’analyse et à la mise en place.
Le groupe de travail "Fédérer les sources d’information : outils et méthodes"
Au sein du GFII le groupe de travail "Fédérer les sources d’information : outils et méthodes" s’inscrit dans la
continuité du groupe "Portails d’entreprise". Il s’est fixé comme objectif d’aborder l’ensemble des problématiques
liées à l’accès aux sources d’information disponibles sur les intranets et sites portail.
Le groupe traite notamment des aspects suivants :
Afin d’analyser les évolutions et tendances dans ces domaines et de les illustrer par des exemples de réalisation, le groupe de travail propose les actions suivantes :
Code de déontologie - Adhérer - Plan - Mentions légales - Contact
