Présentation
APRIM
Mots-clés : indexation, recherche par similarité, bases de données semi-structurées, information textuelle, séries temporelles, masses d’information
APRIM a orienté ses travaux vers les mécanismes impliqués dans l’indexation et la recherche d’information par similarité pour la gestion de grandes bases de données semi-structurées (XML, texte, les séries de données séquentielles et le temps).
L’augmentation exponentielle du volume d’information disponible sous forme numérique rend l’accès aux données multimédia pertinentes pour un cadre applicatif fixé très difficile. La nécessité de filtrer ou classer le contenu des informations massives, hétérogènes, distribuées et souvent semi-structurées s’impose de manière critique dans un contexte contraint par des questions liées à la complexité algorithmique qui doit rester peu coûteuse pour assurer le passage à l’échelle. Pour permettre l’optimisation indispensable des traitements, les algorithmes d’indexation et d’extraction doivent être adaptés à la nature même du contenu des informations (séries chronologiques, texte, image, etc), aux besoins de l’utilisateur, à l’évolution des technologies matérielles et au degré élevé de distribution tant des données que des équipements de stockage et de traitement. Les principaux défis sont ainsi liés au Data Delugetel que caractérisé dans le rapport de l’ICT Advisory Group (ISTAG) European Challenges and Flagships 2020 and Beyond et aux plates-formes matérielles et logicielles requises pour y faire face (cf. feuille de route européenne de l’European Strategy Forum on Research Infrastructures (ESFRI). Nous en abordons trois dans APRIM :
| Recherche et définition de fonctions de similarité adaptées au support de l’information traitée et à la tâche considérée (texte, XML, ontologies, séries temporelles, images, etc.) | ||
| Réduction de la complexité algorithmique en optimisant la représentation des données et les mesures de similarité utilisées pour faire correspondre efficacement les besoins informationnels avec le contenu des données. | ||
| Parallélisation des tâches d’indexation et de recherche de l’information sur des architectures hautement distribuées. | ||
Responsable :
Pierre-francois Marteau
Contact
APRIM/ VALORIA Centre de Recherche Yves Coppens, 56000 VANNES, FRANCE
Tel: (+33) 02 97 01 72 99 ; Fax: (+33) 02 97 01 72 22
Domaines de recherche
Analyse de document semi structurés, Indexation et recherche approximative dans des masses de données, Recherche thématique Internet,
Domaines de Compétences
Méthodes évolutionnistes, calcul distribué, multi-agent, classification, crawlers, auto-organisation, modélisation de l'expertise, recherche d'information, masses de données, documents semi structurés XML.