L'indexation nécessite un peu de code, la plupart des
enrichissements étant propres à chaque corpus et chaque cas
d’utilisation, il est difficile d’en proposer une librairie
“standard”. Dans le cas du système d’enrichissement PolySpot,
ceux-ci peuvent être codés en Java ou en Groovy, et une interface
graphique permet de les configurer. Espace Disque : puisque le
résultat intermédiaire de la récupération des données est stocké
pour réutilisation ultérieure, l’espace disque nécessaire au moteur
de recherche prend de l’ampleur - en effet on doit stocker à la
fois les index consultables, et le résultat intermédiaire..
Le principe est de découpler le temps de la récupération de données
du temps de l’enrichissement des données et de garder dans un
stockage intermédiaire (l’InfoWarehouse) le résultat de la
récupération et des enrichissements. Ceci permet de garder à
disposition les données, sous un format accessible (noSQL), afin de
pouvoir mettre à jour ou calculer des nouveaux enrichissements.
L'indexation nécessite un peu de code, la plupart des
enrichissements étant propres à chaque corpus et chaque cas
d’utilisation, il est difficile d’en proposer une librairie
“standard”. Dans le cas du système d’enrichissement PolySpot,
ceux-ci peuvent être codés en Java ou en Groovy, et une interface
graphique permet de les configurer.