Riaka Technologies met à la disposition des entreprises son moteur de recherche « plein texte » Mtrsearch.
Vous pouvez créer et gérer votre site e-commerce et/ou collaborative sur notre plateforme (en mode SAAS*) avec nos outils de ciblages contextuels précis pour une campagne de fidélisation/acquisition ainsi que nos outils de reporting et d’analyse statistique pour chaque produit et/ou service sur votre site. (*SAAS=software as a service)
Nous sommes là pour faire correspondre notre moteur de recherche multidimentionnel à vos besoins sur mesures en Recherche d'Information ou en Exploration de données par rapport à votre activité.
Mtrsearch traite tout type de document structuré ou non et dans diverses sources. Seule condition : chaque document doit être classé dans un axe tridimensionnel selon l'exploration voulue par les utilisateurs.
Par exemple, dans le cas d'une exploration des documents internes d'une entreprise, chaque document peut être classé sur un axe « Service et ou individu » qui l'a produit, un axe « Zone géographique » où se trouve le service ou l'individu qui l'a produit et enfin un axe « Temps » qui contient la date de création ou modification du document.Durant l'indexation du corpus, d'autres métadonnées pourront être ajoutés à chaque document à part les libellés de chaque axe qui lui sont associés, afin de rendre encore plus souple la recherche d'information dans le corpus.
Mtrsearch supporte tout type de requête : recherche PLEIN TEXTE de 1 seul caractère, en passant par un ou quelques termes/mots, jusqu'à une phrase contenant 750 caractères sans tenir compte de l'ordre des termes(mots) saisis.
Le seul schéma imposé aux flux entrants (documents structurés ou non) est de rajouter les métadonnées (les libellés des catégories) associées à l'axe tridimensionnel (dans lequel chaque document doit être positionné), dans le contenu brut du document à indexer. Selon le besoin de chaque analyste, il définit lui même l'axe tridimensionnel dans lequel il veut orienter son analyse du corpus.
Et le temps d'une indexation, le moteur est prêt à offrir une vision 360° du Data Lake par rapport à l'axe d'analyse.
Mtrsearch nécessite :
La durée d'indexation d'un bloc de 1 million documents étant environ 20 minutes, pour un serveur ayant 4 cœurs à 2.67GHz, il est recommandé de profiter de l'élasticité de l’infrastructure qu'offre les acteurs des plate-formes PAAS (platform as a service) pour paralléliser le traitement de l'indexation du Data Lake.
Dans la future version du moteur Mtrsearch, nous avons planifié l'intégration en temps réel des nouvelles données (documents) dans l'index du Data Lake afin de les mettre disponible immédiatement pour la recherche et l'analyse.
De même, la durée d'une requête plein texte dans un bloc de 1 million documents étant de moins de ½ seconde. Afin de garder cette durée de requête dans le Data Lake tout entier, il est recommandé d'avoir autant de cœurs de processeurs que le nombre de blocs de documents que compose le Data Lake. Par exemple, pour un Data Lake à 100 millions de documents, si chaque nœud a 4 cœurs, il suffit d'avoir un cluster à 25 nœuds pour avoir une durée de requête à moins de ½ seconde.
Proposer une requête de sous chaines de caractères à son moteur de recherche permettrait de simplifier et de faciliter la recherche d'information aux yeux de l'utilisateur. Mais deux problèmes majeurs empechent souvent les éditeurs de moteur de recherche de la proposer : le problème de performance dans le cas de traîtement de grands volumes de données et le problème des faux positifs (des documents retournés par le moteur et qui ne sont pas pertinents aux yeux de l'utilisateur).
Après avoir fait le tour de l'état de l'art sur les techniques de traitement d'une requête de sous chaine de caractères, l'auteur de Mtrsearch a trouvé une solution simple aux deux problèmes soulevés plus haut et a décidé de l'implémenter.
Il était temps.
Auteur du Mtrsearch
Avec +10 ans d’expérience en développement de logiciels critiques et d'applications web Java/JEE, je me suis spécialisé, il y a 5 ans, dans la gouvernance des données, plus précisément dans le data mining ou l'exploration des données et la recherche d'informations dans un grand volume de données non structurées.
Mon travail est de rendre les applications à fort trafic : performantes, disponibles, évolutives et sécurisées. Je peux accompagner des projets d'applications web, (à fort trafic et avec un volume de données très conséquent) de bout en bout : de la conception (architecture) , à la mise en production et en passant par le développement.
Je sais aller dans les détails en chassant les octets et les méthodes inutiles, consommateurs de ressources mémoire et/ou cpu, comme je peux avoir aussi une perspective globale des domaines des architectures applicatives distribuées et de l'environnement Big Data.