Information retrieval and text mining using distributed...

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 17/30 (2006.01) G06F 7/00 (2006.01)

Patent

CA 2523128

The use of latent semantic indexing (LSI) for information retrieval and text mining operations is adapted to work on large heterogeneous data sets by first partitioning the data set into a number of smaller partitions having similar concept domains. A similarity graph network is generated in order to expose links between concept domains which are then exploited in determining which domains to query as well as in expanding the query vector. LSI is performed on those partitioned data sets most likely to contain information related to the user query or text mining operation. In this manner LSI can be applied to datasets that heretofore presented scalability problems. Additionally, the computation of the singular value decomposition of the term-by-document matrix can be accomplished at various distributed computers increasing the robustness of the retrieval and text mining system while decreasing search times.

L'utilisation d'indexations sémantiques réparties (LSI) pour la récupération d'informations et l'exploration de textes est conçue pour travailler sur de grands ensembles hétérogènes de données en commençant par fractionner l'ensemble de données en plusieurs petites fractions présentant les mêmes domaines de concepts. A cet effet on crée un réseau de graphes similaires de manière à exposer les liens entre domaines de qu'on exploite ensuite en déterminant celui des domaines à interroger, et à agrandir le vecteur d'interrogation. La LSI s'exécute sur ceux des ensembles fractionnés de données les plus susceptibles de contenir des informations relatives aux questions des utilisateurs ou à l'opération d'exploration de texte. La LSI peut ainsi s'appliquer à des ensembles de données qui jusqu'alors présentaient des problèmes d'échelle. De plus, le calcul de la décomposition en valeurs simples de la matrice "termes par document" peut être exécutée dans plusieurs ordinateurs répartis, ce qui accroît la sûreté du système de récupération et d'exploration de textes tout en raccourcissant les temps de recherche.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

Information retrieval and text mining using distributed... does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with Information retrieval and text mining using distributed..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Information retrieval and text mining using distributed... will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-1476914

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.