Information retrieval

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 17/30 (2006.01)

Patent

CA 2540034

A method and apparatus are provided for generating, from an input set of documents, a word replaceability matrix defining semantic similarity between words occurring in the input document set. For each word, distinct word sequences of predetermined length are identified from the documents of the set, each word sequence being indicative of the context in which the word was used and, according to the relative frequency of occurrence of the identified word sequences for the word, fuzzy sets are generated for each word comprising membership values for corresponding groups of word sequences. For each pair of words occurring in the document set, their respective fuzzy sets are used to calculate the probability that the first word of a pair is semantically suitable as a replacement for the second word of the pair, these probabilities being collated to form a word similarity matrix for use in an improved method of determining document similarity and in information retrieval.

L'invention concerne un procédé et un dispositif permettant de produire, à partir d'un ensemble d'entrées de documents, une matrice de remplaçabilité de mots définissant une similarité sémantique entre des mots apparaissant dans l'ensemble d'entrées de documents. Pour chaque mot, des séquences de mots distinctes, de longueur prédéterminée, sont identifiées à partir des documents de l'ensemble, chaque séquence de mot indiquant le contexte dans lequel le mot a été utilisé et, en fonction de la fréquence relative d'apparition des séquences de mots identifiées pour le mot concerné, des ensembles flous sont produits pour chaque mot comprenant des valeurs d'appartenance pour des groupes correspondants de séquences de mots. Pour chaque paire de mots apparaissant dans l'ensemble de documents, leurs ensembles flous respectifs sont utilisés pour calculer la probabilité que le premier mot d'une paire convienne sur le plan sémantique pour remplacer le second mot de la paire, ces probabilités étant recueillies pour former une matrice de similarité de mot s'utilisant dans un procédé amélioré pour déterminer la similarité de documents et dans la récupération d'information.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

Information retrieval does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with Information retrieval, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Information retrieval will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-1895937

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.