G - Physics – 06 – F
Patent
G - Physics
06
F
G06F 17/30 (2006.01)
Patent
CA 2309499
A method and apparatus is provided for extracting key terms from a data set, the method including the steps of identifying a first set of one or more word groups of one or more words that occur more than once in the data set, and removing from this first set a second set of word groups that are sub-strings of longer word groups in the first set. The remaining word groups are key terms. Each word group is weighted according to its frequency of occurrence within the data set. The weighting of any word group may be increased by the frequency of any sub-string of words occurring in the second set and then dividing each weighting by the number of words in the word group. This weighting process operates to determine the order of occurrence of the word groups. Prefixes and suffixes are also removed from each word in the data set. This produces a neutral form of each word so that the weighting values are prefix and suffix independent.
L'invention porte sur un procédé et un appareil d'extraction de termes clefs dans un ensemble de données consistant à identifier un premier ensemble d'un ou de plusieurs groupes, d'un ou de plusieurs mots, apparaissant plus d'une fois dans l'ensemble de données, à en extraire un deuxième ensemble de groupes de mots consistant en sous-chaînes des plus longs groupes de mots du premier ensemble, les groupes de mots restants étant les termes clefs. Chacun des groupes de mots est pondéré selon sa fréquence d'apparition dans l'ensemble de données. La pondération de tout groupe de mots peut être augmentée de la fréquence d'apparition de toute sous-chaîne de mots présente dans le deuxième ensemble, puis suivie d'une division de chacune des pondérations par le nombre de mots du groupe de mots. Ce processus de pondération sert à déterminer l'ordre d'apparition des groupes de mots. On élimine également les préfixes et suffixes de chacun des mots de l'ensemble de données. On obtient ainsi une forme neutre pour chacun des mots, et des pondérations indépendantes des préfixes et suffixes.
British Telecommunications Public Limited Company
Gowling Lafleur Henderson Llp
LandOfFree
Information management and retrieval does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Information management and retrieval, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Information management and retrieval will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1616121