System and method for portable document indexing using...

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 17/30 (2006.01) G06F 17/27 (2006.01)

Patent

CA 2192435

A system and method provides for indexing and retrieval of stored documents using a decomposition of words in the documents in n-grams, or linear word subunits. The documents are indexed as pages in a number of banks. For each bank there is a bank index. The individual n-greens are identified for each page and are stored is the bank index. Each bank index further contains an entry map that indicates whether a given n-gram is present in any of the pages of the bank, and then provides an index to a page map that further indicates which page in the bank contains the n-gram. When a search query is input, the query words are decomposed into their n-grams. The query word n-grams are compared first with entry maps to determine if the query word n-grams appear on any page in the bank. If so, the associated page map is traversed to determine which page in the bank contains the query word n-grams. The n-grams on the page are compared with the query word n-grams to determine the presence of a match therebetween. Matching pages are flagged. When all pages in all blanks have been processed, the pages are consolidated with respect to the documents to which they belong, resulting in a list of documents that match the search query. The results are displayed to a user.

L'invention concerne un procédé et un système pour indexer et extraire des documents enregistrés grâce à une décomposition de mots dans les documents en n-grammes, qui sont des sous-unités linéaires de mots. Les documents sont indexés comme pages dans un certain nombre de banques. Pour chaque banque, il y a un index de banque. Les n-grammes individuels identifiés pour chaque page sont enregistrés dans l'index des banques. Chaque index de banque contient en outre une carte d'entrée qui indique si un n-gramme donné est présent dans une quelconque des pages de la banque et fournit ensuite un index à une carte de pages qui indique en plus quelle page dans la banque contient le n-gramme. Quand une demande de recherche est entrée, les mots demandés sont décomposés en n-grammes. Les n-grammes des mots demandés comparés d'abord avec les cartes d'entrée pour déterminer si les n-grammes demandés apparaissent sur une quelconque page dans la banque. Lorsque cela est le cas, la carte de page associée est traversée pour déterminer quelle page dans la banque contient les n-grammes du mot demandé. Les n-grammes de la page sont comparés avec les n-grammes du mot demandé pour déterminer s'il y a correspondance entre les deux. Les pages qui se correspondent sont répertoriées avec un drapeau. Lorsque toutes les pages de toutes les banques ont été traitées, les pages sont consolidées par rapport aux documents auxquels elles appartiennent, ce qui produit une liste de documents qui correspondent à la recherche demandée. Les résultats sont affichés pour l'utilisateur.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

System and method for portable document indexing using... does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with System and method for portable document indexing using..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and System and method for portable document indexing using... will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-1612717

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.