Duplicate document detection and presentation functions

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 17/30 (2006.01)

Patent

CA 2578157

Many companies provide online search facilities that enable users to conduct computerized searches for documents. Unfortunately, these searches frequently provide results that include duplicate documents---that is, documents that are completely or substantially identical to each other. This problem is particularly vexing when searching news stories, for example. Moreover, the duplicate documents are intermixed in the search results, leaving users to manually manage the complexities of identifying and/or filtering them. Accordingly, the present inventors devised systems, methods, and software that facilitate the identification and/or grouping of duplicate documents in search results. One exemplary system includes a signature generation module which generates document signatures based on length, temporal, and/or content components; a real-time duplicate detection module which uses the document signatures to identify "exact" or "fuzzy" duplicate documents; and a user- interface or presentation module which controls how duplicate documents are presented or suppressed in search results.

Selon l'invention, nombre d'entreprises fournissent des moyens de recherche en ligne qui permettent à l'utilisateur de rechercher par ordinateur des documents. Malheureusement, ces recherches produisent parfois des résultats comportant des documents en double, soit des documents qui sont entièrement ou sensiblement identiques, ce qui est particulièrement ennuyeux lorsque l'on recherche des reportages, par exemple. De plus, les documents en double sont mélangés dans les résultats de la recherche, laissant à l'utilisateur le soin de gérer manuellement les difficultés de leur identification et/ou de leur filtrage. En conséquence, l'invention concerne des systèmes, des procédés et un logiciel qui facilitent l'identification et/ou le regroupement de documents en double dans des résultats de recherche. Un système exemplaire comporte notamment un module de création de signatures qui crée des signatures de documents s'appuyant sur les composantes de longueur, de temporalité et/ou de contenu; un module de détection de doubles en temps réel qui utilise les signatures de documents pour identifier les documents en double "exacts" ou "flous"; et un module d'interface ou de présentation utilisateur qui commande la manière de présenter ou de supprimer des documents en double dans des résultats de recherche.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

Duplicate document detection and presentation functions does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with Duplicate document detection and presentation functions, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Duplicate document detection and presentation functions will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-1411623

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.