G - Physics – 06 – F
Patent
G - Physics
06
F
G06F 17/00 (2006.01) G06F 17/24 (2006.01)
Patent
CA 2657418
A method and system for generating wrappers for hierarchically organized documents by jointly optimizing template detection and wrapper generation is provided. A wrapper generation system generates a wrapper for documents with similar templates by identifying a cluster of document trees and generating a wrapper tree for the cluster. A wrapper tree defines the wrapper for documents that match the template of the cluster. The wrapper generation system clusters document trees by generating a wrapper tree for the cluster based on an initial document tree. The wrapper generation system then repeatedly determines whether any other document tree matches or nearly matches the wrapper tree for the cluster and, if so, adds the document tree to the cluster and adjusts the wrapper tree as appropriate so that all the document trees, including the newly added one, match the wrapper tree.
L'invention porte sue un procédé et sur un système de génération de classes enveloppantes destinées à des documents organisés hiérarchiquement par optimisation commune de détection de gabarits et de génération de classes enveloppantes. Un système de génération de classe enveloppant génère une classe enveloppante pour des documents pourvus de gabarits similaires par identification d'un groupe d'arbres de documents et par génération d'un arbre de classes enveloppantes du groupe. Un arbre de classes enveloppantes définit la classe enveloppante pour des documents qui correspondent au gabarit du groupe. Le système de génération de classe enveloppante regroupe des arbres de documents par génération d'un arbre de classes enveloppantes du groupe sur la base d'un arbre initial de documents. Le système de génération de classe enveloppante détermine ensuite, à plusieurs reprises, si un autre arbre de documents quelconque correspond ou correspond approximativement à l'arbre de classes enveloppantes pour le groupe et, si tel est le cas, ajoute l'arbre de documents au groupe et ajuste l'arbre de classes enveloppantes comme étant approprié de sorte que tous les arbres de documents, y compris celui récemment ajouté, correspondent à l'arbre de classes enveloppantes.
Ma Wei-Ying
Song Ruihua
Wan Min
Wen Ji-Rong
Zeng Shuyi
Microsoft Corporation
Smart & Biggar
LandOfFree
Joint optimization of wrapper generation and template detection does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Joint optimization of wrapper generation and template detection, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Joint optimization of wrapper generation and template detection will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1729365