Method and apparatus for extracting structured data from...

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 15/00 (2006.01) G06F 17/30 (2006.01)

Patent

CA 2422490

A method and apparatus for extracting structured data from HTML pages whereby an HTML file belonging to a pre-determined class of HTML files can be transformed into an instance tree (142). Other than the HTML file, there are two other inputs to the extraction procedure: a set of constraints (134), and a structure template (140). The steps in the process include: parsing the HTML file, thereby creating a parse tree (126); annotating the parse tree, thereby creating an annotated parse tree (130); creating an array of nodes from the annotated parse tree using a set of constraints (134); and generating an instance tree (142) from the array of nodes using the structure template (140). The instance tree (142) encodes, in a form that may be used by other computer programs, all the relevant information in the HTML file as prescribed by the set of constraints (134) and makes explicit the structure of this information.

L'invention concerne un procédé et un dispositif pour l'extraction de données structurées à partir de pages HTML. Un fichier HTML appartenant à une classe préétablie de fichiers HTML peut être transformé en arbre d'instance (142). Il convient de spécifier deux autres entrées relatives à la procédure: une série de contraintes (134), et un gabarit de structure (140). Les étapes du procédé sont les suivantes: analyse syntaxique du fichier HTML, débouchant sur un arbre d'analyse syntaxique (126), annotation de cet arbre débouchant sur un arbre annoté (130), création d'une série de noeuds à partir de l'arbre annoté, par le biais d'une série de contraintes (134), et établissement d'un arbre d'instance (142) à partir de la série de noeuds, en utilisant le gabarit de structure (140). L'arbre d'instance (142) permet de coder, sous une forme susceptible d'être utilisée par d'autres programmes informatiques, l'ensemble des informations pertinentes du fichier HTML, selon la série de contraintes (134), et de rendre explicite cette structure d'information.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

Method and apparatus for extracting structured data from... does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with Method and apparatus for extracting structured data from..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Method and apparatus for extracting structured data from... will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-2076147

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.