Methods and apparatus for selecting semantically significant...

G - Physics – 06 – K

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06K 9/78 (2006.01) G06F 17/27 (2006.01) G06K 9/20 (2006.01)

Patent

CA 2077313

A method and apparatus for processing a document image, using a programmed general or special purpose computer, includes forming the image into image units, and at least one image unit classifier of at least one of the image units is determined, without decoding the content of the at least one of the image units. The classifier of the at least one of the image units is then compared with a classifier of another image unit. The classifier may be image unit length, width, location in the document, font, typeface, cross-section, the number of ascenders, the number of descenders, the average pixel density, the length of the top line contour, the length of the base contour, the location of image units with respect to neighboring image units, vertical position, horizontal inter-image unit spacing, and so forth. The classifier comparison can be a comparison with classifiers of image units of words in a reference table, or with classifiers of other image units in the document. Equivalent classes of image units can be generated, from which word frequency and significance can be determined. The image units can be determined by creating bounding boxes about identifiable segments or extractable units of the image, and can contain a word, a phrase, a letter, a number, a character, a glyph or the like.

L'invention est constituée par une méthode et un appareil servant à traiter les images d'un document qui utilisent un ordinateur programmé tout usage ou spécialisé. Dans la méthode de l'invention, l'image est décomposée en unités et un classificateur d'unités d'image au moins de l'une des unités d'image au moins est déterminé sans décodage du contenu de cette ou de ces unités d'image. Ce classificateur est ensuite comparé avec celui d'une autre unité d'image. Le classificateur peut être l'unité de longueur de l'image ou la largeur de cette dernière, son emplacement dans le document, la police, le type des caractères, la section transversale, le nombre d'ascendantes, le nombre de descendantes, la densité moyenne des pixels, la longueur du contour supérieur, la longueur du contour inférieur, l'emplacement des unités d'image par rapport aux unités d'image voisines, la position verticale, l'espacement horizontal unitaire entre les images, etc. La comparaison des classificateurs peut se faire entre les classificateurs des unités d'image de mots listés dans une table de référence, ou entre les classificateurs d'autres unités d'image faisant partie du document. Des classes équivalentes d'unités d'image peuvent être créées à partir desquelles la fréquence et le poids des mots peuvent être déterminés. Les unités d'image peuvent être délimitées en créant des zones de délimitation autour de segments identifiables ou en les extrayant de l'image, et peuvent contenir un mot, une phrase, une lettre, un nombre, un caractère, un glyphe ou tout élément similaire.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

Methods and apparatus for selecting semantically significant... does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with Methods and apparatus for selecting semantically significant..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Methods and apparatus for selecting semantically significant... will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-2045048

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.