Automatic segmentation of texts comprising chunks without...

G - Physics – 06 – F

Patent

Rate now

  [ 0.00 ] – not rated yet Voters 0   Comments 0

Details

G06F 17/27 (2006.01) G06F 17/28 (2006.01)

Patent

CA 2523992

Syntagms of a text including individual elements written without separators are segmented into chunks being comprised of strings including at least one individual element such as an ideogram of the Mandarin Chinese language. A lexicon (LEX) is defined including a set of strings, each string being comprised of at least one of the individual elements. The syntagm being segmented is orderly searched on an element-by-element basis (INDX) by searching within the lexicon strings corresponding to any of said chunks. In the case of a positive search result, the corresponding chunk located is stored with an associated cost. A check is made as to whether the chunk located was already present in the lexicon. In the case the chunk located was already present, the cost assbociated therewith is reduced. A plurality of candidate segmentation sequences are thus generated, each corresponding to a respective segmentation pattern having associated a corresponding accrued cost. The candidate sequence having the lowest associated cost is selected as the final result of segmentation.

Selon l'invention, des syntagmes d'un texte comprenant des éléments individuels écrits sans séparations sont segmentés en fragments constitués de chaînes comportant au moins un élément individuel de type idéogramme du langage chinois mandarin. Un lexique (LEX) est défini et comprend un ensemble de chaînes, chaque chaîne étant constituée d'au moins un des éléments individuels. Le syntagme étant segmenté est recherché de manière ordonnée sur une base élément par élément (INDX) par recherche dans les chaînes du lexique correspondant à l'un desdits fragments. Si le résultat de la recherche s'avère positif, le fragment correspondant localisé est stocké et présente un coût associé. Une vérification est effectuée et consiste à contrôler si le fragment localisé était déjà présent dans le lexique. Dans ce cas, le coût associé à ce dernier est réduit. Une pluralité de séquences de segmentation candidates sont alors générées, chacune correspondant à un motif de segmentation respectif présentant un coût accru correspondant associé. La séquence candidate présentant le coût associé le plus faible est sélectionnée en tant que résultat final de segmentation.

LandOfFree

Say what you really think

Search LandOfFree.com for Canadian inventors and patents. Rate them and share your experience with other people.

Rating

Automatic segmentation of texts comprising chunks without... does not yet have a rating. At this time, there are no reviews or comments for this patent.

If you have personal experience with Automatic segmentation of texts comprising chunks without..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Automatic segmentation of texts comprising chunks without... will most certainly appreciate the feedback.

Rate now

     

Profile ID: LFCA-PAI-O-1668851

  Search
All data on this website is collected from public sources. Our data reflects the most accurate information available at the time of publication.