G - Physics – 10 – L
Patent
G - Physics
10
L
G10L 15/14 (2006.01) G10L 15/06 (2006.01)
Patent
CA 2275712
In the speech recognition system disclosed herein, each input utterance is converted to a sequence of raw vectors. For each raw vector, the system identifies that one of a preselected plurality of quantized vectors which best matches the raw vector. The raw vector information is, however, retained for subsequent utilization. Each model of a vocabulary word to be recognized is in turn represented by sequence of states, the states being selected from a preselected group of states. However, for each word module state, there is provided both a discrete probability distribution function (pdf) and a continuous pdf characterized by preselected adjustable parameters. A stored table is provided which contains distance metric values for each combination of a quantized input vector with model state as characterized by the discrete pdfs. Word models are aligned with an input utterance using the respective discrete pdfs and initial match scores are generated using the stored table. From well matching word models identified from the initial match scores, a ranked scoring of those models is generated using the respective continuous pdfs and the raw vector information. After each utterance, the preselected continuous pdfs parameters are adjusted to increase, by a small proportion, the difference in scoring between the top and next ranking models. Preferably, if a user corrects a prior recognition event by selecting a different word model from the respective selected group, a re-adjustment of the continuous pdfs parameters is accomplished by performing, on the current state of the parameters, an adjustment opposite to that performed with the original recognition event and performing on the then current state of the parameters an adjustment equal to that which would have been performed if the newly identified different word model had been the best scoring.
L'invention concerne un système de reconnaissance de la parole dans lequel chaque émission d'entrée est convertie en une séquence de vecteurs bruts. Pour chaque vecteur brut, le système identifie, parmi plusieurs vecteurs quantifiés présélectionnés, celui qui correspond le mieux au vecteur brut. Les informations du vecteur brut sont cependant retenues pour être utilisées ultérieurement. Les modèles de mots de vocabulaire à reconnaître sont représentés, chacun à son tour par une séquence d'états, les états étant sélectionnés parmi un groupe d'états présélectionnés. Cependant, pour chaque état de modèle de mot, il existe une fonction de distribution de probabilité (pdf) discrète et une pdf continue, caractérisées par des paramètres présélectionnés réglables. Une table mise en mémoire contient des valeurs métriques de distance pour chaque combinaison de vecteur d'entrée quantifié avec un état de modèle caractérisé par les pdf discrètes. On aligne les modèles de mots avec une émission d'entrée en utilisant les pdf discrètes respectives et on génère les indices de correspondance initiaux au moyen de la table mise en mémoire. A partir de modèles de mots présentant une correspondance parfaite identifiés à partir des indices de correspondance initiaux, on génère un indice ordonné de ces modèles en utilisant les pdf continues respectives et les informations de vecteur brut. Après chaque émission, les paramètres de pdf continues présélectionnés sont ajustés de manière à augmenter, dans une proportion réduite, la différence d'indice entre le modèle du dessus et le modèle ordonné suivant. De préférence, si un utilisateur corrige un événement de reconnaissance antérieur en sélectionnant un modèle de mot différent à partir du groupe sélectionné correspondant, on réalise un réajustement des paramètres de pdf continues en effectuant, sur l'état de paramètres en cours, un ajustement opposé à celui effectué avec l'événement de reconnaissance original et en effectuant, sur l'état des paramètres en cours, un ajustement égal à celui qui aurait été effectué si le mot différent nouvellement identifié avait été le meilleur indice.
Gowling Lafleur Henderson Llp
Lernout & Hauspie Speech Products N.v.
Scansoft Inc.
Sejnoha Vladimir
LandOfFree
Speech recognition system employing discriminatively trained... does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Speech recognition system employing discriminatively trained..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Speech recognition system employing discriminatively trained... will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1983065