G - Physics – 10 – L
Patent
G - Physics
10
L
G10L 15/06 (2006.01) G10L 9/00 (1995.01)
Patent
CA 2126380
A method of making a speech recognition model database is disclosed. The database is formed based on a training string utterance signal and a plurality of sets of current speech recognition models. The sets of current speech recognition models may include acoustic models, language models, and other knowledge sources. In accordance with an illustrative embodiment of the invention, a set of confusable string models is generated, each confusable string model comprising speech recognition models from two or more sets of speech recognition models (such as acoustic and language models). A first scoring signal is generated based on the training string utterance signal and a string model for that utterance, wherein the string model for the utterance comprises speech recognition models from two or more sets of speech recognition models. One or more second scoring signals are also generated, wherein a second scoring signal is based on the training string utterance signal and a confusable string model. A misrecognition signal is generated based on the first scoring signal and the one or more second scoring signals. Current speech recognition models are modified, based on the misrecognition signal to increase the probability that a correct string model will have a rank order higher than other confusable string models. The confusable string models comprise N-best word string models. The first recognizer scoring signal reflects a measure of similarity between the training string utterance signal and the string model for that utterance. The second recognizer scoring signal reflects a measure of similarity between the training string utterance signal and a confusable string model. The misrecognition signal reflects a difference of the first scoring signal and a combination of one or more second scoring signals. The modification of current speech recognition models is accomplished by generating a recognition model modification signal according to a gradient of a function, which function reflects a recognizer score of a training string utterance based on a string model for that utterance and one or more recognizer scores of the training string utterance based on one or more confusable string models.
L'invention est une méthode de construction de bases de données de modèles de reconnaissance de la parole. Cette base de données est formée à partir d'un signal d'énoncé de chaîne d'apprentissage et d'une pluralité d'ensembles de modèles courants de reconnaissance de la parole. Ces ensembles peuvent contenir des modèles acoustiques, des modèles linguistiques et d'autres sources de connaissances. Dans une concrétisation illustrant l'invention, un ensemble de modèles de chaîne fictifs est produit, chacun d'eux comportant des modèles de reconnaissance de la parole provenant de deux ensembles de modèles de reconnaissance de la parole (tels que des modèles acoustiques et des modèles linguistiques) ou plus. Un premier signal de score primaire est produit à partir du signal d'énoncé de chaîne de formation et d'un modèle de chaîne correspondant à cet énoncé, ce modèle comportant des modèles de reconnaissance de la parole provenant de deux ensembles de reconnaissance de la parole ou plus. Un ou plusieurs signaux de score secondaires sont également produits, ces signaux étant basés sur le signal dénoncé de chaîne de formation et sur un modèle de chaîne fictif. Un signal de reconnaissance erronée est produit à partir du signal de score primaire et des signaux de score secondaires. Les modèles de reconnaissance de la parole courants sont modifiés à l'aide de ce signal de reconnaissance erronée pour accroître la probabilité qu'un modèle de chaîne exact sera d'un rang plus élevé que les modèles de chaîne fictifs. Ceux-ci sont des modèles à Nots. Le signal de score de reconnaissance primaire mesure la similarité entre le signal d'énoncé de chaîne de formation et le modèle de chaîne connexe. Le signal de score de reconnaissance secondaire mesure la similarité entre le signal d'énoncé de chaîne de formation et un modèle de chaîne fictif. Le signal de reconnaissance erronée mesure la différence entre le signal de score primaire et le signal de score secondaire ou une combinaison de tels signaux. La modification d'un modèle courant de reconnaissance de la parole se fait en produisant un signal de modification de modèle de reconnaissance basé sur le gradient d'une fonction qui mesure le score de reconnaissance d'un énoncé de chaîne de formation en utilisant un modèle de chaîne connexe et un score de reconnaissance ou plus de l'énoncé de chaîne en cause en se basant sur un ou plusieurs modèles de chaîne fictifs.
Chou Wu
Juang Biing-Hwang
Lee Chin-Hui
American Telephone And Telegraph Company
Kirby Eades Gale Baker
LandOfFree
Minimum error rate training of combined string models does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Minimum error rate training of combined string models, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Minimum error rate training of combined string models will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1923912