G - Physics – 10 – L
Patent
G - Physics
10
L
G10L 17/00 (2006.01)
Patent
CA 2451401
Speaker recognition (identification and/or verification) methods and systems, in which speech models for enrolled speakers consist of sets of feature vectors representing the smoothed frequency spectrum of each of a plurality of frames and a clustering algorithm is applied to the feature vectors of the frames to obtain a reduced data set representing the original speech sample, and wherein the adjacent frames are overlapped by at least 80 %. Speech models of this type model the static components of the speech sample and exhibit temporal independence. An identifier strategy is employed in which modelling and classification processes are selected to give a false rejection rate substantially equal to zero. Each enrolled speaker is associated with a cohort of a predetermined number of other enrolled speakers and a test sample is always matched with either the claimed identity or one of its associated cohort. This makes the overall error rate of the system dependent only on the false acceptance rate, which is determined by the cohort size. The false error rate is further reduced by use of multiple parallel modelling and/or classification processes. Speech models are normalised prior to classification using a normalisation model derived from either the test speech sample or one of the enrolled speaker samples (most preferably from the claimed identity enrolment sample).
L'invention concerne des procédés et systèmes de reconnaissance (identification et/ou vérification) du locuteur, dans lesquels des modèles vocaux de locuteurs inscrits renferment des ensembles de vecteurs d'attributs représentant le spectre de fréquences lissé de chacune des diverses trames et un algorithme de groupement est appliqué aux vecteurs d'attributs des trames pour permettre l'obtention d'un ensemble de données réduit représentant l'échantillon de parole original, les trames adjacentes étant recouvertes sur au moins 80 %. Des modèles vocaux de ce type modélisent les composants statiques de l'échantillon de parole et sont indépendants dans le temps. On utilise une stratégie d'identification, dans laquelle des processus de modélisation et de classification sont sélectionnés pour fournir un taux de refus erroné sensiblement égal à zéro. Chaque locuteur inscrit est associé à une cohorte d'un certain nombre d'autres locuteurs inscrits et un échantillon d'essai est toujours mis en correspondance soit avec l'identité déclarée soit avec un membre de la cohorte auquel il est associé. Ainsi, le taux d'erreur global du système ne dépend que du taux d'acceptation erronée, qui est déterminé par la taille de la cohorte. Le taux de refus erroné est encore réduit par l'utilisation de processus de modélisation et/ou classification parallèles multiples. Des modèles vocaux sont normalisés avant la classification à l'aide d'un modèle de normalisation dérivé soit de l'échantillon d'essai de parole soit d'un des échantillons de locuteur inscrit (de préférence de l'échantillon d'inscription d'identité déclarée).
Ridout & Maybee Llp
Securivox Ltd.
LandOfFree
Speaker recognition system does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Speaker recognition system, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Speaker recognition system will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1738171