G - Physics – 06 – F
Patent
G - Physics
06
F
G06F 17/30 (2006.01) G06K 9/62 (2006.01) G06F 17/60 (2000.01)
Patent
CA 2378145
Some embodiments of the invention include methods for identifying clusters in a database, data warehouse or data mart. The identified clusters can be meaningfully understood by a list of the attributes and corresponding values for each of the clusters. Some embodiments of the invention include a method for scalable probabilistic clustering using a decision tree. Some embodiments of the invention, perform linearly in the size of the set of data and only require a single access to the set of data. Some embodiments of the invention produce interpretable clusters that can be described in terms of a set of attributes and attribute values for that set of attributes. In some embodiments, the cluster can be interpreted by reading the attribute values and attributes on the path from the root node of the decision tree to the node of the decision tree corresponding to the cluster. In some embodiments, it is not necessary for there to be a domain specific distance function for the attributes. In some embodiments, a cluster is determined by identifying an attribute with the highest influence on the distribution of the other attributes. Each of the values assumed by the identified attribute corresponds to a cluster, and a node in the decision tree. In some embodiments, the CUBE operation is used to access the set of data a single time and the result is used to computer the influence and other calculations.
Plusieurs modes de réalisation de cette invention concernent des procédés permettant d'identifier des agrégats dans une base de données ou un dépôt de données. Les agrégats identifiés peuvent être compris dans toute leur valeur à l'aide d'une liste d'attributs et de valeurs correspondantes pour chacun de ces agrégats. D'autres modes de réalisation de cette invention concernent un procédé d'agrégation probabiliste extensible utilisant un arbre de décision, alors que d'autres modes de réalisation peuvent être mis en oeuvre de manière linéaire avec la taille d'un ensemble de données et ne nécessitent qu'un seul accès à cet ensemble de données. Dans d'autres modes de réalisation de cette invention, des agrégats interprétables peuvent être produits, qui sont décrits sous la forme d'un ensemble d'attributs et de valeurs d'attributs pour cet ensemble d'attributs. Dans certains modes de réalisation, on peut interpréter chaque agrégat en lisant les valeurs d'attributs et les attributs sur le chemin reliant le noeud racine de l'arbre de décision au noeud de l'arbre de décision qui correspond à cet agrégat. Dans plusieurs modes de réalisation de cette invention, une fonction de distance spécifique d'un domaine n'est pas indispensable audits attributs. Dans d'autres modes de réalisation, on définit un agrégat en identifiant un attribut qui exerce une grande influence sur la répartition des autres attributs, chaque valeur adoptée par l'attribut identifié correspondant à un agrégat et à un noeud dans l'arbre de décision. Enfin on utilise, dans d'autres modes de réalisation, le mode de fonctionnement CUBE pour accéder à l'ensemble de données à une seule reprise, avant d'utiliser le résultat pour calculer l'influence et effectuer d'autres calculs.
John George H.
Sahami Mehran
E. Piphany Inc.
Smart & Biggar
LandOfFree
Method and apparatus for scalable probabilistic clustering... does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Method and apparatus for scalable probabilistic clustering..., we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Method and apparatus for scalable probabilistic clustering... will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1455029