没有合适的资源?快使用搜索试试~ 我知道了~
首页Data Mining and Analysis: Fundamental Concepts and Algorithms 英文,教材
Data Mining and Analysis: Fundamental Concepts and Algorithms 英文...
需积分: 16 186 浏览量
更新于2023-03-16
评论
收藏 10.04MB PDF 举报
制作中文的源文件英文,对照阅读 Title: Data Mining and Analysis: Fundamental Concepts and Algorithms Author(s): Zaki M.J., Meira Jr W. Publisher: Cambridge University Press Year: 2014 ISBN: 978-0-521-76633-3
资源详情
资源评论
资源推荐

Data Mining and Analysis:
Fundamental Concepts and Algorithms
Mohammed J. Zaki
Wagner Meira Jr.

CONTENTS i
Contents
Preface 1
1 Data Mining and Analysis 4
1.1 Data Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Attributes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Data: Algebraic and Geometric View . . . . . . . . . . . . . . . . . . 7
1.3.1 Distance and Angle . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Mean and Total Variance . . . . . . . . . . . . . . . . . . . . 13
1.3.3 Orthogonal Projection . . . . . . . . . . . . . . . . . . . . . . 14
1.3.4 Linear Independence and Dimensionality . . . . . . . . . . . . 15
1.4 Data: Probabilistic View . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Bivariate Random Variables . . . . . . . . . . . . . . . . . . . 24
1.4.2 Multivariate Random Variable . . . . . . . . . . . . . . . . . 28
1.4.3 Random Sample and Statistics . . . . . . . . . . . . . . . . . 29
1.5 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5.1 Exploratory Data Analysis . . . . . . . . . . . . . . . . . . . . 31
1.5.2 Frequent Pattern Mining . . . . . . . . . . . . . . . . . . . . . 33
1.5.3 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.5.4 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.6 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
I Data Analysis Foundations 37
2 Numeric Attributes 38
2.1 Univariate Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.1 Measures of Central Tendency . . . . . . . . . . . . . . . . . . 39
2.1.2 Measures of Dispersion . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Bivariate Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.1 Measures of Location and Dispersion . . . . . . . . . . . . . . 49
2.2.2 Measures of Association . . . . . . . . . . . . . . . . . . . . . 50

CONTENTS ii
2.3 Multivariate Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4 Data Normalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5 Normal Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.5.1 Univariate Normal Dis tribution . . . . . . . . . . . . . . . . . 61
2.5.2 Multivariate Normal Distribution . . . . . . . . . . . . . . . . 63
2.6 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3 Categorical Attributes 71
3.1 Univariate Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1 Bernoulli Variable . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1.2 Multivariate Bernoulli Variable . . . . . . . . . . . . . . . . . 74
3.2 Bivariate Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2.1 Attribute Dependence: Contingency Analysis . . . . . . . . . 88
3.3 Multivariate Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.1 Multi-way Contingency Analysis . . . . . . . . . . . . . . . . 95
3.4 Distance and Angle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.5 Discretization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.6 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4 Graph Data 105
4.1 Graph Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2 Topological Attributes . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.3 Centrality Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.1 Basic Centralities . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.2 Web Centralities . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.4 Graph Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.4.1 Erdös-Rényi Random Graph Model . . . . . . . . . . . . . . . 129
4.4.2 Watts-Strogatz Small-world Graph Model . . . . . . . . . . . 133
4.4.3 Barabási-Albert Scale-free Model . . . . . . . . . . . . . . . . 139
4.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5 Kernel Methods 150
5.1 Kernel Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.1.1 Reproducing Kernel Map . . . . . . . . . . . . . . . . . . . . 156
5.1.2 Mercer Kernel Map . . . . . . . . . . . . . . . . . . . . . . . . 158
5.2 Vector Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.3 Basic Kernel Operations in Feature Space . . . . . . . . . . . . . . . 166
5.4 Kernels for Complex Objects . . . . . . . . . . . . . . . . . . . . . . 173
5.4.1 Spectrum Kernel for Strings . . . . . . . . . . . . . . . . . . . 173
5.4.2 Diffusion Kernels on Graph Nodes . . . . . . . . . . . . . . . 175

CONTENTS iii
5.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
6 High-Dimension al Data 182
6.1 High-Dimensional Objects . . . . . . . . . . . . . . . . . . . . . . . . 182
6.2 High-Dimensional Volumes . . . . . . . . . . . . . . . . . . . . . . . . 184
6.3 Hypersphere Ins cribed within Hypercube . . . . . . . . . . . . . . . . 187
6.4 Volume of Thin Hypersphere Shell . . . . . . . . . . . . . . . . . . . 189
6.5 Diagonals in Hyperspace . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.6 Density of the Multivariate Normal . . . . . . . . . . . . . . . . . . . 191
6.7 Appendix: Derivation of Hypersphere Volume . . . . . . . . . . . . . 195
6.8 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
7 Dimensionality Reduction 204
7.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
7.2 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . 209
7.2.1 Best Line Approximation . . . . . . . . . . . . . . . . . . . . 209
7.2.2 Best Two-dimensional Approximation . . . . . . . . . . . . . 213
7.2.3 Best r-dimensional Approximation . . . . . . . . . . . . . . . 217
7.2.4 Geometry of PCA . . . . . . . . . . . . . . . . . . . . . . . . 222
7.3 Kernel Principal Component Analysis (Kernel PCA) . . . . . . . . . 225
7.4 Singular Value Decomposition . . . . . . . . . . . . . . . . . . . . . . 233
7.4.1 Geometry of SVD . . . . . . . . . . . . . . . . . . . . . . . . 234
7.4.2 Connection between SVD and PCA . . . . . . . . . . . . . . . 235
7.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
7.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
II Frequent Patter n Mining 240
8 Itemset Mining 241
8.1 Frequent Itemsets and Association Rules . . . . . . . . . . . . . . . . 241
8.2 Itemset Mining Algorithms . . . . . . . . . . . . . . . . . . . . . . . 245
8.2.1 Level-Wise Approach: Apriori Algorithm . . . . . . . . . . . 247
8.2.2 Tidset Intersection Approach: Eclat Algorithm . . . . . . . . 250
8.2.3 Frequent Pattern Tree Approach: FPGrowth Algorithm . . . 256
8.3 Generating Association Rules . . . . . . . . . . . . . . . . . . . . . . 260
8.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

CONTENTS iv
9 Summarizing Itemsets 269
9.1 Maximal and Closed Frequent Itemsets . . . . . . . . . . . . . . . . . 269
9.2 Mining Maximal Frequent Itemsets: GenMax Algorithm . . . . . . . 273
9.3 Mining Closed Frequent Itemsets: Charm algorithm . . . . . . . . . 275
9.4 Non-Derivable Itemsets . . . . . . . . . . . . . . . . . . . . . . . . . . 278
9.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
9.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
10 Sequence Mining 289
10.1 Frequent Sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
10.2 Mining Frequent Sequences . . . . . . . . . . . . . . . . . . . . . . . 290
10.2.1 Level-Wise Mining: GSP . . . . . . . . . . . . . . . . . . . . . 292
10.2.2 Vertical Sequence Mining: SPADE . . . . . . . . . . . . . . . 293
10.2.3 Projection-Based Sequence M ining: PrefixSpan . . . . . . . . 296
10.3 Substring Mining via Suffix Trees . . . . . . . . . . . . . . . . . . . . 298
10.3.1 Suffix Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
10.3.2 Ukkonen’s Linear Time Algorithm . . . . . . . . . . . . . . . 301
10.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
10.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
11 G raph Pattern Mining 314
11.1 Isomorphism and Support . . . . . . . . . . . . . . . . . . . . . . . . 314
11.2 Candidate Generation . . . . . . . . . . . . . . . . . . . . . . . . . . 318
11.2.1 Canonical Code . . . . . . . . . . . . . . . . . . . . . . . . . . 320
11.3 The gSpan Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 323
11.3.1 Extension and Support Computation . . . . . . . . . . . . . . 326
11.3.2 Canonicality Checking . . . . . . . . . . . . . . . . . . . . . . 330
11.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
11.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
12 Pattern and Rule Assessment 337
12.1 Rule and Pattern Assessment Measures . . . . . . . . . . . . . . . . 337
12.1.1 Rule Assessment Measures . . . . . . . . . . . . . . . . . . . . 338
12.1.2 Pattern Assessment Measures . . . . . . . . . . . . . . . . . . 346
12.1.3 Comparing Multiple Rules and Patterns . . . . . . . . . . . . 349
12.2 Significance Testing and Confidence Intervals . . . . . . . . . . . . . 354
12.2.1 Fisher Exact Test for Productive Rules . . . . . . . . . . . . . 354
12.2.2 Permutation Tes t for Significance . . . . . . . . . . . . . . . . 359
12.2.3 Bootstrap Sampling for Confidence Interval . . . . . . . . . . 364
12.3 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
12.4 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
剩余661页未读,继续阅读
















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0