《大数据:互联网大规模数据挖掘与分布式处理(第2版)》 [美] 莱斯科夫 扫描版

该资源由用户: 是瑞芝吖 上传  举报不良内容

本书由斯坦福大学“Web挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。

第1 章 数据挖掘基本概念 1

1.1 数据挖掘的定义 1

1.1.1 统计建模 1

1.1.2 机器学习 1

1.1.3 建模的计算方法 2

1.1.4 数据汇总 2

1.1.5 特征抽取 3

1.2 数据挖掘的统计限制 4

1.2.1 整体情报预警 4

1.2.2 邦弗朗尼原理 4

1.2.3 邦弗朗尼原理的一个例子 5

1.2.4 习题 6

1.3 相关知识 6

1.3.1 词语在文档中的重要性 6

1.3.2 哈希函数 7

1.3.3 索引 8

1.3.4 二级存储器 9

1.3.5 自然对数的底e 10

1.3.6 幂定律 11

1.3.7 习题 12

1.4 本书概要 13

1.5 小结 14

1.6 参考文献 15

第2 章 MapReduce及新软件栈 16

2.1 分布式文件系统 17

2.1.1 计算节点的物理结构 17

2.1.2 大规模文件系统的结构 18

2.2 MapReduce 19

2.2.1 Map 任务 20

2.2.2 按键分组 20

2.2.3 Reduce 任务 21

2.2.4 组合器 21

2.2.5 MapReduce 的执行细节 22

2.2.6 节点失效的处理 23

2.2.7 习题 23

2.3 使用MapReduce 的算法 23

2.3.1 基于MapReduce 的矩阵—向量

乘法实现 24

2.3.2 向量v 法放入内存时的处理 24

2.3.3 关系代数运算 25

2.3.4 基于MapReduce 的选择运算 27

2.3.5 基于MapReduce 的投影运算 27

2.3.6 基于MapReduce 的并、交和差运算 28

2.3.7 基于MapReduce 的自然连接运算 28

2.3.8 基于MapReduce 的分组和聚合运算 29

2.3.9 矩阵乘法 29

2.3.10 基于单步MapReduce 的矩阵乘法 30

2.3.11 习题 31

2.4 MapReduce 的扩展 31

2.4.1 工作流系统 32

2.4.2 MapReduce 的递归扩展版本 33

……


如果您对该资源产生疑虑,欢迎您 点击此处 举报不良内容。 希望我们能共建一个文明社区!感谢您的合作与支持!

扫一扫即可关注本站(PDF之家)微信公众账号
发送您想要找的书籍名称即可找到书籍

Image

本站为非盈利性网站, 但服务器成本高昂, 如果本站内容对您有帮助, 欢迎捐赠, 您的鼓励是我们最大的动力!

大小: 34.35 MB
格式: PDF

声明

本站资源来源于网络及个人用户网盘上传,仅用于分享知识,学习和交流! 本站不保存,不制作,不出售任何图书。请您下载完在24小时内删除。 资源禁用于商业用途!如果您喜欢本站资源,请购买正版,谢谢合作!

标签

数据挖掘 斯科夫 分布式 扫描 互联网 大规模 处理 数据

扫码支持一下:

Image Image

猜你喜欢

《大数据:互联网大规模数据挖掘与分布式处理(第2版)》 [美] 莱斯科夫 扫描版

请输入验证码: