新书上市世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》_百度文 ...

新书上市世界名校数据挖掘经典《斯坦福数据挖掘教程
(第3版)》
题图 | 作者为 Scott  Ullman
《斯坦福数据挖掘教程(第3版)》上架之后,这是我们第⼀次整篇⽂章介绍这本书。
这本书相当受欢迎(前两个版本累计销量超过 5 万册),尤其是受学校青睐——在此也说声抱歉,出于出版时间的原因,很多学校依然采⽤了旧版作为教材;同时也请知悉,新版已上架,正在使⽤这本书作为教材的学校可以考虑更新了。
实际上,这本书已经在⼤家⾯前出过 2 次镜了,⼀次是 2020 年图灵奖公布的次⽇图灵君⽤⼀篇⽂章讲了讲图灵奖得主之⼀ Jeffrey Ullman 和这本书「不⼀样的」故事;⼀次是 423 活动那次,这本书在没有赶上⼤促优惠的情况下进⼊了新书畅销榜单。小诺霉素
除了是⼀本畅销多年的世界名校数据挖掘⼊门经典书,《斯坦福数据挖掘教程(第3版)》之于 Jeffrey Ullman  和弟⼦ Anand Rajaraman 还有特别的意义。那就是这本书原本只是作为开源电⼦版出版的,后来才有了纸质书的诞⽣,个中原因⼤家可以在⽂末链接阅读相关⽂章。
好了,回到这本书,我们继续说说它的缘起。本书源于Ullman 及弟⼦  Rajaraman 在斯坦福⼤学教授多年的⼀门季度课程——「多年」真的不是随便叫叫的,我去这本书的⽹站上看了看,斯坦福⼤学开设这门课程,最早可以追溯到 2000 年,着实佩服。
课程名为“Web 挖掘”(编号 CS345A),原本是为⾼年级研究⽣设计的,没成想⾼年级本科⽣也⾮常感兴趣,于是现在就成为本科⽣和研究⽣兼修的⼀门课程。Jure Leskovec 到斯坦福⼤学任职后,共同对相关材料进⾏了重新组织。他开设了⼀门有关⽹络分析的新课程
CS224W, 并为 CS345A 增加了⼀些内容,重新编号为 CS246。三位作者还开设了⼀门⼤规模数据挖掘的项⽬课程 CS341。⽬前本书包含了以上三门课程的所有教学内容。
图书核⼼特⾊
这本书核⼼的特⾊是:它是⼀本数据挖掘领域全景路线图式的⼊门参考技术书,下⾯解释⼀下关键词。
1.全景路线图
⼀⽅⾯可以让你了解数据挖掘这个⼤领域下的各个⼩领域;
另⼀⽅⾯让你可以纵览整个数据构建模型的过程,这个过程中你会遇到什么问题,尤其是从普通规模数据到极⼤规模数据发⽣了哪些状况,你的解决⽅案是如何转换的。
2.⼊门
跟上⾯⼀条紧密关联。普通书⼊门从简单操作开始,⼀步步来,读者见树⽊⽽不见森林,好书⼊门从全景图开始,教读者抓核⼼内容,对整个领域了然于胸之后深⼊⾃⼰感兴趣的关键点。⽽这本书介绍的正是⾼⼿⼊门之道,书中并没有每个细分领域的详细讲解,但是为你展⽰了最新的参考论⽂和进阶资料,⽅便你进⼀步探索。
3.技术
虽然有概念,但并⾮聚焦于概念,⽽是教你怎么⽤,可直接应⽤于实际的⼤规模数据挖掘⼯作——海量 Web 数据是⽬前⼤数据挖掘⼯作的核⼼,数据分析师、数据科学家、机器学习专家都不可错过。
接下来让我们来详细看看书中的内容。根本违约
第五种快乐图书核⼼内容
办公室里的速度与激情本书是关于数据挖掘的,但是主要关注极⼤规模数据的挖掘。“极⼤规模”的意思是,这些数据⼤到⽆法在内存中存放。因为本书重点强调数据的规模,所以例⼦⼤多来⾃ Web 本⾝或者 Web 上导出的数据。另外,本书从算法的⾓度来看待数据挖掘,即数据挖掘是将算法 应⽤于数据,⽽不是使⽤数据来“训练”某种类型的机器学习引擎。
本书的主要内容包括:图灵奖
(1) 分布式⽂件系统和 MapReduce,其中后者⽤于创建在极⼤规模数据集上成功应⽤的并⾏算法;核磁共振成像
(2) 相似性搜索,包括最⼩哈希和局部敏感哈希的关键技术;
(3) 数据流处理以及针对快速到达、须⽴即处理且易丢失的数据的专⽤算法;
(4) 搜索引擎技术,包括⾕歌的 PageRank、链接作弊检测以及计算⽹页导航度(hub)和权威度(authority)的 HITS ⽅法;
(5) 频繁项集挖掘,包括关联规则、购物篮分析、A-Priori 算法及其改进;
(6) 极⼤规模⾼维数据集的聚类算法;
(7) Web 应⽤中的两个关键问题——⼴告管理和推荐系统;
(8) 对极⼤规模的图(特别是社会⽹络图)的结构进⾏分析和挖掘的算法;
(9) 通过降维来获得⼤规模数据集的重要性质的技术,包括 SVD 和隐性语义索引;
(10) 可以应⽤于极⼤规模数据的机器学习算法,包括感知机、⽀持向量机、梯度下降法、决策树和神经⽹络;
(11) 神经⽹络与深度学习,包括最重要的⼏个特例——卷积神经⽹络(CNN)、循环神经⽹络(RNN)和长短期记忆⽹络(LSTM)。⽤思维导图展⽰⼀下图书的内容。

本文发布于:2024-09-20 17:32:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/719351.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据挖掘   规模
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议