资源名称:Web数据挖掘
内容简介:
本书旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是本书的特色,这些内容在已有书籍中没有提及,但它们在Web数据挖掘中却占有非常重要的地位。当然,传统的Web挖掘主题,如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。
本书尽管题为“Web数据挖掘”,却依然涵盖了数据挖掘和信息检索的核心主题;因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大最重要的数据挖掘任务,以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。
资源目录:
第一部分 数据挖掘基础
第1章 概述
1.1 什么是万维网
1.2 万维网和互联网的历史简述
1.3 Web数据挖掘
1.4 各章概要
1.5 如何阅读本书
文献评注
第2章 关联规则和序列模式
2.1 关联规则的基本概念
2.2 Apriori算法
2.3 关联规则挖掘的数据格式
2.4 多最小支持度的关联规则挖掘
2.5 分类关联规则挖掘
2.6 序列模式的基本概念
2.7 基于GSP挖掘序列模式
2.8 基于PrefixSpan算法的序列模式挖掘
2.9 从序列模式中产生规则
文献评注
第3章 监督学习
3.1 基本概念
3.2 决策树推理
3.3 评估分类器
3.4 规则推理
3.5 基于关联规则的分类
3.6 朴素贝叶斯分类
3.7 朴素贝叶斯文本分类
3.8 支持向量机
3.9 k-近邻学习
3.10 分类器的集成
文献评注
第4章 无监督学习
4.1 基本概念
4.2 k-均值聚类
4.3 聚类的表示
4.4 层次聚类
4.5 距离函数
4.6 数据标准化
4.7 混合属性的处理
4.8 采用哪种聚类算法
4.9 聚类的评估
4.10 发现数据区域和数据空洞
文献评注
第5章 部分监督学习
5.1 从已标注数据和无标注数据中学习
5.2 从正例和无标注数据中学习
附录: 朴素贝叶斯EM算法的推导
文献评注
第二部分 Web挖掘
第6章 信息检索与Web搜索
6.1 信息检索中的基本概念
6.2 信息检索模型
6.3 关联性反馈
6.4 评估标准
6.5 文本和网页的预处理
6.6 倒排索引及其压缩
6.7 隐式语义索引
6.8 Web搜索
6.9 元搜索引擎和组合多种排序
6.10 网络作弊
文献评注
第7章 链接分析
第8章 Web爬取
第9章 结构化数据抽取:包装器生成
第10章 信息集成
第11章 观点挖掘
第12章 Web使用挖掘
资源截图:
资源均来自第三方,谨慎下载,前往第三方网站下载