新書推薦:
《
农为邦本——农业历史与传统中国
》
售價:HK$
74.8
《
郊庙之外:隋唐国家祭祀与宗教 增订版 (三联·哈佛燕京学术丛书)
》
售價:HK$
105.6
《
小麦文明:“黄金石油”争夺战
》
售價:HK$
97.9
《
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
》
售價:HK$
135.1
《
无法忍受谎言的人:一个调查记者的三十年
》
售價:HK$
63.8
《
战争社会学专论
》
售價:HK$
118.8
《
剑桥意大利戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
162.8
《
教育何用:重估教育的价值
》
售價:HK$
65.8
|
編輯推薦: |
作为数据分析的利器,与其它流行的统计分析软件(如Excel、Matlab、SAS、SPSS等)相比,R语言的优势主要体现在:开源免费、易于扩展、数据包丰富、可视化功能强大、可运行于多种平台。本书力求简明扼要、提供干货,以*浅显的语言、详尽的R语言实现代码向读者循序渐进地展现网络舆情分析的完整过程。
|
內容簡介: |
进入互联网时代后,网络舆情形成迅速,影响着社会生活的方方面面,如何高效全面地采集舆情数据并利用数据挖掘算法及数据分析工具将舆情文本中有价值的信息挖掘出来,对于舆情监管、舆情研判、舆情引导至关重要。本书以R语言作为舆情分析的工具,在阐述相关原理的基础上,介绍了网络舆情信息采集、舆情信息预处理、舆情文本分类、舆情文本聚类、舆情数据关联规则挖掘、舆情相关指标预测等舆情分析环节,所有分析都使用R语言进行实现,给出了完整的过程和代码。本书可以作为舆情处理、数据分析等教学或科研的技术参考书,适于本科生、研究生、数据分析爱好者、舆情分析工作者及研究人员等阅读参考。
|
目錄:
|
目录
第1章网络舆情与舆情分析概述
1.1舆情与网络舆情的基本概念
1.1.1舆情的起源及定义
1.1.2网络舆情
1.2网络舆情的特征及表现形式
1.3网络舆情分析技术
1.3.1网络舆情分析的研究热点
1.3.2网络舆情分析的步骤
1.3.3网络舆情分析的常用技术
第2章R语言基础
2.1R语言简介
2.1.1R语言的起源、特点及安装
2.1.2R语言的基本操作
2.1.3R语言的常用命令
2.1.4包的安装与加载
2.2数据操作
2.2.1基本数据类型
2.2.2数据结构
2.2.3数据读写
2.2.4数据的描述性统计
2.3R语言语法
2.3.1分支结构
2.3.2循环结构
2.3.3R语言函数
2.3.4apply函数族
2.4R语言绘图
2.4.1条形图
2.4.2饼图
2.4.3直方图
2.4.4散点图
第3章网络舆情信息采集及R爬虫的实现
3.1网络舆情信息采集的基本原理
3.1.1网络爬虫及其主要类型
3.1.2爬虫的工作流程
3.2免费的网络舆情采集利器八爪鱼数据采集器
3.2.1简介
3.2.2下载、安装、启动与注册账号
3.2.3八爪鱼采集器的使用
3.3基于R语言的信息采集爬虫的开发
3.3.1HTTP
3.3.2RCurl包
3.3.3XML包
3.3.4基于RCurl包与XML包的爬虫示例
第4章基于R语言的舆情信息预处理
4.1分词处理
4.1.1分词的基本原理
4.1.2使用Rwordseg包进行分词
4.1.3使用jiebaR包进行分词
4.2去停用词
4.2.1什么是停用词
4.2.2R语言中去停用词的方法
4.3词频统计
4.3.1词频统计常用函数
4.3.2词云可视化
4.4文本向量化
4.4.1语料库与文本向量空间
4.4.2R语言中语料库的构建
4.4.3R语言中文本向量的构建文档词条矩阵
第5章基于R语言的网络舆情分类
5.1分类的定义及其基本原理
5.1.1分类的定义
5.1.2分类的基本原理
5.2经典的分类算法决策树算法
5.2.1什么是决策树
5.2.2决策树算法的基本思想
5.3分类算法在舆情分析中的应用
5.3.1网络舆情分类的基本原理
5.3.2网络舆情分类的常用算法及其R语言实现
5.4基于R语言的网络舆情分类示例微信公众号文章分类
5.4.1问题描述
5.4.2数据采集
5.4.3微信公众号文章分类的R语言实现
第6章基于R语言的网络舆情热点话题聚类
6.1聚类的定义及其基本原理
6.1.1聚类的定义
6.1.2聚类的基本原理
6.2经典的聚类算法
6.2.1KMeans聚类
6.2.2层次聚类
6.3聚类算法在舆情分析中的应用及其R语言实现
6.4基于R语言的网络舆情聚类分析示例电商顾客评论热点话题聚类
6.4.1问题描述
6.4.2数据采集
6.4.3电商商品评论聚类分析的R语言实现
第7章基于R语言的网络舆情关联规则挖掘
7.1关联规则挖掘的定义及其基本原理
7.1.1什么是关联规则挖掘
7.1.2关联规则挖掘的基本原理
7.2常用的关联规则挖掘算法
7.2.1Apriori算法
7.2.2Eclat算法
7.3关联规则挖掘在舆情分析中的应用及其R语言实现
7.4基于R语言的网络舆情关联分析示例雾霾舆情热点词关联
模式挖掘
7.4.1问题描述
7.4.2数据采集
7.4.3雾霾舆情热点词关联模式挖掘的R语言实现
第8章基于R语言与BP神经网络的网络舆情分析
8.1BP神经网络概述
8.1.1什么是人工神经网络
8.1.2什么是BP神经网络
8.2BP神经网络的算法原理
8.2.1BP神经网络的算法流程
8.2.2数据的归一化处理
8.3BP神经网络在舆情分析中的应用及其R语言实现
8.4基于R语言与神经网络的舆情分析示例微博转发数与评论数预测
8.4.1问题描述
8.4.2数据采集
8.4.3基于R语言与神经网络的微博转发数与评论数预测的实现
参考文献
|
內容試閱:
|
前言
2013年8月19日和20日,习近平总书记出席全国宣传思想工作会议并发表重要讲话; 2014年10月15日,习近平总书记主持召开文艺工作座谈会并发表重要讲话; 2015年12月25日,习近平总书记视察解放军报社并发表重要讲话; 2016年2月19日,习近平总书记到人民日报社、新华社、中央电视台三家中央新闻单位进行了实地调研后,主持召开党的新闻舆论工作座谈会并发表重要讲话。从这些讲话中,我们可以深刻地领会到: 党中央高度重视舆论宣传工作,根据形势发展的需要,更是把网络舆情监督和引导当作重中之重来抓。
在当前的互联网及大数据的时代背景下,网络舆情形成迅速,影响着社会生活的方方面面,如何高效全面地采集舆情数据并利用数据挖掘算法及数据分析工具将舆情文本中有价值的信息挖掘出来,对于舆情监管、舆情研判、舆情引导至关重要。网络信息的不断膨胀给舆情工作提出了新的挑战,为了更好地进行舆情收集、舆情研判、加快构建舆情引导新格局,舆情工作方式、舆情管理思维、舆情数据分析技术等都需要不断创新。
作者在本书的写作过程中阅读了大量的相关文献。文献研究表明,目前,越来越多的学者加入到了网络舆情的基础理论、支撑技术和演化机制等的研究中,网络舆情的研究视角日益多样化,研究内容也越来越深入。从网络舆情分析的视角来看,其核心技术主要包括自然语言处理、文本分类、文本聚类、关联分析、智能预测等,相应的理论、算法等也日臻成熟。但是,在实际的网络舆情分析各个环节中,舆情信息如何有效地采集、舆情分析算法如何高效地实现、舆情分析结果如何可视化展示等问题仍然困扰着很多研究者和舆情分析人员。
基于上述考虑,本书以R语言作为舆情分析工具,在阐述相关原理的基础上,介绍了网络舆情信息采集、舆情信息预处理、舆情文本分类、舆情文本聚类、舆情数据关联规则挖掘、舆情预测等的技术和方法。作为数据分析的利器,与其他流行的统计分析软件(如Excel、Matlab、SAS、SPSS等)相比,R语言的优势主要体现在开源免费、易于扩展、数据包丰富、可视化功能强大、可运行于多种平台。
本书力求简明扼要、提供有价值的知识,以最浅显的语言、详尽的R语言实现代码向读者循序渐进地展现网络舆情分析的完整过程。本书共8章,具体章节结构如下。
第1章网络舆情与舆情分析概述: 主要介绍了网络舆情的定义及特征,并对网络舆情的研究热点及相关技术做了概述。
第2章R语言基础: 为了帮助不熟悉R语言的读者尽快入门,本章主要从数据读写、基本语法、绘图三方面对R语言的使用做了言简意赅的介绍。
第3章网络舆情信息采集及R爬虫的实现: 介绍了网络舆情信息采集的基本原理、八爪鱼数据采集器的使用,并通过示例讲解了如何使用R语言开发一个简单的信息采集爬虫。
第4章基于R语言的舆情信息预处理: 介绍舆情信息预处理中分词、去停用词、词频统计、文本向量化等的基本原理以及R语言实现方法。
第5章基于R语言的网络舆情分类: 从分类的基本原理入手,介绍了决策树分类算法、网络舆情分类的基本原理,并通过微信公众号文章分类这一示例讲解了使用R语言进行网络舆情分类的方法和步骤。
第6章基于R语言的网络舆情热点话题聚类: 介绍了聚类的基本原理、经典的聚类算法、聚类算法在舆情分析中的应用,并通过电商顾客评论热点话题聚类这一商务舆情分析示例讲解了使用R语言进行网络舆情聚类的方法和步骤。
第7章基于R语言的网络舆情关联规则挖掘: 介绍了关联规则挖掘的基本原理、常用的关联规则挖掘算法、关联规则在舆情分析中的应用,并通过雾霾舆情热点词关联模式挖掘这一示例讲解了使用R语言进行网络舆情关联分析的方法和步骤。
第8章基于R语言与BP神经网络的网络舆情分析: 介绍了BP神经网络的算法原理、BP神经网络在舆情分析中的应用,并通过微博转发数与评论数预测这一示例讲解了使用R语言与神经网络进行网络舆情相关指标预测的方法和步骤。
本书系2015年度教育部人文社会科学研究规划基金项目微信环境下基于大数据的高校舆情监管机制研究(项目编号: 15YJAZH102)研究成果之一。本书内容浅显易懂、代码详尽,希望能对舆情工作者及研究人员有所裨益。由于作者学识有限,书中难免有所疏漏,在此表示歉意,并请读者朋友们不吝赐教。最后感谢清华大学出版社为本书的出版所做的努力。
大连海事大学于卫红
2017年3月
|
|