基于hadoop平台的数据分析和应用

来源：华拓科技网

Microcomputer Applications Vol. 35,No. 11,2019开发应用微型电脳％用2019年第35 ）第11期文章编号：1007-757X（2019） 11-0134-03基于Hadoop平台的数据分析和应用李文航！余恒奇（广东电网有限责任公司清远供电局，清远511515）摘要：传统朴素贝叶斯算法基于分类方式，难以满足实际应用需求，针对这个问题，基于Hadoop分布式系统数据管理平台，提出了一种基于加权分析法的朴素贝叶斯改良算法。通过引入加权分析法对属性值进行加权处理，采用相关系数法和相关概率法来保证权重系数选择的合理性，有效提高分类精确度。实例结果表明：改良的加权朴素分析法在进行大规模数据

测量中，具备很高的分类准确率和较快的分类速度，但在测试小数据样本时不能很好的体现优势，因此，该算法在大数据分析中具备了很高的数据挖掘分类优势。关键词：Hadoop平台；朴素贝叶斯算法；加权分析法中图分类号：TP311

文献标志码：AData Analysis and Application Based on Hadoop PlatformLI Wenhang, YU Hengqi(Qingyuan Power Supply Bureau, Guangdong Power Grid Co. LTD. , Qingyuan 511515)Abstract: This paper aims at the problem that the traditional naive Bayesian algorithm is difficult to meet the practical application requirements because of its independent classification, and puts forward an improved naive Bayesian algorithm based on

weighted analysis method. By introducing the weight analysis method to attributed value weighted, the correlation coefficient meNhodandNhecorrelaNionprobabiliNymeNhodareadopNedNoensureNheraionaliNyandclassificaionaccuracyofNheweighNco- efficient. The example results show that the improved method has high classification accuracy and fast classification speed in

large-scale data measurement, but it cannot be very good in testing small data samples. Therefore, the algorithm has a high advantage of data mining classification in big data analysis.Key words: Hadoop platform； Naive Bayesian algorithm； Weighted analysis method0引言随着互联网时代的发展，数据信息呈现出爆发式的增长。电子商务、社交媒体、电子文档等信息表现出数据流大、

存储分散的特点，而传统的计算机架构已经很难满足目前的

文件系统，经过发展，目前已经集成了 HBase分布式数据管

理系统、Sqoop关系数据交换工具以及各类数据处理工具, 成为一个大型数据处理生态群（6「18），如图1所示。数据处理需求（-3]'数据挖掘技术融合了数理统计（勺、人工

智能⑹等学科，实现了从海量数据中提取有价值的信息，为

框

Hive数据仓库处理工具架层

Pig数据流分析工具企业和社会发展提供更大价值[T0）。Hadoop平台作为一种

商用计算机集群，具备了很强的调度能力、计算能力，以及数据处理和存储能力，能有效解决有效数据的挖掘[11-14],因此,

基于Hadoop平台对半结构化和非结构化的文本信息进行

挖掘和管理，能满足对大数据的深入挖掘和分类应用。图1 Hadoop生态系统1 Hadoop 平台1.1 HadoopHDFS：作为Hadoop系统的分布式文件系统基础，具有

高容错、高扩展性和可靠性特点，采用HDFS可以满足用户

利用较低的硬件成本来部署设备（9）。HDFS的主-从结构包括一个NameNode主节点以及多个与之相连的Data-Node

Hadoop是基于一种分布式系统基础架构设计的数据管

理平台，在Hadoop集群中，其中一个主控节点管理着集群的运行，并协调从结点来实现数据计算功能（5） o Hadoop系统

数据节点。NameNode主节点对系统中的所有文件目录结

构和文件,数据库及位置信息进行管理,Data-Node数据节点

主要处理具体的读写任务。初始核心组件主要为MapReduce并行框架和HDFS分布式

作者简介：李文航（19-）,男，清远人,工程师，本科，研究方向：企业信息化、大数据、网络安全。余恒奇（1991-）,男，上饶人，助理工程师，本科，研究方向：企业信息化、大数据、信息运维。・134・Microcomputer Applications Vol. 35 , No. 11,2019MapReduce：作为一类并行框架设计,MapReduce采用

开发应用微型电$%用2019年第35 )第11期键值方式处理数据输入方式，将数据任务分为Map任务和 Reduce任务。将Hadoop提交的作业分为多个与Map任务相对应的等长数据块。Map任务对输出的数据进行序列整理后分发给Reduce任务进行处理，并形成最终结果°HBase：是基于HDFS建立的分布式数据库，能实现数据的海量存储° HBase采用列式存储，通过关键字和时间戳索引和查询，并对数据的增、删、改等快捷操作°Hive：一种数据仓库处理工具，主要实现对HDFS和 HBase数据的管理和存储。采用Hive X具应用SQL语句进行分析、查询，并通过转化为MapReduce程序执行应用功能’1. 2 Hadoop平台运行机制Hadoop采用主节点运行集群的管理方式，主节点执行的管理功能包括节点调度、存储、计算，从节点主要负责数据计算存储功能’为快速发现集群中节点是否存在故障，采用主节点对从节点的定期检测机制，主节点向从节点发出状态请求后，若未接收到从节点的答应，则判定该从节点失效’ 在HDFS中,NameNode管理主节点，DataNode管理数据存储从节点° MapReduce能高效调度从节点，并利用连接数据库执行计算，从而提高数据分析的运算效率°在Hadoop平台JobTracker和NameNode分布于相同主节点服务器中,

P(X|=,)=

k = 1|=,)

(2)上式中P(X)为确定值,P(=)利用训练记录计算比率求取° 采用式(3)计算分类数据分类器类的后验概率：p(.=')6p# \\=-)P(=jX)= ------------------>()----------------------- (3)从朴素贝叶斯分类算法可以看出,该算法思路简单但分类效率高效,且算法时间和空间的复杂度较小[22]°在实际应用中,即使未能满足所有属性的类条件也难取得良好的分类精度°但该算法需要假设类之间是相互的,很难符合现实情况,且算法需要先从训练集样本中得到相关概率,因此训练集会对样本分类造成影响,尤其是训练样本集

规模较大时,会导致算法开销增大°

2/ 基于改进的朴素贝叶斯分类算法上述分析可以看出,朴素贝叶斯算法时在假定类基础上进行计算的,很难满足实际情况°为解决朴素贝叶斯算法假定类条件不存在所引起的分类问题,通过加权方式进行改善,即假设+为属性A的权重系数,则改进的WNB 算法采如的 (4) °karg maP(G ) 6 PEk | G (4)为避免负载过重导致系统不稳定，也可将两个主节点部署在各自的服务器，而负责数据存储计算功能的TaskTrack- er和管理数据存储从节点的DataNode通常都分布于相同从节点服务器(16)°上式中,+k为计算权重系数,分别应用+K1和+K2平均值作为最终的+k值。下面分析+K1和+K2两种求解方式°+K采用相关系数法计算权重系数°假设条件属性为 X,决策属性=,相应的数学期望分别为E(X)和E(Y),协方

差为CovCX , =) = E(X=) —E(X)(=),则确定+K1取值为式 (5 )°2基于Hadoop平台的数据分类算法Hadoop在进行分类算法中，平台接收到用户输入的作

业并给每一个作业分配单独的作业号，作业服务器收到平台请求后，构建结构信息并传输给任务器执行，HDFS运用分类算法对作业进行训练集JobTacker完成所有任务后将分析结果反馈给用户，算法执行完毕° 2.1传统朴素贝叶斯分类算法分类算法通过训练和测试将定义的数据类别构造分类器，首先计算对象先验概率，然后引入贝叶斯公式实现对对象的后验概率，采用分类器执行待分类样本的概率计算作为选择对象的属性类依据，将其归入最大概率类中(0)°朴素贝叶斯分类法(NB)作为Hadoop中应用广泛的分类算法，是一种基于概率分析算法(17) °贝叶斯分类算法中基于假定为基础，即：一个给定的类中属性均是的，类的决策属性受的条件属性均相同[21]°算法的具体过程为：数据样本X={E1 E2 ,…e$)为n为特征向量，其中E'为第'个度量；未知样本=1 ,=2J7,=m为m类向量，将样本X 随机分配给=「根据条件概率P(Yj\\X)19j9mj 7'的贝叶斯公式(1),P(=, IX)— PXpX#!

(1)+k1Cov(X =)槡(X)D(=)(5 )+K1越大,则条件属性X对决策属性=影响越大,反之则°+K2采用相关概率方式计算权重系数°假设存在属性 Ak及对应的值5k，属性Ak取值5k数目表示为Num(Ak = 5k),属性Ak取值5k且为类G表示为Num(Ak =5k八G),

则+k2表示为式(6) °+k2_ Num(Ak = 5k 八 DNum(Ak =5k )(6 )通过对属性值进行加权处理后，可以降低假设类条件独立的影响。对于影响决策属性较大的赋予较大权重,便能避条件属性策属性影响一性假采两不的选择权重系数法均值处理,保证了权重系数的合理性,有效提高分类精确度，改良后的朴素贝叶斯计算流程，如图2所示°从图2可以看出,基于改良后的加权朴素贝叶斯算法在行采本集 &1 WNB 分类算法运可知当P(X| =,)>(=,)有最大值时,条件概率取最大值,采

用式(2)计算如式(2) °・135相关系数法获得权重系数+K1 ,运用相关概率获得权重系数 +K2,并求取均值,最终获得权重系数+k，加入权重系数后, 使的 WNB 分类算法本集 &2 分类(4)

分类结 °Microcomputer Applications Vol. 35,No. 11,2019开发应用微型电脳％用2019年第35 )第11期法，这是由于多方加权后的算法优化，提高了准确率，同时当

测试实例较大时，采用WNB算法的准确来依然保持很高的

准确率，而传统的NB算法则出现下降。比较算法的处理时

间可以看出，WNB算法也明显优于NB算法，且测试实例数

量越多，则采用WNB算法的处理时间越短，即WNB在大数据处理方面具备更快度速度优势，而在数据量相对较小时,

则这种速度差异相对较小。4总结Hadoop平台作为开源计算机集群系统，具有成本低、效

率高、可扩展优势，能快速处理海量数据，成为大数据领域发展方向o本文在对Hadoop平台数据挖掘算法应用分析基础上，提出了一种改良的加权朴素贝叶斯算法，并在实例中进

行验证，研究获得的主要结果有：(1) 通过引入加权分析法对朴素贝叶斯算法进行改进,

将计算权重系数对属性值进行加权处理，降低假设类条件独

图2改良后的朴素贝叶斯流程图立的影响，采用相关系数法和相关概率法两种不同的选择权

重系数法均值处理，保证了权重系数的合理性，有效提高分

3 实例验证本节基于Hadoop云计算平台进行算法的对比分析o

类精确度。(2) 改良的加权朴素分析法在进行大规模数据测量中,

Hadoop平台运行在三台主机，随机选定其中一台主机为主

具备很高的分类算法准确率和较快的分类速度，但在测试小

节点，其余主机则做为从节点。三台主机均在Linux上运

行，Hadoop集群信息如表1所示o表1 Hadoop集群信息表数据样本时不能很好的体现优势，因此，该算法在大数据分很高的数

掘分类

o主机名称内存操作系统角色参考文献'1 ( 马莹，赵辉，崔岩.基于Hadoop平台的改进KNN分

类算法并行化处理[J(.长春工业大学学报，2018,39(5)：484-4.14G4G4GUbuntu 16. 04Ubuntu 16. 04NameNode、JobTrackerDataNode、TaskTrackerDataNode、TaskTracker23Ubuntu16.04试验数据采用UCI数据集，共分为Poker Hand和Skin

Segmentation数据集，具体的数据信息如表2所示。:2 ( 陈丽，黄晋，王锐.Hadoop大数据平台安全问题和解

决方案的综述[J(.计算机系统应用，2018,27(1):19.[3 ( Wang Yufeng, Liang Yi. Hadoop platform data ac

2数据类别数据集基本信息表cess monitoring mechanism [J(. Computer Engineer

实例数属性数属类别ing and Application, 2014, 50 (22)： 43- 49.[4 ( 韩平平，张祥民.Hadoop数据存储分析技术在风电并

网系统中的应用[J(.电力系统及其自动化学报, 2018,30(1) 43-500Poker HandSkin Segmentation1141021036046245257测试样本从中随机抽取，本文中分别抽取1万&万、12 万、30万、80万个测试实例，进行算法的准确度对比、处理速o[5 ( 瞿诗齐，刘少江，倪伟传.基于Hadoop平台的GPU

集群加速 Aprioti算法[J(.计算机工程，2018, 44

基于传统朴素贝叶斯算法(NB)和改良后的加权朴素贝叶斯算法(WNB)在数据训练中的处理速度和处理准确率对

(11) 14-18.[6 ( 王倩，谭永杰，秦杰，柴争义，等.基于Hadoop分布式

比分析，如表3所示°表3分类算法性能比较测试实例数(万行)-处理时间(S)处理准确率(％ )平台的海量图像检索[J(.南京理工大学学报，2017, 41(4) 442-447.[7 ( 黄富平，梁卓浪.云计算Hadoop平台的异常数据检测

算法研究[J(.计算机测量与控制，2017, 25 ( 7)：

NBWNBNBNB9116255221451359087260-263.[8 ( Dong Xinhua, Li Ruixuan, Zhou Wanwan, et al. Per

87123080242635868685formance Optimization and functional Enhancement of

4259741123Hadoop Systems[J(. Computer Research and Development, 2013, 50 (S2)+1-150从表3中可以看出，WNB分类算法准确率高于NB算(下转第146页)・136・Microcomputer Applications Vol. 35 , No. 11,2019分析郑州铁路职业技术学院学，2017(3):45.开发应用微型电$%用2019年第35 )第11期技术 2000(5):12-15.[4( 乔志超，谢文磊，王智新.不对称高压脉冲轨道电路的

计算机仿真模型研究铁道学报2018(3)+2-87.[9 ( 王赋斌.电子高压脉冲轨道电路的运用铜业工

程 2006(3):54-550'0( 周靖富.高压脉冲轨道电路与相邻轨道电路的安全问

[5 ( 陈永全.不对称高压脉冲轨道电路对动车运行干扰探

讨铁路通信信号工程技术(RSCE), 2017(4)：

101-103.题探讨科技资讯，2012(12):130131.'1( 桑兴民.高压脉冲轨道电路在济南站的应用与改进铁路通信信号工程技术,2012(12)=88-.[6 ( 刘立冰.不对称高压脉冲轨道电路漏解锁问题分析及

处理电力讯息2017(1):131132.[12( 樊学涛.高压脉冲轨道电路在铁路专用线建设中的应

用中国新技术新产品，2013(5):11.[7 ( 陈玉泉.不对称高压脉冲轨道电路与25Hz相敏轨道

电路相邻存在的问题及解决铁道通信信号，2015

'3( 赵晓春.基于高压脉冲轨道电路和RFID的有轨电车

(9):32-34.[8 ( 王明进.电子高压脉冲轨道电路的研制与应用上接第136页)Technology of big data's Analysis based on Hadoop

定位兰州交通大学学报，2016(12)9598(收稿日期：2018 11.23)(法的应用[J(.中国农机化学报，2016, 37 ( 6 )

200-2040[9( Gao Hong. Discussion on Standardization of key

'8( ZHUANG F Z, HE Q, SHI Z Z. Multi-agent based

onautomaticevaluationsystemforclassificationalgo-

platform [J(. Information Technology and Standard- zation， 2013 (5): 27-300rithm [C(// Proceedings of the International Conference on Information and Automation (ICIA'08 )!

[10( 孟佳伟，孙红.基于Hadoop平台的K-means算法优

化综述软件导刊,2017,16(6)+08-211.'1( 刘洋，李筱楠，刘会杰.基于Hadoop的煤炭企业数据

Jun20-23, 2008, Zhangjiajie, China. Piscataway： IEEE!2008+2-269共享系统设计煤炭技术2017,36(6)+26-32 &[12( 李杰，曹付斌.基于Hadoop云平台的无人机遥感图

像分割长春大学学报201727(2)=10-15.''19( LUO P!LU K!SHIZ Z!etal.Distributed data

miningin grid computing environments'J(.Future GenerationComputerSystems!2007!23(1)+84-91.13( Hao Xiaofei!Tan Yuesheng!Wang Jingyu0Paral el-

'0( 张云逸，周滋冰，甘东秋.数据仓库和数据挖掘在决

策支持系统中的应用研究'(.现代教育科学，2011,

izationofApriorialgorithmon Hadoopplatform 'J(. Computerand Modernization!2013 (3): 1-48.20(6)+1121-1130.[14( 张红，王晓明.Hadoop云平台MapReduce模型优化

研究计算机工程与应用2016,52(22)+225.'1( 孟卓，袁梅宇.教育数据挖掘发展现状及研究规律的

分析'(.教育导刊，2015(2) 29- 33.'5( 王英博，马菁，柴佳佳.基于Hadoop平台的改进关联

'2( 何志学,庄连英，斯庆巴拉.基于Hadoop平台的

XMLTwig查询处理方法'(.北华航天工业学院学

报，2015, 25(1) 24- 26.规则挖掘算法计算机工程2016,42(10)+9-74.'6( 白灵.基于Hadoop平台下SVM的图像识别技术

'(现代电子技术 2016,39(16):98101.(收稿日期：2019. 04. 17)'7( 王建伟，陈桂芬.基于Hadoop平台的模糊C均值算上接第142页)('2( V Crescenzi, G Mecca, P Merialdo.RoadRunner+To-

wards Automatic Data Extraction from Large Web

4结论Web信息抽取技术目前已经比较成熟，但是还没有比

Sites'C(//Proceedingsofthe27thInternationalCon- ference on Very Large Data Bases, September2001.较好的自动性与健壮性，本文在抽取时采用循环神经网络自动筛选出开始定界符的方法，将该定界符作为目标节点的前节点，减少了人为的操作，并且具有一定的适应性，在对具备本文所要求的网站特征的网站下进行抽取时，具有很高的正

'( 刘耀，帅远华，龚幸伟，等.基于领域本体的文本分割方

法研究'(计算机科学,2018(1):128-132.'4( D Freitag0Information Extractionfrom HTML+Ap-

确率与召回率，抽取效果良好’今后将在该方面作进一步的

研究，以达到更好的抽取效果。plicationofa GeneralLearning Approach'C(//Proc. 15thConf.ArtificialInteligence (AAAI'98)!Madi-

son, Wisconsin, July 1998 ： 517-523.参考文献'( 刘斌，张晓f .Web信息抽取系统的设计'(微型电脑

应用 201329(3)+10.'( 赵朗.基于深度学习的 Web信息抽取研究与实现

[D(杭州：浙江大学2017.(收稿日期：2018. 11. 28)146

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

基于hadoop平台的数据分析和应用