您现在的位置 >> Hadoop教程 >> Hadoop实战 >> flume专题  
 

about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书V1.0.1

【作者:Hadoop实战专家】【关键词:数据 统计 flume 】 【点击:88871次】【2013-02-2】
本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。 日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。 2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果  

相关热门搜索:

大数据标签:hadoop hdfs mapreduce hbase hive sqoop flume spark bigdata

about云分析discuz论坛

apache日志hadoop大数据项目

概要设计说明书

修改记录

版本号

更改人/发布人

审批人

更改日期

V1.0.1

About云

About云

20140-7-19

系统实现:

项目实现目标:

一、统计ip

二、统计跳出率

三、统计后台登陆ip

四、统计搜索量及搜索词

五、统计模块点击量

六、空间访问量

七、统计导航点击量:

1.统计论坛社区

2.统计图文阅读区

3.统计导读

4.统计博客

5.统计排行榜

6.统计分享

7.统计群组

8.统计广播

9.统计微信

一、技术方案:

技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)

技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)

初始阶段使用方案1

二、详细说明

本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。

日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。

数据清洗处理方式

1.日志清洗的目的,从原始数据中,得到我们想要的数据

清洗方式:

(1)通过mapreduce过滤

信息查询与统计
清洗数据导入hbase、hive中

1.hbase的作用

存储、查询数据

2.hive统计信息

hive统计信息通过sqoop导入关系型数据库mysql中

3.数据展示

1.通过Java web或则其它语言展示hbase数据

2.通过Java web或则其它语言从mysql中展现数据

环境搭建:

参考:

hadoop2.2完全分布式最新高可靠安装文档

hbase 0.96整合到hadoop2.2三个节点全分布式安装高可靠文档

hbase0.96hive0.12整合高可靠文档及问题总结

让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

hadoop2.2 eclipse链接hdfs(hadoop)

功能任务划分

1.通过shell,完成日志传递

通过Linux shell命令,将日志传递到flume监控目录

要求:能够定时执行

2.通过flume,传递原始数据到hdfs

flume的安装,可参考下面内容:

让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

3.mapredue对原始数据过滤

要求留下内容:

1.ip地址

2.ip地址个数

3.url地址

4.用户使用浏览器

5.操作系统

4.过滤内容,放入hive及hbase中

1.使用hive统计如下内容

一、统计ip、访问次数

二、统计跳出率最高以及最低个20条

三、统计后台登陆ip

四、统计搜索量及搜索词

五、统计模块ip、及访问次数

六、空间访问量ip及访问次数

七、统计导航点击量:(访问次数、及ip地址)

1.统计论坛社区

2.统计图文阅读区

3.统计导读

4.统计博客

5.统计排行榜

6.统计分享

7.统计群组

8.统计广播

9.统计微信

5.展示
1.使用javaweb展示hbase过滤数据,用于查询

2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果

大数据系列flume相关文章:

最新评论
2014-09-10 11:42:56
hadoop集群已经搭建起啦,怎么用在win7下面的eclipse连接上虚拟机上的hadoop集群进行用发呀
孤烟2014-09-10 04:13:00
liu加入本群
TomXiong-池枫2014-09-09 02:12:33
这等级是什么顺序啊~
炎辰ly2014-09-09 09:50:34
hadoop snappy 压缩的安装和配置 http://t.cn/8s1bRx6
启云何建军2014-09-08 06:37:23
等我孩子大点也跟他混去
CAM2014-09-07 11:08:11
?
windy2014-09-07 11:03:38
|
EasyHadoop2014-09-07 05:30:44
http://t.cn/RvjEX5l hadoop学习地址
撒啊2014-09-07 04:57:34
#hadoop# blog http://t.cn/zQq44XX
颓废2014-09-06 08:22:50
【大数据领域内的十大开源技术、十大公司】十大开源技术:Apache HBase、Apache Storm、Apache Spark、Apache Hadoop、Apache Drill、Apache Sqoop、Apache Giraph、Cloudera Impala、Gephi、MongoDB。十大顶尖公司:Amazon Web Services、Cloudera、Hortonworks、IBM、Intel。http://t.cn/8sQcYug
 
  • Hadoop生态系统资料推荐