hadoop是做什么的？hadoop如何分析论坛评论数据我现在想到的方案是：用爬虫从某论坛抓取数据，抓取到数据之后我直接

hadoop是做什么的

提供海量数据存储和计算的，需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

特点

1、快照支持在一个特定时间存储一个数据拷贝，快照可以将失效的集群回滚到之前一个正常的时间点上。HDFS已经支持元数据快照。

2、HDFS的设计是用于支持大文件的。运行在HDFS上的程序也是用于处理大数据集的。这些程序仅写一次数据，一次或多次读数据请求，并且这些读操作要求满足流式传输速度。

HDFS支持文件的一次写多次读操作。HDFS中典型的块大小是64MB，一个HDFS文件可以被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同的数据节点上。

3、阶段状态：一个客户端创建一个文件的请求并不会立即转发到名字节点。实际上，一开始HDFS客户端将文件数据缓存在本地的临时文件中。

hadoop如何分析论坛评论数据我现在想到的方案是：用爬虫从某论坛抓取数据，抓取到数据之后我直接

crontab做定时执行脚本，hive的直接放脚本里，mr的打成jar通过脚本运行。爬数据—数据清洗—每个评论lucence分词-取部分评论定义标签，好评中评差评—通过贝叶斯学习获得分类器模型—对测试数据预测—结果保存

hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

电脑数码网

Nice to meet you, too!

hadoop是什么 hadoop

hadoop是做什么的？hadoop如何分析论坛评论数据我现在想到的方案是：用爬虫从某论坛抓取数据，抓取到数据之后我直接

admin 发表于2022-05-13 23:41:58 浏览156 评论0