×

爬虫论坛

比较好的爬行动物论坛网站(爬行天下除外)都有哪些?hadoop如何分析论坛评论数据我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接

admin admin 发表于2022-05-30 13:07:50 浏览108 评论0

抢沙发发表评论

比较好的爬行动物论坛网站(爬行天下除外)都有哪些


http://www.hkaro.com/forumdisplay.php?fid=23 香港的
http://www.allboas.com/index.php国外的
http://www.ourshengui.com/snake/宠物蛇之家

先给你这个几个吧 要是还想要就站内我

hadoop如何分析论坛评论数据我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接


crontab做定时执行脚本,hive的直接放脚本里,mr的打成jar通过脚本运行。爬数据—数据清洗—每个评论lucence分词-取部分评论定义标签,好评中评差评—通过贝叶斯学习获得分类器模型—对测试数据预测—结果保存

论坛爬虫 已经设置好了header cookie可是还是获取不了内容


跳转你可以设置为不跳转获取到Cookie带上然后再手机跳转啊,如果获取不到,肯定是你的验证未通过吧,或者有些Cookie是通过JS或者是其他页面生成的,并非是你访问的这个页面,当然浏览器是会解析和执行的,没办法比较
-爬虫论坛