×

抓取网页数据

从网站抓取数据的3种最佳方法?Excel怎么从提取网页数据

admin admin 发表于2022-05-21 18:14:44 浏览130 评论0

抢沙发发表评论

从网站抓取数据的3种最佳方法


1.使用网站API


许多大型社交媒体网站,例如Facebook,Twitter,Instagram,StackOverflow,都提供API供用户访问其数据。有时,您可以选择官方API来获取结构化数据。如下面的Facebook Graph API所示,您需要选择进行查询的字段,然后订购数据,执行URL查找,发出请求等。


2.建立自己的搜寻器


但是,并非所有网站都为用户提供API。某些网站由于技术限制或其他原因拒绝提供任何公共API。有人可能会提出RSS提要,但是由于限制了它们的使用,因此我不会对此提出建议或发表评论。在这种情况下,我想讨论的是我们可以自行构建爬虫来处理这种情况。-抓取网页数据


3.利用现成的爬虫工具


但是,通过编程自行爬网网站可能很耗时。对于没有任何编码技能的人来说,这将是一项艰巨的任务。因此,我想介绍一些搜寻器工具。


Octoparse是一个功能强大的基于Visual Windows的Web数据搜寻器。用户使用其简单友好的用户界面即可轻松掌握此工具。要使用它,您需要在本地桌面上下载此应用程序。



Excel怎么从提取网页数据


  • 单击【数据】--【获取外部数据】--【自网站】,单击进入。

    请点击输入图片描述

  • 在弹出的新建web页面,在地址栏中输入需要查询数据的网址。

    请点击输入图片描述

  • 页面打开后,会在页面上有一个黄色矩形框嵌套的箭头,单击一下,让它变成小勾,这样我们就能选中需要引用的数据了。

    请点击输入图片描述

    请点击输入图片描述

  • 选中之后,在页面的下端有一个【导入】按钮,单击便会进行数据导入了。

    请点击输入图片描述

  • 导入时excel会提醒数据导入的的区域,用户自己可以根据自身放需要进行选择区域,若不,单击确定就可以了。

    请点击输入图片描述

    请点击输入图片描述

    请点击输入图片描述

  • 网页上的数据都是实时更新的,同样,我们获取的数据也能够实现,选中需要更新的一个单元格或是一块区域,右键--【数据范围属性】,将【允许后台刷新】和【刷新频率】钱的小勾打上,并且还可以对时间进行调整。

    请点击输入图片描述

    请点击输入图片描述

  • 7

    这样,我们需要的数据就可以从网络上直接获取了。

    请点击输入图片描述


如何用Python爬虫抓取网页内容


爬虫流程
其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器,打开目标网站。
获取数据。打开网站之后,就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 Python 库:Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库,使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时,其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get(’http://www.douban.com’)
print(res)
print(type(res))
》》》
《Response 》
《class ’requests.models.Response’》
-抓取网页数据