WebHarvy是一款网页数据抓取工具,用户界面简洁,操作简单,拥有自动检测模式,可以提取任一页面的数据,包括文本、图片等等,输入网址即可打开,默认使用内部浏览器,提取到的数据可导到数据库或文件夹中。
功能介绍
点击界面
WebHarvy是一个视觉网络刮板。绝对不需要编写任何脚本或代码来抓取数据。您将使用WebHarvy的内置浏览器浏览网页。您可以选择要点击的数据。这很容易!
自动模式检测
WebHarvy自动识别网页中发生的数据模式。因此,如果您需要从网页上刮取项目列表(名称,地址,电子邮件,价格等),则无需执行任何其他配置。如果数据重复,WebHarvy会自动删除它。
导出抓取的数据
您可以以多种格式保存从网页中提取的数据。WebHarvyWebScraper的当前版本允许您将抓取的数据导出为Excel,XML,CSV,JSON或TSV文件。您也可以将抓取的数据导出到SQL数据库。
从多个页面提取数据
通常,网页在多个页面上显示产品列表等数据。WebHarvy可以自动抓取并从多个页面提取数据。只需指出“链接到下一页”,WebHarvyWebScraper就会自动从所有页面中抓取数据。
基于关键字的Scraping
通过自动提交搜索表单的输入关键字列表来抓取数据。任何数量的输入关键字可以提交给多个输入文本字段来执行搜索。可以提取所有输入关键字组合的搜索结果数据。
通过代理服务器
为了匿名抓取并防止网络抓取软件被网络服务器阻止,您可以选择通过代理服务器或V PN访问目标网站。可以使用单个代理服务器地址或代理服务器地址列表。
类别提取
WebHarvyWebScraper允许您从链接列表中获取数据,从而导致网站中出现类似的页面/列表。这使您可以使用单一配置来刮取网站内的类别和子类别。
正则表达式
WebHarvy允许您在网页的文本或HTML源代码上应用正则表达式(RegEx)并删除匹配的部分。这种强大的技术为您提供更多的灵活性,同时抓取数据。
运行JavaScript
在提取数据之前在浏览器中运行您自己的JavaScript代码。这可以用来与页面元素交互或者调用已经在目标页面中实现的JavaScript函数。
下载图片
可以下载图像或者提取图像URL。WebHarvy可以自动提取电子商务网站的产品详细信息页面中显示的多个图像。
自动浏览器交互
WebHarvy可以很容易地配置执行任务,如点击链接,选择列表/下拉选项,输入文本到一个字段,滚动页面等。
更新日志
修复了页面启动的时候可能导致禁用连接。
可以对页面模式配置专属的连接方式。
可以自动搜索HTML上可以配置的资源。
增加了键盘向下滚动下一页的功能。
增加了通过Java脚本加载下一页。
添加了URL配置的功能。
可以将关键字输入一个列表上2搜索。
Effie是一款操作便捷的写作软件,简洁直观的界面设计,人人都能轻松上手操作。Effie提供了写作、思维导图、大纲、AI助手等多项实用功能,全面覆盖用户的写作需求,且内置资源库,方便用户管理文...
万彩动画大师是一款简单好用的动画视频制作软件,提供丰富的功能,让用户可以轻松打造企业宣传片、动画片、产品介绍短片等多种视频内容。万彩动画大师提供了众多精美的动画模板和海量素材,供用...
淘宝直播最新电脑版是一款非常好用的直播工具,是淘宝主播的必备之选。在淘宝直播最新电脑版支持主播与观众随时轻松互动,展示商品、回答问题等。此外,该软件还支持多种美颜、滤镜和音效功能,...
哔哩哔哩直播姬是一款简单易用的直播辅助软件,用户只要拥有哔哩哔哩弹幕网会员,就能轻松登录会员快速开启直播。哔哩哔哩直播姬内置弹幕回复、礼物打赏等互动功能,满足主播的不同直播互动需求...
酷呆桌面(Coodesker)提供了极为实用的桌面整理功能,助力用户轻松美化、整理桌面图标。酷呆桌面(Coodesker)支持应用启动器、文档归类等功能,让电脑桌面变得更加整洁,提高办事的效率。同时,该...
向日葵远程控制软件最新版操作简单便捷,用户一键点击就能发起或接受远程控制,随时畅享安全、顺畅的远程体验。向日葵远程控制软件最新版支持远程控制电脑、视频监控、桌面录像、远程文件、远程...
发表评论
共0条
评论就这些咯,让大家也知道你的独特见解
立即评论以上留言仅代表用户个人观点,不代表系统之家立场