puppeteer爬虫是什么？爬虫的工作原理

网页的本质就是超级文本标记语言，通过结合使用其他的Web技术（如：脚本语言、公共网关接口、组件等），可以创造出功能强大的网页。因而，超级文本标记语言是万维网（Web）编程的基础，也就是说万维网是建立在超文本基础之上的。超级文本标记语言之所以称为超文本标记语言，是因为文本中包含了所谓“超级链接”点。

本篇文章给大家带来的内容是介绍puppeteer爬虫是什么？爬虫的工作原理。有一定的参考价值，有需要的朋友可以参考一下，希望对你们有所帮助。

爬虫（puppeteer）是什么？

爬虫又称网络机器人。每天或许你都会使用搜索引擎，爬虫便是搜索引擎重要的组成部分，爬取内容做索引。现如今大数据，数据分析很火，那数据哪里来呢，可以通过网络爬虫爬取啊。那我萌就来探讨一下网络爬虫吧。

爬虫的工作原理

如图所示，这是爬虫的流程图，可以看到通过一个种子URL开启爬虫的爬取之旅，通过下载网页，解析网页中内容存储，同时解析中网页中的URL 去除重复后加入到等待爬取的队列。然后从队列中取到下一个等待爬取的URL重复以上步骤，是不是很简单呢？

广度（BFS）还是深度（DFS）优先策略

上面也提到在爬取完一个网页后从等待爬取的队列中选取一个URL去爬去，那如何选择呢？是选择当前爬取网页中的URL 还是继续选取当前URL中同级URL呢？这里的同级URL是指来自同一个网页的URL，这就是爬取策略之分。

广度优先策略（BFS）

广度优先策略便是将当前某个网页中URL先爬取完全，再去爬取从当前网页中的URL爬取的URL，这就是BFS，如果上图的关系图表示网页的关系，那么BFS的爬取策略将会是：（A->(B,D,F,G)->(C,F));

深度优先策略（DFS）

深度优先策略爬取某个网页，然后继续去爬取从网页中解析出的URL，直到爬取完。
（A->B->C->D->E->F->G)

下载网页

下载网页看起来很简单，就像在浏览器中输入链接一样，下载完后浏览器便能显示出来。当然结果是并不是这样的简单。

模拟登录

对于一些网页来说需要登录才能看到网页中内容，那爬虫怎么登录呢？其实登录的过程就是获取访问的凭证（cookie,token...)

let cookie = '';
let j = request.jar()
async function login() {
    if (cookie) {
        return await Promise.resolve(cookie);
    }
    return await new Promise((resolve, reject) => {
        request.post({
            url: 'url',
            form: {
                m: 'username',
                p: 'password',
            },
            jar: j
        }, function(err, res, body) {
            if (err) {
                reject(err);
                return;
            }
            cookie = j.getCookieString('url');
            resolve(cookie);
        })
    })
}

这里是个简单的栗子，登录获取cookie, 然后每次请求都带上cookie.

有的网页内容是服务端渲染的，没有CGI能够获得数据，只能从html中解析内容，但是有的网站的内容并不是简单的便能获取内容，像linkedin这样的网站并不是简单的能够获得网页内容，网页需要通过浏览器执行后才能获得最终的html结构，那怎么解决呢？前面我萌提到浏览器执行，那么我萌有没有可编程的浏览器呢？puppeteer,谷歌chrome团队开源的无头浏览器项目，利用无头浏览器便能模拟用户访问，便能获取最重网页的内容，抓取内容。
利用puppeteer 模拟登录

async function login(username, password) { const browser = await puppeteer.launch(); page = await browser.newPage(); await page.setViewport({ width: 1400, height: 1000 }) await page.goto('https://example.cn/login'); console.log(page.url()) await page.focus('input[type=text]'); await page.type(username, { delay: 100 }); await page.focus('input[type=password]'); await page.type(password, { delay: 100 }); await page.$eval("input[type=submit]", el => el.click()); await page.waitForNavigation(); return page; }

执行login()后便能像在浏览器中登录后，便能像浏览器中登录后便能获取html中的内容，当让w哦萌也可以直接请求CGI

async function crawlData(index, data) {
                    let dataUrl = `https://example.cn/company/contacts?count=20&page=${index}&query=&dist=0&cid=${cinfo.cid}&company=${cinfo.encodename}&forcomp=1&searchTokens=&highlight=false&school=&me=&webcname=&webcid=&jsononly=1`;
                    await page.goto(dataUrl);
                    // ...
                }像有的网站，拉钩，每次爬取的cookie都一样，也能利用无头浏览器取爬取，这样每次就不用每次爬取的时候担心cookie.
写在最后
当然爬虫不仅仅这些，更多的是对网站进行分析，找到合适的爬虫策略。对后关于puppeteer,不仅仅可以用来做爬虫，因为可以编程，无头浏览器，可以用来自动化测试等等。
以上就是puppeteer爬虫是什么？爬虫的工作原理的详细内容，更多请关注php中文网其它相关文章！				
				
					微信
					分享
				

网站建设是一个广义的术语，涵盖了许多不同的技能和学科中所使用的生产和维护的网站。



  关键词：puppeteer爬虫是啥？爬虫的工作原理

争怎路由网：是一个主要分享无线路由器安装设置经验的网站，汇总WiFi常见问题的解决方法。争怎路由网苹果手机上不了网 wifi网络自动获取获取ip 上网方式网站首页不能上网路由器密码 WiFi设置路由器设置 TP-Link 腾达路由器软件教程游戏教程系统下载您当前所在位置：下载首页 -> 网站教程
puppeteer爬虫是什么？爬虫的工作原理时间：2024/5/5作者：未知来源：争怎路由网人气：6 网页的本质就是超级文本标记语言，通过结合使用其他的Web技术（如：脚本语言、公共网关接口、组件等），可以创造出功能强大的网页。因而，超级文本标记语言是万维网（Web）编程的基础，也就是说万维网是建立在超文本基础之上的。超级文本标记语言之所以称为超文本标记语言，是因为文本中包含了所谓“超级链接”点。本篇文章给大家带来的内容是介绍puppeteer爬虫是什么？爬虫的工作原理。有一定的参考价值，有需要的朋友可以参考一下，希望对你们有所帮助。爬虫（puppeteer）是什么？爬虫又称网络机器人。每天或许你都会使用搜索引擎，爬虫便是搜索引擎重要的组成部分，爬取内容做索引。现如今大数据，数据分析很火，那数据哪里来呢，可以通过网络爬虫爬取啊。那我萌就来探讨一下网络爬虫吧。爬虫的工作原理如图所示，这是爬虫的流程图，可以看到通过一个种子URL开启爬虫的爬取之旅，通过下载网页，解析网页中内容存储，同时解析中网页中的URL 去除重复后加入到等待爬取的队列。然后从队列中取到下一个等待爬取的URL重复以上步骤，是不是很简单呢？广度（BFS）还是深度（DFS）优先策略上面也提到在爬取完一个网页后从等待爬取的队列中选取一个URL去爬去，那如何选择呢？是选择当前爬取网页中的URL 还是继续选取当前URL中同级URL呢？这里的同级URL是指来自同一个网页的URL，这就是爬取策略之分。广度优先策略（BFS）广度优先策略便是将当前某个网页中URL先爬取完全，再去爬取从当前网页中的URL爬取的URL，这就是BFS，如果上图的关系图表示网页的关系，那么BFS的爬取策略将会是：（A->(B,D,F,G)->(C,F)); 深度优先策略（DFS）深度优先策略爬取某个网页，然后继续去爬取从网页中解析出的URL，直到爬取完。（A->B->C->D->E->F->G) 下载网页下载网页看起来很简单，就像在浏览器中输入链接一样，下载完后浏览器便能显示出来。当然结果是并不是这样的简单。模拟登录对于一些网页来说需要登录才能看到网页中内容，那爬虫怎么登录呢？其实登录的过程就是获取访问的凭证（cookie,token...) let cookie = ''; let j = request.jar() async function login() { if (cookie) { return await Promise.resolve(cookie); } return await new Promise((resolve, reject) => { request.post({ url: 'url', form: { m: 'username', p: 'password', }, jar: j }, function(err, res, body) { if (err) { reject(err); return; } cookie = j.getCookieString('url'); resolve(cookie); }) }) } 这里是个简单的栗子，登录获取cookie, 然后每次请求都带上cookie. 获取网页内容有的网页内容是服务端渲染的，没有CGI能够获得数据，只能从html中解析内容，但是有的网站的内容并不是简单的便能获取内容，像linkedin这样的网站并不是简单的能够获得网页内容，网页需要通过浏览器执行后才能获得最终的html结构，那怎么解决呢？前面我萌提到浏览器执行，那么我萌有没有可编程的浏览器呢？puppeteer,谷歌chrome团队开源的无头浏览器项目，利用无头浏览器便能模拟用户访问，便能获取最重网页的内容，抓取内容。利用puppeteer 模拟登录 async function login(username, password) { const browser = await puppeteer.launch(); page = await browser.newPage(); await page.setViewport({ width: 1400, height: 1000 }) await page.goto('https://example.cn/login'); console.log(page.url()) await page.focus('input[type=text]'); await page.type(username, { delay: 100 }); await page.focus('input[type=password]'); await page.type(password, { delay: 100 }); await page.$eval("input[type=submit]", el => el.click()); await page.waitForNavigation(); return page; } 执行`login()`后便能像在浏览器中登录后，便能像浏览器中登录后便能获取html中的内容，当让w哦萌也可以直接请求CGI async function crawlData(index, data) { let dataUrl = `https://example.cn/company/contacts?count=20&page=${index}&query=&dist=0&cid=${cinfo.cid}&company=${cinfo.encodename}&forcomp=1&searchTokens=&highlight=false&school=&me=&webcname=&webcid=&jsononly=1`; await page.goto(dataUrl); // ... } 像有的网站，拉钩，每次爬取的cookie都一样，也能利用无头浏览器取爬取，这样每次就不用每次爬取的时候担心cookie. 写在最后当然爬虫不仅仅这些，更多的是对网站进行分析，找到合适的爬虫策略。对后关于`puppeteer`,不仅仅可以用来做爬虫，因为可以编程，无头浏览器，可以用来自动化测试等等。以上就是puppeteer爬虫是什么？爬虫的工作原理的详细内容，更多请关注php中文网其它相关文章！微信分享网站建设是一个广义的术语，涵盖了许多不同的技能和学科中所使用的生产和维护的网站。关键词：puppeteer爬虫是啥？爬虫的工作原理	*软件教程* 聊天工具办公软件杀毒教程系统工具图形图像电脑学习应用软件网络软件苹果应用多媒体区网站教程其它教程技术开发安卓教程 *人气排行* 1css如何使用计数器给元素自动编号？css计数器的使用（代... 2如何使用CSS制作对话框气泡 3CSS完成渐变色按钮的效果（代码案例） 4CSS+JS如何完成浪漫流星雨动画效果？（代码示例） 5如何使用CSS制作箭头符号 6CSS中经常见自适应布局有哪一些 7list-style是什么意思?list-style样式属... 8css如何给边框添加图像？css设置边框图像 9网格布局中创建响应显示区域宽度的网格（px与fr的混合网格... 10Less是什么 *推荐资讯* 1手机如何格式化？ 212306如何买下铺？ 3ios9.3.3越狱要输入Apple id如何办 ios9... 4iPhone5/4S刷iOS8系统的图文详细教程 5iphone屏幕突然变暗但是亮度条不变如何办 iphone... 6如何制作电子相册？ 7PS页面设计图文详细教程XXI——在Photoshop中创... 8腾达 G3 V2 无线路由器行为管理设置路由器 9css3动画之transition与animation属性... 10滴滴豪华车如何收费滴滴出行豪华车收费规范介绍
Copyright © 2012-2018 争怎路由网(http://www.zhengzen.com) .All Rights Reserved 网站地图友情链接免责声明：本站资源均来自互联网收集如有侵犯到您利益的地方请及时联系管理删除，敬请见谅! QQ:1006262270 邮箱:kfyvi376850063@126.com 手机版