加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_宿迁站长网 (https://www.0527zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

给产品经理讲技术丨百度野史之白富美与矮矬穷

发布时间:2016-01-18 14:02:35 所属栏目:产品 来源:产品100
导读:百度的立业之本是搜索引擎,而对于搜索引擎来说一个非常关键的构件就是网络爬虫,不错,爬虫,这个粗俗又鄙陋的东西。搜索引擎这么高大上的东西是怎么和爬虫这么个“矮矬穷

11111.webp

要问这图是怎么回事?往下看呗

【相关推荐】

给产品经理讲技术丨App开发中,关于图片资源不得不知的秘密

给产品经理讲技术丨究竟什么是渲染?

给产品经理讲技术丨机器配置很好,为什么还是卡?

给产品经理讲技术丨大伙常见的存储设备简介

给产品经理讲技术丨分辨率越高就越清晰吗?

搜索引擎对大部分人来说,无论从产品角度还是商业角度,那都是让人感觉无比高大上的东西。百度作为体制内的搜索引擎霸主,无疑是各种和互联网搭上边的产品心目中的白富美。竞价排名,商业广告,渠道推广就像是一束束捧向百度的鲜花,百度在公主般的待遇中不可自(一)拔(世)。

最近此公司因为卖贴吧的事情被推上了风口浪尖,所谓墙倒也需众人推,娱乐圈有条定律,就是对出现丑闻的明星准时开八她的前世今生。今天我来八的是百度这个白富美背后的“矮矬穷”。

百度的立业之本是搜索引擎,而对于搜索引擎来说一个非常关键的构件就是网络爬虫,不错,爬虫,这个粗俗又鄙陋的东西。搜索引擎这么高大上的东西是怎么和爬虫这么个“矮矬穷”的东西扯上关系的呢?

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

这个虫子属于给跟杆子就往上爬的那种,它从几个初始的网页开始,为搜索引擎四处奔走,不断的从当前爬取的网页中抽取新的地址,然后爬向下一个网页,建立新的关系。而且建立关系的时候相当功利,只保留对自己有用的(根据一定的网页分析算法过滤与主题无关的链接)。这些被爬虫爬过的网页,会被系统存贮分析建档,以便日后可用。听起来有点边偷边抢的意思啊。

然而互联网上的信息量如此庞大,更新频率也快,为了更有效的爬取信息,爬虫需要选择一定的策略:

选择策略,决定所要下载的页面;

重新访问策略,决定什么时候检查页面的更新变化;

平衡礼貌策略,指出怎样避免站点超载;

并行策略,指出怎么协同达到分布式抓取的效果

简单点说就是要搞清楚哪些的关系是有用的,并且要时不时的去拜访一下,但是这个频率也要适度,不能让人家觉得你很烦。

有了这么个兢兢业业的虫子,为自己建立如此广的关系网,百度还愁没人给自己送钱求自己办事?从此眼里只有money,money,money!

百度仗着自己白富美的身份,有了为自己保家任劳任怨的“矮矬穷”,还有为自己吸金纳银的小白(贴)脸(吧),真是家里白旗不倒,外面彩旗飘飘,可谓人(无)生(耻)赢(之)家(徒)啊!

可是你的初心呢?

“善良比聪明更重要”

欢迎添加微信公众号:给产品经理讲技术

欢迎添加微信公众号:给产品经理讲技术

(编辑:云计算网_宿迁站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!