投稿联系站长 QQ:76410562
您现在的位置:IT博客 >> 互联网络 >> 内容

一万多个热词测试了百度搜索,发现了这些规律

时间:2019/1/25 23:00:08 点击:

  核心提示: 百度在风口浪尖上又做修改了。这次改的是搜索结果中的显示方式。从昨天中午开始,原本显示域名的地方变成了名称和图片,除非点击跳转,用户再也无法从观看域名来判断这条信息真实来源。 ...

   一万多个热词测试了百度搜索,发现了这些规律

   百度在风口浪尖上又做修改了。这次改的是搜索结果中的显示方式。从昨天中午开始,原本显示域名的地方变成了名称和图片,除非点击跳转,用户再也无法从观看域名来判断这条信息真实来源。

   例如,对于关键词“特朗普”,同样的搜索结果与位置,前一天还显示域名,昨天已经显示“环球时报评论”。我们也注意到,只有新闻资讯类网址才会变成这种形式。

修改后:

一万多个热词测试了百度搜索,发现了这些规律

   你可能以为“环球时报评论”会跳转到“环球时报”,但其实指向是环球时报百家号。自媒体还是机构媒体,是“百家号”还是“网站”?傻傻分不清。

修改前:

一万多个热词测试了百度搜索,发现了这些规律

模糊的界限

   从“信息来源”来看,就像身份证一样,“域名”是唯一的。类似gov, edu,org的后缀更有着严格的注册标准。

   这次式样改动,一是模糊了信息来源,背后是谁在挑选信息,谁来为真实性把关?二是模糊了百家“号”与“网站”的差别。

   这不是百度第一次模糊界限。曾经的百度导航栏有“新闻”选项,2017年上半年,“新闻”悄悄变成了“资讯”。

   百家号“霸屏”?

   两天前,自媒体“新闻实验室”指责百度第一页搜索结果一半以上会指向百度自家产品,尤其是百家号。

   面对指责百度觉得很冤,声明称百家号全站占比小于10%。“问心无愧。”副总裁沈抖接受采访的时候说。

   按“全站占比”统计有没有意义?

   上海交通大学媒体与传播学院魏武挥写道:“这种回应有那么点逃避问题的诡辩感觉:方可成批评的是第一页结果,百度回应是说“搜索结果”——其实可以理解为全部结果。但问题是,除非具有特殊目的,很少有用户会对三页之后的内容感兴趣。”

   搜索引擎用户行为研究显示,92%的用户在搜索时会点击前5个位置。点击次数到第三页急剧下降,第五页以后几乎没有人点击。这和我们的真实体验一致。所以说,比“占比”更重要的概念是“排序”。10%的内容在前10%的位置展示和在后10%的位置展示,效果天壤之别。

   12520个热词背后

   因此,我们用12520个搜索热词在百度搜索上进行了测试,看百家号或其他百度号——包括百科、贴吧、文库等网站在搜索结果第一页占多少比例,用数据来看,百度到底冤不冤?

   结果显示,50.3%关键词在第一页有一半以上的结果指向了百度自家的网站,这其中有59.3%指向了百家号。也就是说,如果第一页有10个链接是百度自己的网站,6个都是百家号。如果再把范围扩大一点,89.8%的关键词在第一页结果中包含百度自己的网站,84.5%有百家号。

   百家号不仅作为独立的搜索结果散落在页面上,还有一级链接+5个副链接的整块显示。作为中文互联网搜索最大的流量入口,2018年第一季度百度的市场份额占比达到80.09%。

一万多个热词测试了百度搜索,发现了这些规律

   什么样的关键词容易出现百家号结果?

   根据我们的热词搜索结果,百家号占比排在前1%位置的关键词是:

一万多个热词测试了百度搜索,发现了这些规律

   百家号占比排在前1%位置的关键词(百家号占比在60%以上),人名(尤其是明星)、娱乐、健康、体育、生活知识等类别的关键词最容易出现百家号。搜索准确的网站名、查询工具类的关键词出现百家号的几率较低。

   在百度改变了搜索结果中百家号的样式后。原有的测试方法连计算机都无法从首页源代码中获取真实的链接,必须点击进去,才能知道到底是什么网站。我们改变方法后重新进行测试,结果和第一次测试保持一致。虽然样式变了,但排序算法依旧和原来一样。

一万多个热词测试了百度搜索,发现了这些规律

   搜索引擎的“把关”逻辑

   搜索引擎就像我们在互联网时代的眼睛,很大程度上决定了我们将看到什么样的内容、产生什么样的思考。有了互联网以后,“信息平等”看似触手可及,但“把关人”一直存在,只是在搜索引擎上,从人变成了机器。

   搜索引擎到底是按照什么规则来排序?

   回归本源,这其实一个“大家都在看什么”的数学问题。

   上个世纪90年代,最原始的排序方法是——关键词出现次数越多越排在前面。显然,排在前面的很可能是重复关键词的垃圾网页。

   谷歌主导互联网搜索后,一个新的排序方法产生了——链接流行度(PageRank),一个网页被其他网页链接得越多,排序就越靠前。

   此后排序算法不断升级,纳入了关键词突出程度、网页点击量、停留时间、相似关键词等因素综合考量。排序算法至今都是各公司的“核心机密”,“大家在看什么”的朴素算法依然是排序的核心与基础。

   在信息流出现以后,排序算法又有了一次革新。决定什么在排在前面的不再是“大家都在看什么”,而是“你想要看什么”。算法会根据你的互联网使用行为来猜测你的喜好,将你爱看的相似内容自动排在前面推荐给你。百度如此,谷歌如此,几乎所有的搜索引擎都在做这件事。

   在百度这一模式被称为“搜索引擎+信息流”的双引擎分发战略。这个战略2018年为百度带来了超过1000亿元的收入,第二季度移动端净营收占比从去年的5%提至77%。信息流及AI业务占到百度核心(BaiduCore,即搜索服务与交易服务的组合)近20%收入,同比增长则超过150%。

   如此高额的盈利能力,其中一个重要的基础就在于利用百家号实现了用户的最终停留。

   主动搜索行为和信息流推荐同时掌控分发渠道,190多万个百家号则是百度建立的庞大内容池。自家的引擎推荐自家的内容,流量从百度搜索来,到百度号去。

   “把用户留在自己的网站上”,本没有问题。根据搜索引擎专家Rand Fishkin的统计,在谷歌上,12.6%的点击去了排名前100的大型网站,剩下87.4%的点击去了普通站点,这其中又有11%的点击去了谷歌自己的网站——包括地图、邮箱、图书等。

   2016年的魏则西事件也许让百度意识到搜索引擎需要承担更大社会责任。不过,从竞价排名、贴吧广告、信息流推荐,再到百家号“霸屏”来看,百度对搜索引擎的“排序”逻辑似乎没有改变。

作者:不详 来源:网络
  • USB2003博客(www.usb2003.com) © 2019 版权所有 All Rights Reserved.
  • Email:76410562@qq.com 站长QQ:76410562 鲁ICP备15035387号-1
  • Powered by laoy! V4.0.6