永发信息网

看我们这垃圾的百度贴吧我真是特么笑了!。

答案:1  悬赏:30  手机版
解决时间 2021-11-16 03:34
  • 提问者网友:末路
  • 2021-11-15 09:50
看我们这垃圾的百度贴吧我真是特么笑了!。
最佳答案
  • 五星知识达人网友:山河有幸埋战骨
  • 2021-11-15 11:09
百度是世界上流量最大的网站之一,也是中国大陆流量最大的网站,日搜索请求达60亿次以上。百度用户是最具多样性特征的,用户属性可以说是无所不包,这也正应了那句话,林子大了什么鸟都有。门类齐全的有害信息,包括违法与有害广告,都想通过百度这个平台进行传播,如果百度不具备相应的反垃圾技术和有害信息过滤技术,是根本做不到如今这个规模的。

这世界上所有的搜索引擎,无一例外都会遇到类似问题。谷歌2015年全年共去除了7.8亿条违反其政策的广告,比2014年的5.24亿条增长了近50%。这个增长率比正常商业广告还快,有数不清的违法广告希望通过搜索引擎谋取利益,不把好关就天下大乱了。百度也一样,每天有4.7亿条广告通过百度广告系统送审,每秒要处理5000条以上,这基本已不是人力能解决的问题了。同谷歌一样,百度也主要是通过技术手段来对广告进行审查和过滤。据披露,百度为此有专门的“黑科技”系统,负责审查甄别各种虚假违规推广内容。

不同的反垃圾技术,在处理原则上都是一样的,首先是机器发现异常内容后提交进一步审核的预警机制、第二是发现异常内容后的批量处理机制、第三是处理完异常内容之后防止再次出现的屏蔽机制。这几个步骤说起来容易,做起来很难,尤其对百度这样流量巨大的公司来说。技术跟不上的话就只能增加人工审核力量,这会给公司造成巨额成本支出,而技术跟不上又花不起钱的话,公司迟早会被垃圾信息拖死。好在,经过十几年运营经验和技术研发的积累之后,百度已拥有了一套非常有效的机器审核过滤系统。

以大数据为基础的“雷达系统”,是百度在审核与过滤有害信息及非法广告的一个利器,可以实现对95%以上的信息进行自动审核。这个系统与百度搜索本身有相似之处,通过将信息的IP、ID,来源,语义内容等素材进行大数据比对,从而发现有害信息及违法广告。系统拥有强大的数据采集能力,丰富的数据分析维度,还有快速而准确的瞬时数据处理能力,这其中的每一种技术都不是大多数公司所能够掌握的。

在一个包含10万字节的word文档中,个人PC基本能做到瞬间就将相同的字词找出来,可如果需要查询的字节是10亿量级的,且来自于开发标准不同,包含各种层级体系的网页,还需要将不同维度的变量集中到一个结果中,且瞬间反应,那就不是一件容易的事情了。这首先需要相当高超的数据算法,还要有周密严谨的多个数据模型,更需要有搭建大规模计算机运算系统的能力。在互联网行业中,这些技术的总和相当于大当量“核武器”。

当然,在目前的技术条件下,机器系统再先进也不能解决所有问题。以百度的审核与过滤系统来说,系统最多能让审核与过滤过程更有效率,成本更低,但还是有一些特别有技术含量的有害信息及非法广告,还是需要依赖人工的。例如一些使用flash技术的动态广告,提交时是正常的,几个小时后也许就变成别的了。对这类广告,虽然用系统能过滤掉大部分,但还是会有一部分需要进行人工审核。追问我什么都没干,没水楼水贴,真是醉了,呵呵
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯