站长经常做的事情是看一下最近的网站流量、关键词及相关数据,那你有没有想过,这些数据是哪里来的,怎么汇总、过滤、分析出来的,了解了这些规则和机制,有助于了解SEO优化,帮助网站在优化的导入上走的更顺利。
搜索引擎介绍
搜索引擎根据用户搜索需求和自己的独家算法,从互联网抓取、检索出大数据信息,经过过滤、分析后,再按照用户搜索意图反馈。
搜索引擎使用网络爬虫技术、检索排序技术、网页内容处理技术、大数据处理技术、自然语言处理技术等多种技术,为信息检索用户提供快速、高相关性的信息服务。
搜索引擎技术主要使用爬虫程序(spider)来抓取网络上的大数据,返回自己的服务器后,再通过索引、检索和排序,再加上其他的辅助程序,返回给用户他们需要的数据。
搜索引擎有哪些及发展情况
谷歌是最大的英文搜索引擎,百度是最大的中文搜索引擎。包括百度在内的其他搜索引擎都在模仿谷歌,但从来未超越(我指的是上限)。
经过多年的发展历程,搜索引擎已经从早期的人工分类目录,进化到现在的人工智能为主。更注重个性化、专业化、智能化。
使用自动聚合、分类等人工智能技术,针对不同地域智能识别+内容分析,以人工介入为辅助,完美结合了AI和人脑,大大增强了搜索引擎的查询能力。
搜索引擎的操作步骤
搜索引擎的具体工作包括以下几个组成部分:
- 派出蜘蛛在网络上爬行和抓取网页信息,存入数据库
- 提取、过滤、分析数据库中的信息,建立索引库
- 根据用户输入的关键词,找到相关内容,通过内部规则进行排序,再把结果返回给用户。
搜索引擎蜘蛛爬行
搜索引擎蜘蛛模拟普通用户访问web页面的过程,向页面提出访问请求,搜索引擎使用多个蜘蛛爬行以提高抓取效率,同时会沿着网页中所有的链接继续抓取对应的网页内容。网站服务器接受访问请求并返回HTML代码后,把获取的内容存入数据库。
搜索引擎索引库
为了便于用户在万亿级的数据库中快速找出所需要的结果,判断网页类型、重要程度、丰富程度、分析超链接、分词,去掉重复内容,为网页建立全文索引。
搜索引擎查询服务
当用户搜索某个关键词时,搜索引擎程序开始处理分词,判断错误字词,从索引数据库中找出索引内容,再对库中的网页进行排序,最后返回到搜索结果页面。
影响搜索结果排序的主要原因是网页内容与搜索词的相关度,主要因素包括下面几个方面:
- 关键词的词频及密度。搜索词在页面中出现的次数越多,密度越大,页面与搜索词关系越密切。如果索引库中几乎都没有,那么就返回仅出现1次的那些页面。
- 关键词位置及形式。关键词出现在标题、标签、加粗、H1、H2等位置,说明页面与关键词相关度高。
- 链接分析及页面权重。页面之间的链接和权重关系也影响关键词的相关性,锚文字就是这里面的关键部分。页面含有多个以搜索词为锚文字的导入链接,说明页面的相关性高。另外还有锚文字、图片周围的文字。
搜索引擎分类
按照索引内容的不同,包括多种不同的搜索引擎类型。这里不去说太深奥的行业词语,大家了解一下。
谷歌、百度是全文搜索引擎,内容包罗万象,什么都有。
12306、携程、去哪儿、同城、飞猪、淘宝、京东、拼多多是垂直搜索引擎,只搜索车票、飞机票、门票、住宿、电商等垂直行业相关的内容。
其他的不知道也罢。
搜索引擎的问题
网页时效性:网络数据信息经常会动态变化,网页更新、删除等十分频繁。比如蜘蛛已经抓取的页面,却被删除掉了,影响搜索结果的准确性。
检索结果可靠性:技术和硬件条件的不足,让索引数据处理的准确度并不理想,所以就有个人或公司利用漏洞作弊,干扰检索结果,导致排名不准确。
搜索引擎的发展趋势
移动搜索:目前是智能手机、平板的时代,大部分人网购、看视频早已经脱离了PC端,转向移动端,谷歌、百度都比较重视移动端,谷歌推出了移动端网站测速的page speed insights,而 WordPress主题也纷纷推出移动端自动适配,比如 Astra、kadence、Avada、Elementor等等。
社会化媒体:社交网络媒体和应用是目前互联网主流,他们重视的是用户间的交互,另外一个维度是搜索结果的可信赖性。因为用户对他所在的社交网络中其他用户发布的信息更容易相信,这也是我们站长需要拓展的一个方向。
另外以微博为代表的实时热点在这些年也特别突出,其核心就是“快”,这也对搜索引擎的抓取速度、能力、反应速度提出了要求。
个性化搜索
谷歌、百度、淘宝网都提出过相关的关键词:千人千面。也就是不同的人搜索同一个词,返回结果不同。
个性化搜索会根据用户的网络行为,为每个人建立个人兴趣模型,通过收集用户相关信息,包括搜索历史、点击记录、浏览过的网页、app、邮箱信息、收藏夹、已发布内容、博客、微博等内容。过滤、分析、提取出关键词,为不同用户提供个性化的搜索结果。
有意思的一个例子是:你和朋友、同事,在同一个 wifi网络的情况下,在手机的淘宝app搜索豆浆机,根据返回页面产品价格的不同,千元以下的人,可能你被淘宝划分为屌丝的行列,1000~2000元是一个档次(可能是小资),2000元以上又是一个档次(被认为是土豪?)。
如何快速跟随搜索引擎变化
想要做网络营销,我们就要实时、快速的掌握互联网的动向,能够在最早时间内抓取大数据,并分析、整理对自己有用的内容。这个目的在如今的海量数据下明显不是人工可以完成的。
借助 5118大数据营销,我们可以很快的掌握自己操作的行业、领域、产品的相关动向,省时间、省力,有效提高工作效率。
暂无评论内容