DR算法更新:新算法将更准确的表达域名等级 2018-2-8
转载:LSI关键词 – 提升相关性
The No-Nonsense Guide To Building Your PBN in 2017
TF-IDF框架与其可以衍生到的SEO知识
这是一篇关于搜索引擎排序基础TF-IDF框架的普及文章,并非网上偶尔可见的一些泛泛而谈甚至断章取义的内容,而是结合搜索引擎的理论,和自己观察到的较多实例所总结的切实的知识。虽然可能相对比较难以理解,但相信我,这些用来理解的时间绝对是值得的。写这篇文章主要是为了对后面一篇《SEO实践》系列的文章中要提到的一些内容先写好基础理论,就不放到正篇里面去占用篇幅了。本文先引用一段张俊林的《这就是搜索引擎》中对于TF-IDF框架的概述。由于原文较长,这里概述下我所认为的重点,或许会有概述不足之处
阅读全部夜息:TF-IDF与关键词排名问题
今天看到zero发的关于TF-IDF的关键词排名问题 http://semwatch.org/2012/03/tf-idf/想到自己在N久前写过一篇未发表的草稿,里面提了提做SEO需要 “理解tf-idf的原理”。只是当时没写完,也没发出来。其实TF-IDF可以解决很多SEO的基础问题。例如,拿京东商城为例,关于京东商城我观察了很久。从去年开始京东的SEO开始发力,制作了/series/频道。之后改版过几次。(不幸打不开京东网页,没法截图做例子,这个series频道猜测应该是学的zo
阅读全部夜息:给力SEO理论:链轮策略和金字塔链接模型
在这边从没见过有人讨论逆推搜索引擎的算法。事实上这样做是很重要的。在SEO领域中,我们需要这样的先锋愿意去解决那些非常困难的搜索引擎原理问题。我希望我们能从一个崭新的高度来讨论SEO,我会帮助大家来解决这个问题。
...
阅读全部夜息:小议SEO数据分析III – 维护词库
前言具体上一篇SEO数据分析文章已经隔了很久了,今天有个朋友网上问我,有了词库怎么维护。正好借这个机会谈谈这个问题。 在获取到大量关键词后,首先要对这些词进行处理,在我实际工作中,总结以下几个项目我做过或者觉得有必要做的事情。提取实体(通俗点讲就是找关键词中的重点词)1、去重2、受控词表3、分类4、提取实体提取实体的概念就是找关键词中的重点词。比如 “北京温泉哪里好”,那这个词中的”北京 “和”温泉”这两个词是重点,”哪里好”只是一个疑问词,对主题描述帮助相对比较小。于是我们就需要通过一些技术手
阅读全部【**搜索研发部】搜索引擎同义词反馈机制
1. 介绍由于搜索算法本身的局限性,对于用户的语义、意图等理解不够,而基于用户行为的点击调权,作为对传统搜索算法的补充,在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果,但是一直只是停留在query-url层面,或者ngram-url层面[1],没有深入反馈到检索算法中的基础策略,比如:同义词、紧密度、省略等,这些策略影响了url与query之间的关系。本文以对同义词的反馈为例,提出一个通用的基于用户行为的基础策略反馈框架。由于同义词词典与线上应用算法的限制,检索系统中
阅读全部【**搜索研发部】检索结果聚类结果说明
检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。 关键词:搜索引擎,搜索结果,聚类 我们首先
阅读全部【**搜索研发部】基于主特征空间相似度计算的切分算法
说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词
阅读全部【**搜索研发部】语义主题计算–来自搜索背后的奥义
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。
阅读全部【**搜索研发部】以求医为例谈搜索引擎排序算法的基础原理
我们向搜索引擎网站提交处理一个查问,搜索引擎网站会从先到后列出数量多的最后结果,这些个最后结果排序的标准是啥子呢?这个看似简单的问题,却是信息检索资深专家们研讨的中心困难的问题之一。 为理解释明白这个问题,我们来研讨一个比搜索引擎网站更加古老的话题:求医。譬如,假如我牙疼,应当去看怎样的医生呢?如果我只有三种挑选: A医生,既治眼病,又治胃
阅读全部**网页搜索Query-Url质量评估标准
什么是query-url质量评估 本文说的query-url质量评估,核心是根据query需求,衡量搜索结果(即一个url页面)的好坏。评估的标准是看搜索结果是否能提供用户想找的信息,满足了用户的需求,以及在多大程度上满足了用户的需求。这里面包含两个层次: (1)搜索结果是否可以提供用户想找的信息。如果结果正是用户所找,可以满足用户需求,则是好结果;如
阅读全部【**搜索研发部机制】搜索引擎判断网页页面价值的标准
搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足 了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判 断页面的价值呢?本文将逐一回答这些问题。 一、什么是页面价值 前面我
阅读全部搜索研发部技术文档汇总
【**搜索研发部内部文档】网页搜索质量评估标准 【**搜索研发部机制】搜索引擎判断网页页面价值的标准【**搜索研发部】检索结果聚类结果说明【**搜索研发部】搜索引擎同义词反馈机制【**搜索研发部】以求医为例讲解搜索引擎排序算法【**搜索研发部】基于主特征空间相似度计算的切分算法【**搜索研发部】语义主题计算–来自搜索背后的奥义cygwin下用Python比较两个文本的相似性c
阅读全部搜索引擎对网页去重技术算法- 用来解析伪原创与网页相似度
首先,搜索引擎对所索引的所有网页进行页面净化和内部消重。
任何一家搜索引擎在尚未进行复制网页判断这一操作之前都定然会有个网页净化和内部消重的过程。搜索引擎首先要清除噪音内容,对网页内部的广告、版权信息、共同的页眉页脚部分等进行净化,然后提取出该页面的主题以及和主题相关的内容,用以排名工作,噪音内容是不计入排名权重之中的。
... 阅读全部搜索引擎-一种提示词推荐算法
搜索引擎可以说目前所有互联网应用里技术含量最高的一种。尽管应用形式比较简单:用户输入查询词,搜索引擎返回搜索结果。但是,搜索引擎需要达到的目标:更全、更快、更准。如何让搜索结果更准确始终是搜索引擎的一大难题。
... 阅读全部搜索引擎算法的胡乱猜测 - SQL Server difference函数的近似值操作
最近正在对SQL Server所有内置函数进行一个通参(呵呵,自己造的词,其实就是从头到尾过一遍),进行到difference函数的时候简单的在IDE中进行了小小的尝试,目标代码如下:
... 阅读全部搜索引擎排名算法最重要的因素总览
转载 2012年02月03日 12:35:40
... 阅读全部