【**搜索研发部】检索结果聚类结果说明

  检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。         关键词:搜索引擎,搜索结果,聚类         我们首先

阅读全部

【**搜索研发部】基于主特征空间相似度计算的切分算法

  说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词

阅读全部

【**搜索研发部】语义主题计算–来自搜索背后的奥义

  两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。

阅读全部

【**搜索研发部】以求医为例谈搜索引擎排序算法的基础原理

  我们向搜索引擎网站提交处理一个查问,搜索引擎网站会从先到后列出数量多的最后结果,这些个最后结果排序的标准是啥子呢?这个看似简单的问题,却是信息检索资深专家们研讨的中心困难的问题之一。         为理解释明白这个问题,我们来研讨一个比搜索引擎网站更加古老的话题:求医。譬如,假如我牙疼,应当去看怎样的医生呢?如果我只有三种挑选:          A医生,既治眼病,又治胃

阅读全部

**网页搜索Query-Url质量评估标准

  什么是query-url质量评估   本文说的query-url质量评估,核心是根据query需求,衡量搜索结果(即一个url页面)的好坏。评估的标准是看搜索结果是否能提供用户想找的信息,满足了用户的需求,以及在多大程度上满足了用户的需求。这里面包含两个层次:   (1)搜索结果是否可以提供用户想找的信息。如果结果正是用户所找,可以满足用户需求,则是好结果;如

阅读全部

【**搜索研发部机制】搜索引擎判断网页页面价值的标准

  搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足 了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判 断页面的价值呢?本文将逐一回答这些问题。   一、什么是页面价值   前面我

阅读全部

搜索研发部技术文档汇总

【**搜索研发部内部文档】网页搜索质量评估标准 【**搜索研发部机制】搜索引擎判断网页页面价值的标准【**搜索研发部】检索结果聚类结果说明【**搜索研发部】搜索引擎同义词反馈机制【**搜索研发部】以求医为例讲解搜索引擎排序算法【**搜索研发部】基于主特征空间相似度计算的切分算法【**搜索研发部】语义主题计算–来自搜索背后的奥义cygwin下用Python比较两个文本的相似性c

阅读全部

sublime text3---Emmet:HTML/CSS代码快速编写神器

 一、快速编写HTML代码 

... 阅读全部

win10上在sublime安装PHPcs(PHPcodesniffer)代码规范提示插件

首先按教程 http://blog.csdn.net/cyaspnet/article/details/51773331 装好phpcs和phpmd,需要先安装composer

... 阅读全部

中文分词 测试用例

 中文分词 测试用例

 
 
 
这个把手该换了
 
这个 把手 该 换了 
 
 
 
别把手放在我的肩膀上
 
别把 手 放在 我的 肩膀 上 
... 阅读全部

转载:互联网时代的社会语言学:基于SNS的文本数据挖掘

     今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志,分上下两部分刊于 2012 年 7 月刊和 8 月刊,在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因,《程序员》刊出的文章被和谐过(看到后面大家就自动地知道被和谐的内容是什么了),因而我决定把完整版发在 Blog 上,同时与更多的人一同分享。对此感兴趣的朋友可以给我发邮件继续交流。好了,开始说正文吧。

... 阅读全部

sublime text 3 好用的插件整理【php开发环境】

  Sublime Text 3设置吊炸天PHP开发环境  ================  首先需要一个包管理器,如果没有,使用以下方法安装  使用Ctrl+`快捷键或者通过View->Show Console菜单打开命令行,粘贴如下代码:  import urllib.request,os; pf = 'Packag

阅读全部

sublime text 3 的php格式美化插件 phpfmt 参数详解

  sublime text 3 的php格式美化插件 phpfmt 在编写代码时,自动对齐等格式化,可以省去很多时间。并且可以根据以下参数,优化格式风格。

  可通过菜单:首选项->插件设置->phpfmt->settings-user 添加类似以下代码,修改美化风格。

  =======================

  经典的配置风格

  =======================

...

阅读全部

新创建的github空白版本库,在push代码时出错的解决方法

 刚创建的github版本库,在push代码时出错:$ git push -u origin masterTo git@github.com:******/Demo.git ! [rejected] master -> master (non-fast-forward)error: failed to push some refs to 'git@github.com:******/Demo.git'hint: Updates were rejected

阅读全部

Grafika:PHP极其强大的图片处理库Grafika详细教程(1):图像基本处理

 Grafika是一个PHP图像处理库,是基于Imagick和GD,可以用于改变图片大小,剪裁,比较,添加水印等等功能。还有感知哈希,高级图像过滤,绘制贝塞尔曲线等功能,可谓非常强大。

... 阅读全部

CI框架与Smarty模板引擎整合步骤

 smarty-3.1.30模板引擎下载:https://pan.baidu.com/s/1o7UTPNG

...

阅读全部

PHP框架 thinkphp/yii/ci/laravel/zend/yaf 受企业欢迎程度参考

PHP各框架受欢迎程度参考:

根据51job的招聘数据,岗位所要求的技能出现次数,从侧面反应在职场上,企业对这些框架的需求程度:采样时间:2018-2-25

...
PHP框架名称 需求职位数
thinkphp
阅读全部

搜索引擎蜘蛛算法与蜘蛛程序构架

 一、网络蜘蛛基本原理

... 阅读全部

搜索引擎对网页去重技术算法- 用来解析伪原创与网页相似度

 首先,搜索引擎对所索引的所有网页进行页面净化和内部消重。

任何一家搜索引擎在尚未进行复制网页判断这一操作之前都定然会有个网页净化和内部消重的过程。搜索引擎首先要清除噪音内容,对网页内部的广告、版权信息、共同的页眉页脚部分等进行净化,然后提取出该页面的主题以及和主题相关的内容,用以排名工作,噪音内容是不计入排名权重之中的。

... 阅读全部

搜索引擎-一种提示词推荐算法

       搜索引擎可以说目前所有互联网应用里技术含量最高的一种。尽管应用形式比较简单:用户输入查询词,搜索引擎返回搜索结果。但是,搜索引擎需要达到的目标:更全、更快、更准。如何让搜索结果更准确始终是搜索引擎的一大难题。

... 阅读全部