搜索中的权重度量利器: TF-IDF和BM25

度量的意义当你可以衡量所谈论的事情,并用数字来表达时,说明你知道这件事了;当你不能用数字来表达时,说明你对它的了解是微不足道的。 --Lord Kelvin    我们在网上搜东西时,搜索引擎总是会把相关性高的内容显示在前面,相关性低的内容显示在后面。那么,搜索引擎是如何计算关键字和内容的相关性呢?这里介绍2种重要的权重度量方法:TF-IDF和BM25。    在进入理论探讨之前,我们先举个例子。假如,我们想找和“Lucence”相关的文章。可以想一下,那 阅读全部

【转载】NLP之TF-IDF与BM25原理探究

本文主要是对TF-IDF和BM25在公式推演、发展沿革方面的演述,全文思路、图片基本来源于此篇公众号推文《搜索中的权重度量利器: TF-IDF和BM25》,侵删。一 术语TF: Term Frequency,词频;衡量某个指定的词语在某份【文档】中出现的【频率】IDF: Inverse Document Frequency,逆文档频率;一个词语【普遍重要性】的度量。TF-IDF = TF*IDF一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在 阅读全部

DR算法更新:新算法将更准确的表达域名等级 2018-2-8

域名等级(Domain Rating)应用新改进的计算公式!(2018年2月8日)这次算法改进将会导致DR数值剧烈变化,同时可能导致目前DR30 - DR50的绝大多数网站将下降,甚至下载到 0 ,因为事实上,他们不应该有这个等级。原DR30-50的,普遍会下降到5-10,原DR30约与目前的DR5相当。这一变化会或多或少的影响我们数据库中的每一个网站。此数值的剧烈变化,并不代表该网站的外链数量和质量有相同的剧烈变化,仅仅是一套新的计算规则的变化,新的计算规则为了更加准确的表达域名的等级!什么是 阅读全部

【转】使用SHELL编写PHP CLI守护

#! /bin/bash # 进程监控 function watch(){     local proc_total=`ps aux | grep "$1" | grep -v grep | wc -l`     local tim 阅读全部

网页常用安全字体和css font-family 及各大主流网站字体

网页设计中常用的19个Web安全字体 在windows中的常用字体有:simsun.ttc(宋体),mingliu.ttc(细明体),msyh.ttf(微软雅黑),msyhbd.ttf(微软雅黑加黑),segoeui.ttf(win7默认英文字体),simhei.ttf(黑体),times.ttf(times new roman),timesbd.ttf(times new roman加黑)这些复制到myfonts文件夹。 1,  Ari 阅读全部

在Ubuntu 18.04系统下安装Microsoft Windows字体

  目前大多数计算机采用的依然是 Microsoft Windows 字体,所以很多人习惯看这些字体,也觉得微软的字体更为美观,显示效果更好。本文教你在 Ubuntu 18.04 系统下也能使用 Microsoft Windows 字体,如果你有这个需求,请按下面的步骤安装使用。  免责声明:Microsoft 已免费发布其核心字体。但是请注意 Microsoft 字体是禁止使用在其他操作系统中,如果你要在 Linux 操作系统下安装我们建议在安装 MS 字体之前请仔细阅读 EULA。另外,在操 阅读全部

php网页截图可行方法

  一、使用第三方API  https://screenshotlayer.com/  二、使用PHP+CutyCapt实现网页截图  基于Webkit内核,在win10上测试未通过  方法原文:https://www.jb51.net/article/94007.htm  参考资料2:https://blog.csdn.net/changemyself/article/details/8618839  CutyCapt下载地址:http://sourceforge.net/projects/c 阅读全部

win10禁用windows错误报告Werfault.exe

windows错误报告网上有一种方法是使用组策略来禁用,但我在win10家庭版中试过后没有效果,依然经常有Werfault.exe自动运行出来,并且较占cpu,再次搜索方法,找到如下:复制以下代码存为bat文件,以管理员身份运行即可禁用windows错误报告:rem Disable Microsoft Support Diagnostic Tool MSDT reg add "HKLM\Software\ 阅读全部

转载:LSI关键词 – 提升相关性

谷歌搜索引擎会通过LSI关键词来判断文章和词汇之间的相关性,从而判断关键词的排名。利用好LSI关键词,对于SEO从业人员来说,无疑是一把优化的利器!过去,谷歌判断相关的性的时候,使用的是关键词词频(关键词密度)当然、堆砌关键词的时代已经过去了。关键词堆砌LSI关键词(LSI keywords) 是现在谷歌判断内容相关性中非常重要的一个部分。很多Blogger或者SEO人员喜欢将LSI keywords布局在自己的内容中,让页面与关键词的相关性更好,从而获得Google的青睐,获得更好的排名。下面 阅读全部

nginx配置location总结及rewrite规则写法

1. location正则写法一个示例:location  = / {   # 精确匹配 / ,主机名后面不能带任何字符串   [ configuration A ] } location  / {   # 因为所有的地址都以 / 开头,所以这条规则将匹配到所有请求 阅读全部

Ubuntu16.04/18.04中宝塔pure-ftpd服务没有开机自启动的设置方法

  1、使用命令检查 pure-ftpd 是否已经设置为自启动systemctl is-enabled pure-ftpd  显示为:disabled 即为没设置自启动  2、使用命令,将 pure-ftpd 设置为开机自启动systemctl enable pure-ftpd说明:CentOS中可以用 chkconfig 命令来检查和配置开机自启动项目。Ubuntu16.04及以上对应的命令是 systemctls 阅读全部

Ubuntu 18.04 LTS server版的变化,与 16.04 服务器版差异较大

Ubuntu 18.04 LTS 服务器版的变化  采用下一代 subiquity Ubuntu Server Installer  弃用 ifupdown:绑定IP地址用的 /etc/network/interfaces 配置文件将不再生效,改为使用 /etc/netplan/01-netcfg.yaml,(也可能是其它名称的.yaml文件)DNS还是使用resolv.conf(但会被yaml文件中的设置覆盖)  多个IP绑定配置示例:比如绑定 1.1.1.1-1.1.1. 阅读全部

自建CDN和反向代理服务器软件

  反向代理:反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个反向代理服务器。  CDN:CDN的全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。其目的是使用户可就近取得所需内容,解决 Intern 阅读全部

文本指纹算法和内容指纹系统介绍

1.       文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指纹,来作为该文本的标识,从形式 阅读全部

微信域名是否被拦截检测接口

本篇文章已加密,请输入密码后查看。

阅读全部

域名注册查询接口收集

本篇文章已加密,请输入密码后查看。

阅读全部

Fingerprintjs2:一款开源设备指纹采集器

Fingerprintjs2是一款开源的设备指纹采集器。最初的fingerprintjs库创建于2012年,但是由于新版本的开发很难保持向后兼容,因此Fingerprintjs2项目中增加了很多的新内容。该项目将更多、更有效的来源用于指纹识别,并且可配置,也就是说用户可以选择性地开启其中的选项。该项目还将重点关注IE插件,尤其是在中国流行的QQ、Baidu等。另外,该项目使用了semver(语义化的版本控制系统)。 安装使用CDN在线获取:https://cdnjs.com/libra 阅读全部

The No-Nonsense Guide To Building Your PBN in 2017

******************UPDATEPlease see the one favor I am requesting from all my fellow BHW friends - at the end of this post.Hint - if it happens, I'll reveal a hidden secret no one has openly spoken about.******************In this massive guide I w 阅读全部

【转载】10家付费爬虫代理详细对比评测!

前言  随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。  对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用大量的随机的代理进行爬取,那么网站就不知道是我们的爬虫一直在爬取了,这样就有效地解决了反爬的问题。  那么问题来了,使用什么代理好呢?这里指的代理一般是 HTTP 代理,主要用于数据爬取。现在打开 阅读全部

Linux中使用FlashFXP连接FTP,卡在“正在列目录” [R] MLSD问题的解决方法

  使用百度云修改FTP端口后,使用FlashFXP连接FTP,会卡在“正在列目录”,当时的执行命令是 MLSD,开始怀疑是防火墙的问题。  后来百度云工程师测试,使用 CuteFTP则能正常上传下载,无此问题。于是怀疑是FTP软件问题。  而FlashFXP无论修改主动模式或被动模式均无法解决此问题。  原因一:列目录命令问题导致卡在“正在列目录”  解决方法:  修改站点->站点管理器->FTP->列表命令 改为 STAT -L 问题解决。  原因二:w 阅读全部