五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

最近玩公众号会话停不下来:玩转腾讯词向量:Game of Words(词语的加减游戏),准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公众号后台聊天机器人添加了一项新技能:中文分词线上PK,例如在AINLP公众号后台对话输入:中文分词 我爱自然语言处理,就可以得到五款分词工具的分词结果:现在的开源中文分词工具或者模块已经很丰富了,并且很多都有一些在封闭测试集上的效果对比数据,不过这仅仅只能展现这些分词工具在这个封闭测试集上的效果,并不能 阅读全部

elasticsearch超省存储空间的配置

最近在研究elasticsearch 5.x版本的新特性的时候,偶尔翻到一篇es的测试文章,对于mapping的配置直接干掉了_all和_source选项。对于_all选项的关闭我倒是可以理解,但是如果关掉_source选项的话,那返回数据就是一堆空的字典了。所以看到这篇文章,我的第一感觉是: 卧草,还有这样的骚操作?!这是完全是把es当索引用了啊。但是对于Hbase和mongodb存储的数据,这样搞也没什么坏处。通过索引拿到rowkey/_id, 然后直接从Hbase/mongodb里取数据。 阅读全部

搜索中的权重度量利器: TF-IDF和BM25

度量的意义当你可以衡量所谈论的事情,并用数字来表达时,说明你知道这件事了;当你不能用数字来表达时,说明你对它的了解是微不足道的。 --Lord Kelvin    我们在网上搜东西时,搜索引擎总是会把相关性高的内容显示在前面,相关性低的内容显示在后面。那么,搜索引擎是如何计算关键字和内容的相关性呢?这里介绍2种重要的权重度量方法:TF-IDF和BM25。    在进入理论探讨之前,我们先举个例子。假如,我们想找和“Lucence”相关的文章。可以想一下,那 阅读全部

【转载】NLP之TF-IDF与BM25原理探究

本文主要是对TF-IDF和BM25在公式推演、发展沿革方面的演述,全文思路、图片基本来源于此篇公众号推文《搜索中的权重度量利器: TF-IDF和BM25》,侵删。一 术语TF: Term Frequency,词频;衡量某个指定的词语在某份【文档】中出现的【频率】IDF: Inverse Document Frequency,逆文档频率;一个词语【普遍重要性】的度量。TF-IDF = TF*IDF一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在 阅读全部

win10禁用windows错误报告Werfault.exe

windows错误报告网上有一种方法是使用组策略来禁用,但我在win10家庭版中试过后没有效果,依然经常有Werfault.exe自动运行出来,并且较占cpu,再次搜索方法,找到如下:复制以下代码存为bat文件,以管理员身份运行即可禁用windows错误报告:rem Disable Microsoft Support Diagnostic Tool MSDT reg add "HKLM\Software\ 阅读全部

自建CDN和反向代理服务器软件

  反向代理:反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个反向代理服务器。  CDN:CDN的全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。其目的是使用户可就近取得所需内容,解决 Intern 阅读全部

文本指纹算法和内容指纹系统介绍

1.       文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指纹,来作为该文本的标识,从形式 阅读全部

微信域名是否被拦截检测接口

本篇文章已加密,请输入密码后查看。

阅读全部

帆布算法,对客户端进行指纹识别(CANVAS FINGERPRINTING)

广告联盟或许网站运营者都希望能够精准定位并标识每一个个体,通过对用户行为的分析(浏览了哪些页面?搜索了哪些关键字?对什么感兴趣?点了哪些按钮?用了哪些功能?看了哪些商品?把哪些放入了购物车等等),为用户推送更加精准的广告(精准化营销)。同时,通过对用户的标识,可以将不同站点的用户进行关联。在过去,实现上述cookie是最受欢迎的一种。但由于移动互联网的发展,移动设备限制、用户禁用cookie。使得cookie愈来愈不受待见。伴随着html5的成熟,通过canvas fingerprinting技 阅读全部

“帆布指纹识别”

【前言】一般情况下,网站或者广告联盟都会非常想要一种技术方式可以在网络上精确定位到每一个个体,这样可以通过收集这些个体的数据,通过分析后更加精准的去推送广告(精准化营销)或其他有针对性的一些活动。Cookie技术是非常受欢迎的一种。当用户访问一个网站时,网站可以在用户当前的浏览器Cookie中永久植入一个含有唯一标示符(UUID)的信息,并通过这个信息将用户所有行为(浏览了哪些页面?搜索了哪些关键字?对什么感兴趣?点了哪些按钮?用了哪些功能?看了哪些商品?把哪些放入了购物车等等)关联起来。而随着 阅读全部

windows下nginx+php,使用CURL请求本地URL会卡死的解决方法

原因:windows 下 nginx+php环境,不支持并发。(比较坑,所以建议生产环境尽量使用 linux)在WIN下配置是nignx + php + mysql默认时启动phpcgi是D:\php \php-cgi.exe-b 127.0.0.1:9000 -c D:\phpfind\phpa\php.ini先看NGINX配置123456789       location ~ \.php(.*)$&n 阅读全部

在Windows上安装 v8js for PHP 让PHP能运行js代码

This is a simple tutorial to help you install v8js for PHP on Windows. If you want to install v8js for PHP on Linux, you can follow this tutorial:https://blog.xenokore.com/how-to-install-v8js-for-php-on-linux/ Let’s get started. First& 阅读全部

微信公众号爬虫方法之一

需求某某微信公众号历史的所有文章的阅读数和点赞数难点微信公众号历史的所有文章(来源???)每篇文章的阅读量和点赞量(电脑上浏览文章只显示内容,没有阅读量、点赞量、评论……)突破难点一搜狗微信搜索,可以搜索微信公众号文章。但是貌似只能显示该公众号最近十篇的文章。放弃……利用抓包工具(Fiddler),抓取文章。成本有点大…&a

阅读全部

sublime text3---Emmet:HTML/CSS代码快速编写神器

 一、快速编写HTML代码 

... 阅读全部

win10上在sublime安装PHPcs(PHPcodesniffer)代码规范提示插件

首先按教程 http://blog.csdn.net/cyaspnet/article/details/51773331 装好phpcs和phpmd,需要先安装composer

... 阅读全部

中文分词 测试用例

 中文分词 测试用例

 
 
 
这个把手该换了
 
这个 把手 该 换了 
 
 
 
别把手放在我的肩膀上
 
别把 手 放在 我的 肩膀 上 
... 阅读全部

转载:互联网时代的社会语言学:基于SNS的文本数据挖掘

     今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志,分上下两部分刊于 2012 年 7 月刊和 8 月刊,在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因,《程序员》刊出的文章被和谐过(看到后面大家就自动地知道被和谐的内容是什么了),因而我决定把完整版发在 Blog 上,同时与更多的人一同分享。对此感兴趣的朋友可以给我发邮件继续交流。好了,开始说正文吧。

... 阅读全部

sublime text 3 好用的插件整理【php开发环境】

  Sublime Text 3设置吊炸天PHP开发环境  ================  首先需要一个包管理器,如果没有,使用以下方法安装  使用Ctrl+`快捷键或者通过View->Show Console菜单打开命令行,粘贴如下代码:  import urllib.request,os; pf = 'Packag

阅读全部

sublime text 3 的php格式美化插件 phpfmt 参数详解

  sublime text 3 的php格式美化插件 phpfmt 在编写代码时,自动对齐等格式化,可以省去很多时间。并且可以根据以下参数,优化格式风格。

  可通过菜单:首选项->插件设置->phpfmt->settings-user 添加类似以下代码,修改美化风格。

  =======================

  经典的配置风格

  =======================

...

阅读全部

新创建的github空白版本库,在push代码时出错的解决方法

 刚创建的github版本库,在push代码时出错:$ git push -u origin masterTo git@github.com:******/Demo.git ! [rejected] master -> master (non-fast-forward)error: failed to push some refs to 'git@github.com:******/Demo.git'hint: Updates were rejected

阅读全部