Ubuntu优化之sysctl.conf配置

这个配置主要是加大系统连接数限制,减少超时等待等,可应用于大并发的web服务器。vm.swappiness = 10vm.overcommit_memory = 1net.ipv4.ip_local_port_range = 1024 65535net.core.wmem_default = 8388608net.core.rmem_default = 8388608net.core.rmem_max = 16777216net.core.wmem_max = 16777216net.ipv4. 阅读全部

Ubuntu优化之修改打开文件数上限ulimit值的方法

ulimit是linux系统限制软件可打开的最大文件句柄数量,每打开一个文件,每打开一个连接(如nginx的并发连接),都要消耗此值。如果软件打开的句柄数量超过硬件限制,是不安全的,会导致系统崩溃。因此linux中有这样一个限制值。而ulimit的默认值一般是1024,完全不能满足需求,尤其是今天普遍电脑硬件都较高的情况。因此需要手动修改此值 查看本机系统硬件限制:sudo cat /proc/sys/fs/file-max13157950上面这个值根据你硬件不同,数值不一样 阅读全部

Ubuntu中Mysql 5.7的open_files_limit默认值过小导致的server has gone away问题解决

Mysql 5.7的open_files_limit 默认值为 1024,连接数过多和打开表,都会占用这个值。问题:MySQL server has gone away原因:open_files_limit默认值过小,导致mysql报错:Too many open files,进而mysql停止服务。其它很多情况都会引起 gone away ,具体情况需要查询mysql的错误日志,本文主要解决由 open_files_limit 值引起的问题。解决步骤:第1步、修改 mysq 阅读全部

ubuntu/linux磁盘空间不断被减少却找不到占用的文件的解决方法

一起磁盘空间被”无形”占用。df -h 时,磁盘剩余空间不断在减少。而依次查看各个文件夹,却未找到有体积增加的文件。用lsof检查后才发现原因是,有文件被删除,而进程还活着,因而造成还占用空间的现象[root@/]# lsof |grep deletersyslogd   1004     syslog    1w      REG        阅读全部

“帆布指纹识别”

【前言】一般情况下,网站或者广告联盟都会非常想要一种技术方式可以在网络上精确定位到每一个个体,这样可以通过收集这些个体的数据,通过分析后更加精准的去推送广告(精准化营销)或其他有针对性的一些活动。Cookie技术是非常受欢迎的一种。当用户访问一个网站时,网站可以在用户当前的浏览器Cookie中永久植入一个含有唯一标示符(UUID)的信息,并通过这个信息将用户所有行为(浏览了哪些页面?搜索了哪些关键字?对什么感兴趣?点了哪些按钮?用了哪些功能?看了哪些商品?把哪些放入了购物车等等)关联起来。而随着 阅读全部

windows下nginx+php,使用CURL请求本地URL会卡死的解决方法

原因:windows 下 nginx+php环境,不支持并发。(比较坑,所以建议生产环境尽量使用 linux)在WIN下配置是nignx + php + mysql默认时启动phpcgi是D:\php \php-cgi.exe-b 127.0.0.1:9000 -c D:\phpfind\phpa\php.ini先看NGINX配置123456789       location ~ \.php(.*)$&n 阅读全部

在Windows上安装 v8js for PHP 让PHP能运行js代码

This is a simple tutorial to help you install v8js for PHP on Windows. If you want to install v8js for PHP on Linux, you can follow this tutorial:https://blog.xenokore.com/how-to-install-v8js-for-php-on-linux/ Let’s get started. First& 阅读全部

【转】爬取搜索引擎之寻你千百度

  自从Google退出中国市场,Baidu就成了国内搜索引擎巨头,所谓树大招风,一直以来百度成为国内众多黑客攻击的对象。又因为其本身作为一款搜索引擎,拥有很多的网络资源,因此借助baidu来获取海量数据,成为了一种便捷有效的信息收集途径。虽然baidu在爬虫算法上没有google那么优秀,但对中文搜索的支持并不会很差(小小吐槽一番百度),然而在通过百度爬取数据时,我们往往会遇到百度自身的反爬虫措施,如何解决这些反爬虫措施,将会是本文的重点。  关于反爬虫的技术,网上有很多资源,方法不外乎(代理 阅读全部

【转】爬取搜索引擎之搜狗

发表于 2017-03-19  上篇讲述了爬取百度搜索结果时遇到的问题以及解决方案,本篇继续爬取搜索引擎的话题,说说爬取搜狗时将会遇到什么问题?以及怎么去解决。搜狗搜索引擎的名气在国内远没有百度那么大,但却称得上是后起之秀,其搜索结果的准确度以及爬虫算法都还不错,可以说搜狗搜索在国内是继百度搜索之外的又一良好选择,想要了解百度搜索相关信息的,可以移步:爬取搜索引擎之寻你千百度  关于反爬虫的技术,网上有很多资源,方法不外乎(代理、识别验证码、分布式架构、模拟浏览器、ADSL切换ip等),这些不是 阅读全部

【转】搜狗微信公众号文章反爬虫完美攻克

2017年11月27日 13:43:16很简单,selenium + chromedriver,搜狗的部分直接在chrome模拟浏览器内部操作即可,而mp.weixin.qq.com则是腾讯的了,不反爬虫,用urllib requests等等即可。需要扫码登陆,不扫码只能采取10页数据[python] view plain copyfrom selenium import webdriver  import time 阅读全部

【转】记搜狗微信号搜索反爬虫

反爬虫 2016-03-16 17:57RSS Factory前段时间又出问题了,访问微信公众号RSS一直500,完全没法用了。 经调试,发现由于爬取数据太频繁,触发了搜狗微信公众号的反爬虫,探索了下反爬虫的规则:没有带Cookie的情况下,频繁访问触发反爬虫带Cookie的情况下,频繁访问偶尔触发反爬出,偶现500错误不带Cookie情况下,隔几个小时范围一下不会触发反爬虫Cookie有几个关键字段用于识别爬虫,SUID,SNUID,SUV。 不带Cookie请求任意搜狗微信公众号 阅读全部

微信公众号爬虫方法之一

需求某某微信公众号历史的所有文章的阅读数和点赞数难点微信公众号历史的所有文章(来源???)每篇文章的阅读量和点赞量(电脑上浏览文章只显示内容,没有阅读量、点赞量、评论……)突破难点一搜狗微信搜索,可以搜索微信公众号文章。但是貌似只能显示该公众号最近十篇的文章。放弃……利用抓包工具(Fiddler),抓取文章。成本有点大…&a

阅读全部

TF-IDF框架与其可以衍生到的SEO知识

这是一篇关于搜索引擎排序基础TF-IDF框架的普及文章,并非网上偶尔可见的一些泛泛而谈甚至断章取义的内容,而是结合搜索引擎的理论,和自己观察到的较多实例所总结的切实的知识。虽然可能相对比较难以理解,但相信我,这些用来理解的时间绝对是值得的。写这篇文章主要是为了对后面一篇《SEO实践》系列的文章中要提到的一些内容先写好基础理论,就不放到正篇里面去占用篇幅了。本文先引用一段张俊林的《这就是搜索引擎》中对于TF-IDF框架的概述。由于原文较长,这里概述下我所认为的重点,或许会有概述不足之处

阅读全部

夜息:TF-IDF与关键词排名问题

 今天看到zero发的关于TF-IDF的关键词排名问题 http://semwatch.org/2012/03/tf-idf/想到自己在N久前写过一篇未发表的草稿,里面提了提做SEO需要 “理解tf-idf的原理”。只是当时没写完,也没发出来。其实TF-IDF可以解决很多SEO的基础问题。例如,拿京东商城为例,关于京东商城我观察了很久。从去年开始京东的SEO开始发力,制作了/series/频道。之后改版过几次。(不幸打不开京东网页,没法截图做例子,这个series频道猜测应该是学的zo

阅读全部

夜息:给力SEO理论:链轮策略和金字塔链接模型

 在这边从没见过有人讨论逆推搜索引擎的算法。事实上这样做是很重要的。在SEO领域中,我们需要这样的先锋愿意去解决那些非常困难的搜索引擎原理问题。我希望我们能从一个崭新的高度来讨论SEO,我会帮助大家来解决这个问题。

...

阅读全部

夜息:小议SEO数据分析III – 维护词库

前言具体上一篇SEO数据分析文章已经隔了很久了,今天有个朋友网上问我,有了词库怎么维护。正好借这个机会谈谈这个问题。 在获取到大量关键词后,首先要对这些词进行处理,在我实际工作中,总结以下几个项目我做过或者觉得有必要做的事情。提取实体(通俗点讲就是找关键词中的重点词)1、去重2、受控词表3、分类4、提取实体提取实体的概念就是找关键词中的重点词。比如 “北京温泉哪里好”,那这个词中的”北京 “和”温泉”这两个词是重点,”哪里好”只是一个疑问词,对主题描述帮助相对比较小。于是我们就需要通过一些技术手

阅读全部

【**搜索研发部】搜索引擎同义词反馈机制

 1. 介绍由于搜索算法本身的局限性,对于用户的语义、意图等理解不够,而基于用户行为的点击调权,作为对传统搜索算法的补充,在搜索中扮演着重要的作用。尽管用户行为已经被证明在搜索中的效果,但是一直只是停留在query-url层面,或者ngram-url层面[1],没有深入反馈到检索算法中的基础策略,比如:同义词、紧密度、省略等,这些策略影响了url与query之间的关系。本文以对同义词的反馈为例,提出一个通用的基于用户行为的基础策略反馈框架。由于同义词词典与线上应用算法的限制,检索系统中

阅读全部

【**搜索研发部】检索结果聚类结果说明

  检索结果聚类,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,对Query结果的展示方式亦不再是传统1页若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程。         关键词:搜索引擎,搜索结果,聚类         我们首先

阅读全部

【**搜索研发部】基于主特征空间相似度计算的切分算法

  说到切分(segmentation),大多数人最容易想到的就是中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词

阅读全部

【**搜索研发部】语义主题计算–来自搜索背后的奥义

  两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。

阅读全部