谷歌搜索引擎会通过LSI关键词来判断文章和词汇之间的相关性,从而判断关键词的排名。利用好LSI关键词,对于SEO从业人员来说,无疑是一把优化的利器!过去,谷歌判断相关的性的时候,使用的是关键词词频(关键词密度)当然、堆砌关键词的时代已经过去了。关键词堆砌LSI关键词(LSI keywords) 是现在谷歌判断内容相关性中非常重要的一个部分。很多Blogger或者SEO人员喜欢将LSI keywords布局在自己的内容中,让页面与关键词的相关性更好,从而获得Google的青睐,获得更好的排名。下面 阅读全部
1. location正则写法一个示例:location = / {
# 精确匹配 / ,主机名后面不能带任何字符串
[ configuration A ]
}
location / {
# 因为所有的地址都以 / 开头,所以这条规则将匹配到所有请求 阅读全部
1、使用命令检查 pure-ftpd 是否已经设置为自启动systemctl is-enabled pure-ftpd 显示为:disabled 即为没设置自启动 2、使用命令,将 pure-ftpd 设置为开机自启动systemctl enable pure-ftpd说明:CentOS中可以用 chkconfig 命令来检查和配置开机自启动项目。Ubuntu16.04及以上对应的命令是 systemctls 阅读全部
Ubuntu 18.04 LTS 服务器版的变化 采用下一代 subiquity Ubuntu Server Installer 弃用 ifupdown:绑定IP地址用的 /etc/network/interfaces 配置文件将不再生效,改为使用 /etc/netplan/01-netcfg.yaml,(也可能是其它名称的.yaml文件)DNS还是使用resolv.conf(但会被yaml文件中的设置覆盖) 多个IP绑定配置示例:比如绑定 1.1.1.1-1.1.1. 阅读全部
反向代理:反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个反向代理服务器。 CDN:CDN的全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。其目的是使用户可就近取得所需内容,解决 Intern 阅读全部
1. 文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指纹,来作为该文本的标识,从形式 阅读全部
Fingerprintjs2是一款开源的设备指纹采集器。最初的fingerprintjs库创建于2012年,但是由于新版本的开发很难保持向后兼容,因此Fingerprintjs2项目中增加了很多的新内容。该项目将更多、更有效的来源用于指纹识别,并且可配置,也就是说用户可以选择性地开启其中的选项。该项目还将重点关注IE插件,尤其是在中国流行的QQ、Baidu等。另外,该项目使用了semver(语义化的版本控制系统)。 安装使用CDN在线获取:https://cdnjs.com/libra 阅读全部
******************UPDATEPlease see the one favor I am requesting from all my fellow BHW friends - at the end of this post.Hint - if it happens, I'll reveal a hidden secret no one has openly spoken about.******************In this massive guide I w 阅读全部
前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用大量的随机的代理进行爬取,那么网站就不知道是我们的爬虫一直在爬取了,这样就有效地解决了反爬的问题。 那么问题来了,使用什么代理好呢?这里指的代理一般是 HTTP 代理,主要用于数据爬取。现在打开 阅读全部
使用百度云修改FTP端口后,使用FlashFXP连接FTP,会卡在“正在列目录”,当时的执行命令是 MLSD,开始怀疑是防火墙的问题。 后来百度云工程师测试,使用 CuteFTP则能正常上传下载,无此问题。于是怀疑是FTP软件问题。 而FlashFXP无论修改主动模式或被动模式均无法解决此问题。 原因一:列目录命令问题导致卡在“正在列目录” 解决方法: 修改站点->站点管理器->FTP->列表命令 改为 STAT -L 问题解决。 原因二:w 阅读全部
查看你系统中的 imagemagick是否支持 webpconvert -version输出信息Version: ImageMagick 6.8.9-9 Q16 x86_64 2018-07-10 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2014 ImageMagick Studio  阅读全部
在windows下操作一:打开 sourcetree (git可视化管理工具)找到上一个旧版本的提交变更的id校验码 “f506693”(直接在gitlab后台也可以看到) 如图所示:然后找到新版本的提交的“校验码”622b6a6。最后在sourcetree右上打开 命令行模式,或仓库根目录下右击打开git bash here(windows下安装了git for windows才有),执行命令:git diff f506693 622b6a6& 阅读全部
Ubuntu 16.04 下:0x01 安装chrome1 下载源加入系统源列表sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/ 2 导入google软件公钥wget -q -O - https://dl.google.com/linux/linux_signing_key.pub | sudo apt-key a 阅读全部
我们在通过Selenium运行自动化测试时,必须要启动浏览器,浏览器的启动与关闭必然会影响执行效率,而且还会干扰你做其它事情(本机运行的话)。那能不能把自动化测试的运行放在后台?当然可以!htmlunit 项目可以模拟浏览器运行,是一个没有界面的浏览器,运行速度快。PhantomJS 是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。C 阅读全部
#!/bin/bash7za a log.7z log #将文件log压缩成log.7z7za t log.7z #检验文件log.7z是否可解压。rsync -avP log.7z root@192.168.1.1:/data/ #将l 阅读全部
shell_exec()通过 shell 环境执行命令,并且将完整的输出以字符串的方式返回。也就是说, PHP先运行一个shell环境, 然后让shell进程运行你的命令, 并且把所有输出已字符串形式返回, 如果程序执行有错误或者程序没有任何输出, 则返回null.exec()string exec ( string $command [, array &$output [, int &$return_var ]] )与 shell_exec() 不一样, exec不会创建she 阅读全部
入职冰鉴科技做爬虫开发已经半年多了,陆续开发维护了几个爬虫以后终于在 web 端爬虫这一块有了登堂入室的感觉。中间踩了许多坑,也对爬虫的许多细节有了自己的认识,所以今天希望能分享一些爬虫经验。虽然爬虫的很多东西不好说太细,因为说太细了别人马上有针对性的反爬虫了,而且很多技巧业界没用通用的解决方案(别人就算做出来了也不太愿意分享),都是我自己慢慢摸索出来的。但是我认为适当的业界 /友商之间的技术交流是必要的,不能闭门造车,我也渴望能和业界 /友商有更多私下的深入交流,大家多切磋才能进步嘛。最近我在 阅读全部
在上篇中,我主要讲了用 PHP 写爬虫时的一些经验,在下篇中我会对 Selenium 进行展开,把我总结的 Selenium 技巧和一些坑的处理方法介绍给大家。上篇: https://www.v2ex.com/t/324309我博客原文:《最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(下)》为什么是 Selenium在简单的爬虫中直接用 httpclient 就可以爬了,但是反爬虫比较厉害的情况下,有很多反爬虫的机制,比如:各种 302 跳转、 js 检 阅读全部
‹‹
<
4
5
6
7
8
9
10
11
12
13
>
››