自建CDN和反向代理服务器软件

  反向代理:反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个反向代理服务器。  CDN:CDN的全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。其目的是使用户可就近取得所需内容,解决 Intern 阅读全部

文本指纹算法和内容指纹系统介绍

1.       文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指纹,来作为该文本的标识,从形式 阅读全部

微信域名是否被拦截检测接口

本篇文章已加密,请输入密码后查看。

阅读全部

域名注册查询接口收集

本篇文章已加密,请输入密码后查看。

阅读全部

Fingerprintjs2:一款开源设备指纹采集器

Fingerprintjs2是一款开源的设备指纹采集器。最初的fingerprintjs库创建于2012年,但是由于新版本的开发很难保持向后兼容,因此Fingerprintjs2项目中增加了很多的新内容。该项目将更多、更有效的来源用于指纹识别,并且可配置,也就是说用户可以选择性地开启其中的选项。该项目还将重点关注IE插件,尤其是在中国流行的QQ、Baidu等。另外,该项目使用了semver(语义化的版本控制系统)。 安装使用CDN在线获取:https://cdnjs.com/libra 阅读全部

The No-Nonsense Guide To Building Your PBN in 2017

******************UPDATEPlease see the one favor I am requesting from all my fellow BHW friends - at the end of this post.Hint - if it happens, I'll reveal a hidden secret no one has openly spoken about.******************In this massive guide I w 阅读全部

【转载】10家付费爬虫代理详细对比评测!

前言  随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。  对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用大量的随机的代理进行爬取,那么网站就不知道是我们的爬虫一直在爬取了,这样就有效地解决了反爬的问题。  那么问题来了,使用什么代理好呢?这里指的代理一般是 HTTP 代理,主要用于数据爬取。现在打开 阅读全部

Linux中使用FlashFXP连接FTP,卡在“正在列目录” [R] MLSD问题的解决方法

  使用百度云修改FTP端口后,使用FlashFXP连接FTP,会卡在“正在列目录”,当时的执行命令是 MLSD,开始怀疑是防火墙的问题。  后来百度云工程师测试,使用 CuteFTP则能正常上传下载,无此问题。于是怀疑是FTP软件问题。  而FlashFXP无论修改主动模式或被动模式均无法解决此问题。  原因一:列目录命令问题导致卡在“正在列目录”  解决方法:  修改站点->站点管理器->FTP->列表命令 改为 STAT -L 问题解决。  原因二:w 阅读全部

Ubuntu中ImageMagick不支持webp图片格式的问题

查看你系统中的 imagemagick是否支持 webpconvert -version输出信息Version: ImageMagick 6.8.9-9 Q16 x86_64 2018-07-10 http://www.imagemagick.org Copyright: Copyright (C) 1999-2014 ImageMagick Studio  阅读全部

sourcetree修改文件后将有改变的文件打成补丁包的方法(命令行)

在windows下操作一:打开 sourcetree (git可视化管理工具)找到上一个旧版本的提交变更的id校验码 “f506693”(直接在gitlab后台也可以看到) 如图所示:然后找到新版本的提交的“校验码”622b6a6。最后在sourcetree右上打开 命令行模式,或仓库根目录下右击打开git bash here(windows下安装了git for windows才有),执行命令:git diff f506693 622b6a6& 阅读全部

chrome headless+selenium+python+(ubuntu 16.04/centos7) 下的实现

Ubuntu 16.04 下:0x01 安装chrome1 下载源加入系统源列表sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/ 2 导入google软件公钥wget -q -O - https://dl.google.com/linux/linux_signing_key.pub | sudo apt-key a 阅读全部

【模拟浏览器】htmlunit、PhantomJS、Chrome headless

我们在通过Selenium运行自动化测试时,必须要启动浏览器,浏览器的启动与关闭必然会影响执行效率,而且还会干扰你做其它事情(本机运行的话)。那能不能把自动化测试的运行放在后台?当然可以!htmlunit 项目可以模拟浏览器运行,是一个没有界面的浏览器,运行速度快。PhantomJS 是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。参 阅读全部

本地内网主机向远程服务器同步数据 确保数据成功传输的SHELL命令

#!/bin/bash7za a log.7z log              #将文件log压缩成log.7z7za t log.7z                      #检验文件log.7z是否可解压。rsync -avP log.7z root@192.168.1.1:/data/   #将l 阅读全部

php执行系统命令 shell_exec, exec, passthru, system 区别

shell_exec()通过 shell 环境执行命令,并且将完整的输出以字符串的方式返回。也就是说, PHP先运行一个shell环境, 然后让shell进程运行你的命令, 并且把所有输出已字符串形式返回, 如果程序执行有错误或者程序没有任何输出, 则返回null.exec()string exec ( string $command [, array &$output [, int &$return_var ]] )与 shell_exec() 不一样, exec不会创建she 阅读全部

【转载】最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(上)

入职冰鉴科技做爬虫开发已经半年多了,陆续开发维护了几个爬虫以后终于在 web 端爬虫这一块有了登堂入室的感觉。中间踩了许多坑,也对爬虫的许多细节有了自己的认识,所以今天希望能分享一些爬虫经验。虽然爬虫的很多东西不好说太细,因为说太细了别人马上有针对性的反爬虫了,而且很多技巧业界没用通用的解决方案(别人就算做出来了也不太愿意分享),都是我自己慢慢摸索出来的。但是我认为适当的业界 /友商之间的技术交流是必要的,不能闭门造车,我也渴望能和业界 /友商有更多私下的深入交流,大家多切磋才能进步嘛。最近我在 阅读全部

【转载】最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(下)

在上篇中,我主要讲了用 PHP 写爬虫时的一些经验,在下篇中我会对 Selenium 进行展开,把我总结的 Selenium 技巧和一些坑的处理方法介绍给大家。上篇: https://www.v2ex.com/t/324309我博客原文:《最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(下)》为什么是 Selenium在简单的爬虫中直接用 httpclient 就可以爬了,但是反爬虫比较厉害的情况下,有很多反爬虫的机制,比如:各种 302 跳转、 js 检 阅读全部

【转载】一个MySQL 5.7.18分区表性能下降的案例分析与排查

作者介绍姜宇祥,2012年加入携程,10年数据库核心代码开发经验,相关开发涉及达梦、MySQL数据库。现致力于携程MySQL的底层研发,为特殊问题定位和处理提供技术支持。本文来自携程技术中心公众号(id:ctriptech),经同意授权转载。 前言:希望通过本文,使MySQL5.7.18的使用者知晓分区表使用中存在的陷阱,避免在该版本上继续踩坑。同时通过对源码的分享,升级MySQL5.7.18时分区表性能下降的根本原因,向MySQL源码爱好者展示分区表实现中锁的运用。 问题描 阅读全部

PHP基于Redis实现Bloom-Filter(布隆算法去重过滤器)

    背景    最近有一个项目是点击日志(10亿/天)实时计算,架构上简单来说就是利用flunted去从前端机收集原始日志,然后发给Kafka,Spark消费日志并计算保存结果到Redis。    Kafka的Producer和Consumer端的配置是异步且保证不丢消息,因此当超时发生时,就可能会导致消息的重发或者重复消费,需要在消费环节保证幂等。Spark消费逻辑主要是根据多个维度进行计数计算,因此,我们 阅读全部

filter_var:比正则更方便的PHP域名、邮箱、IP、MAC地址验证过滤工具

filter_var 支持的几种验证类型:http://php.net/manual/zh/filter.filters.php Validate filters 验证类Sanitize filters 净化类Other filters 其他Filter flags 标志类支持验证对象是否域名,IP,邮箱等,也可以过滤掉不符合要求的字符后返回一、验证判断类型:验证并返回正确结果 (VALIDATE 类)$str ='h 阅读全部

【转载】CI框架集成CkEditor编辑器+图片上传功能

1.先下载CKEditor编缉器(官网:http://ckeditor.com/download)。2.把解压后的CKEditor复制到CI的根目录下。3.把ckeditor目录下的ckeditor_php5.php文件复制到CI的application/libraries/下并重命名为ckeditor.php。4.这些准备工作做完后就可以在CI的控制器中调用CKEditor编缉器了,如下:###测试ckeditor###      & 阅读全部