2017-08-02

开源爬虫软件工具

要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。

爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

世界上已经成型的爬虫软件多达上百种，本文对较为知名及常见的开源爬虫软件进行梳理，按开发语言进行汇总。虽然搜索引擎也有爬虫，但本次我汇总的只是爬虫软件，而非大型、复杂的搜索引擎，因为很多只是想爬取数据，而非运营一个搜索引擎。

2017-08-02

Python爬虫实战———微信实时爬取电影资讯

搞了个简单的小工具，实现了在微信上实时爬取网站电影资讯并自动回复的功能。

2017-08-01

Python爬虫学习———前言

爬虫的技术可以应用到很多生活场景中，例如，自动投票，批量下载感兴趣的文章、小说、视频，微信机器人，爬取重要的数据进行数据分析等等

2017-08-01

Python爬虫学习———urllib进阶

前情回顾，urllib的基本用法

urllib库的基本组成

利用最简单的urlopen方法爬取网页html
利用Request方法构建headers模拟浏览器操作
error的异常操作

具体内容参见Python从零学爬虫。urllib库除了以上基础的用法外，还有很多高级的功能，可以更加灵活的适用在爬虫应用中，比如：

使用HTTP的POST请求方法向服务器提交数据实现用户登录
使用代理IP解决防止反爬
设置超时提高爬虫效率
解析URL的方法

本次将会对这些内容进行详细的分析和讲解。

2017-06-10

Tour of Machine Learning Algorithms(5) 常见算法优缺点

前文传送

机器学习(一) 算法介绍

机器学习(二) 模型调优

机器学习(三) 模型结果应用

机器学习(四) 常见算法优缺点

文章结构：

什么是感知器分类算法
在Python中实现感知器学习算法

在iris（鸢尾花）数据集上训练一个感知器模型

自适应线性神经元和融合学习

使用梯度下降方法来最小化损失函数

在Python中实现一个自适应的线性神经元

2017-06-05

Tour of Machine Learning Algorithms(4) 常见算法优缺点

前文传送

机器学习(一) 算法介绍

机器学习(二) 模型调优

机器学习(三) 模型结果应用

机器学习算法我们了解了很多，但是放在一起来比较优缺点是缺少的，本篇文章就一些常见的算法来进行一次优缺点梳理。

2017-06-01

Tour of Machine Learning Algorithms(3) 模型结果应用

前文传送

机器学习(一) 算法介绍

机器学习(二) 模型调优

当你有了一个相当不错的模型结果了，这个时间就需要上线应用了，但实际上这个过程也是需要注意很多东西的呢，比如汇报你的项目结果、上线计划沟通、上线后的监控等等，这都是相当重要的。

2017-05-25

Tour of Machine Learning Algorithms(2) 模型调优

前文传送

机器学习(一)算法介绍

前面讲了一些机器学习的算法的介绍，如果有一些数据这时候也可以建立出自己的模型了，但是，如果模型的效果不尽人意，那么应该如何调整呢？

以下是一份关于模型调优的方法，每当出现效果不好的时候或者是在建模前，都可以按照这个来进行检查，话不多说，一起来看～

2017-05-22

A Tour of Machine Learning Algorithms(1) 算法介绍

接下来的文章基于来自Jason Brownlee 的文章《A Tour of Machine Learning Algorithms》

2017-03-12

SQL快速参考

快速参考，可以打印以备日常使用。