CentOS7上使用mod_wsgi部署Django

发表于 2016-04-30 | 分类于 Python

Django是一个非常强大的web框架，能让你快速的构建应用，它本身包含了一个简单的服务器程序，让你在开发环境里调试用。
但是在生产环境中就需要将其部署到更专业的web服务器里去了，比如Apache、Nginx等。

对于Django这个框架的教程我之前的博客已经有一个系列了，这里就不多说，我假设你已经创建好了一个Django工程，这里我已自己的zspace工程来说明。

WGSI简易教程

发表于 2016-04-22 | 分类于 Python

WSGI的全称是Web Server Gateway Interface，翻译过来就是Web服务器网关接口。具体的来说，WSGI是一个规范，定义了Web服务器如何与Python应用程序进行交互，使得使用Python写的Web应用程序可以和Web服务器对接起来。最新版本在PEP-3333中定义。

对于初学者来说，上面那段就是废话，说了跟没说一样。接下来详细说明下这个东东到底是如何工作的。

阅读全文 »

Scrapy笔记12- 抓取动态网站

发表于 2016-04-15 | 分类于 Python

前面我们介绍的都是去抓取静态的网站页面，也就是说我们打开某个链接，它的内容全部呈现出来。
但是如今的互联网大部分的web页面都是动态的，经常逛的网站例如京东、淘宝等，商品列表都是js，并有Ajax渲染，
下载某个链接得到的页面里面含有异步加载的内容，这样再使用之前的方式我们根本获取不到异步加载的这些网页内容。

使用Javascript渲染和处理网页是种非常常见的做法，如何处理一个大量使用Javascript的页面是Scrapy爬虫开发中一个常见的问题，
这篇文章将说明如何在Scrapy爬虫中使用scrapy-splash来处理页面中得Javascript。

阅读全文 »

Scrapy笔记11- 模拟登录

发表于 2016-04-12 | 分类于 Python

有时候爬取网站的时候需要登录，在Scrapy中可以通过模拟登录保存cookie后再去爬取相应的页面。这里我通过登录github然后爬取自己的issue列表来演示下整个原理。

要想实现登录就需要表单提交，先通过浏览器访问github的登录页面https://github.com/login，然后使用浏览器调试工具来得到登录时需要提交什么东西。

我这里使用chrome浏览器的调试工具，F12打开后选择Network，并将Preserve log勾上。我故意输入错误的用户名和密码，得到它提交的form表单参数还有POST提交的UR

阅读全文 »

Scrapy笔记10- 动态配置爬虫

发表于 2016-04-10 | 分类于 Python

有很多时候我们需要从多个网站爬取所需要的数据，比如我们想爬取多个网站的新闻，将其存储到数据库同一个表中。我们是不是要对每个网站都得去定义一个Spider类呢？
其实不需要，我们可以通过维护一个规则配置表或者一个规则配置文件来动态增加或修改爬取规则，然后程序代码不需要更改就能实现多个网站爬取。

要这样做，我们就不能再使用前面的scrapy crawl test这种命令了，我们需要使用编程的方式运行Scrapy spider，参考官方文档

阅读全文 »

Scrapy笔记09- 部署

发表于 2016-03-21 | 分类于 Python

本篇主要介绍两种部署爬虫的方案。如果仅仅在开发调试的时候在本地部署跑起来是很容易的，不过要是生产环境，爬虫任务量大，并且持续时间长，那么还是建议使用专业的部署方法。主要是两种方案：

Scrapyd 开源方案
Scrapy Cloud 云方案
阅读全文 »

Scrapy笔记08- 文件与图片

发表于 2016-03-20 | 分类于 Python

Scrapy为我们提供了可重用的item pipelines为某个特定的Item去下载文件。
通常来说你会选择使用Files Pipeline或Images Pipeline。

这两个管道都实现了：

避免重复下载
可以指定下载后保存的地方(文件系统目录中,Amazon S3中)

Images Pipeline为处理图片提供了额外的功能：

阅读全文 »

Scrapy笔记07- 内置服务

发表于 2016-03-19 | 分类于 Python

Scrapy使用Python内置的的日志系统来记录事件日志。
日志配置

LOG_ENABLED = true
LOG_ENCODING = "utf-8"
LOG_LEVEL = logging.INFO
LOG_FILE = "log/spider.log"
LOG_STDOUT = True
LOG_FORMAT = "%(asctime)s [%(name)s] %(levelname)s: %(message)s"
LOG_DATEFORMAT = "%Y-%m-%d %H:%M:%S"

使用也很简单

阅读全文 »