爬虫 – geekman

如何使用CasperJs抓取商品数据

标签：爬虫 casperjs phantomjs

编写：袁亮
时间：2016-08-30
说明：如何使用CasperJs抓取商品数据

一、目的

抓取天猫、淘宝、京东的相应商品数据
抓取商品名、价格、轮播图、详情、产品属性等数据

二、方案选择

1、情况分析
    1.1 对应的页面数据很多都是后加载的
    1.2 页面请求很多，想找到其对应的ajax请求比较麻烦
    1.3 ajax请求的地址是服务端生成的，不能通过简单的拼接来生成
    1.4 对正则水平要求较高，很多请求地址是写在js里的

2、可选方案
    2.1 php等语言，直接发钱http请求，然后通过正则匹配等方式，找到响应数据源
        curl、phpquery、Snopy等等 
    2.2 使用浏览器实际访问，然后获取浏览器的最终结果数据
        phantomJS
        casperJS + phantomJS
        python + selenium + phantomJS
3、选用方案 casperJS + phantomJS
    3.1 纯JS，方便前后端使用
    3.2 Casper封装的比较友好、文档齐全，比较好用
        特别是针对后加载的元素，之间waitForSelector的方法非常方便
        可以引入jquery等自己的js文件，方便dom操作
    3.3 获取数据，只需要在浏览器打开的时候，找到对应的节点选择器即可
    3.4 安装部署方便

三、简单例子

var casper = require('casper').create();
casper.start('http://casperjs.org/', function() {
    this.echo(this.getTitle());
});

casper.thenOpen('http://phantomjs.org', function() {
    this.echo(this.getTitle());
});
casper.run();

四、环境部署（非源码安装）

1、安装phantomjs
    1.1 下载安装
        wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
    1.2 解压
        tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2
    1.3 做软连接，放在环境变量里，比如(注意权限问题，如果需要apache调用，更要注意)
        ln -s /opt/ci123/phantomjs/bin/phantomjs /usr/local/sbin/
    1.4 测试运行
        phantomjs --version

2、安装casperjs
    2.1 选择相应版本下载
        wget https://github.com/casperjs/casperjs/archive/1.1.3.zip
    2.2 解压
        unzip 1.1.3.zip 
    2.3 做软连接，放在环境变量里，比如(注意权限问题，如果需要apache调用，更要注意)
        ln -s /opt/ci123/casper/bin/casperjs /usr/bin/casperjs
    2.4 测试是否正常
        casperjs --version

五、实际使用

1、apache调用php
2、php根据url调用不同的CasperJS，传入要抓取的url
3、Casper输出json数据
4、php使用exec调用，并获取casper的输出
5、php将相应的json输出返回apache或者存入数据库等等
演示代码：
    192.168.0.249 
    /opt/ci123/www/html/yuanliang/casper/fetch

六、踩过的坑

1、抓取https的时候，249上一直失败
    原因：
        249上的ssl配置应该问题，导致抓取部分https网站的时候，一直报错
    解决办法：
        a:CasperJS需要较高版本才能用
            casperjs --ignore-ssl-errors=yes --ssl-protocol=any xxx.js
            phantomjs --ssl-protocol=any xxx.js
        b:升级249上的ca证书或者openssl版本

2、抓取速度太慢
    原因：
        这个工具本质是一个无界面的浏览器，因此里面的所有资源都跟浏览器一样，会去加载，图片等资源较多的时候会卡
    解决办法：
        设置不加载图片 loadImages:false
3、clientScripts 注入远程jquery文件无效
    原因：
        只能加载本地的js文件，不能加载远程的js文件
    解决办法：
        可以下载到本地，或者使用remoteScripts来加载，这个可以使用远程文件
        不过使用本地文件比较好，少一次http请求，速度会快很多
4、淘宝的后加载数据一直获取不到
    原因：
        之前https的出问题的时候，以为是ua有问题，所以设置了一个chrome的ua，但是实际上内核不一样
        导致淘宝本身的js执行失败，数据加载不出来
    解决办法：
        去掉ua设置即可
5、天猫的后加载数据（详情）一直加载不出来，报语法错误
    原因：
        天猫的代码中，如何屏幕大小超过1260，会执行一段JS，这段JS会出错
    解决办法：
        设置屏幕宽度小于1260即可
6、waitForSelector获取某个数据，超时，导致后面都不执行了
    原因：
        默认的timeout处理函数，会直接将整个进程中止，后面的所有代码都不执行
    解决办法：
        如果可以接受部分字段抓取不到，则可以在waitForSelector中自行设置timeout处理函数，不中止
        如果需要全部抓取才算结束，可以在timeout的时候触发一个报警等来通知
7、根据浏览器的元素定位，返回不了相应的数据
    原因：
        浏览器最终呈现的元素，有些跟phantomJs返回的不一样
        比如图片后加载，这是在页面滚动到一定位置之后才会触发的
    解决办法：
        如图片后加载这种，数据其实已经返回了，只是存在其他地方，可以返回对应的html，然后看数据存储在哪个字段上
        如果有些是点击、滚动等之后，从服务端获取的数据，那就需要模拟浏览器的点击滚动等事件，然后获取，比较少见
8、执行获取页面数据的时候，失败报错
    原因：
        页面代码执行在不同的沙箱中，在CasperJS本身是读取不到的
    解决办法：
        均在this.evaluate函数中执行，在内部可用操作所有的DOM，跟页面执行JS效果一样
9、天猫商品详情图片一直抓取不对
    原因：
        图片本身是后加载的，之前数据是放在data-ks-lazyload中，后加载执行之后，这个data被干掉了
        直接取src也会有问题，因为有的时候取数据的时候，后加载js还没执行到
        所以导致一会好一会坏
    解决办法：
        先取data-ks-lazyload，如果没有，则去src数据

七、注意事项

1、debug的时候，可用通过将当前页面截图出来，方便查看加载到什么情况了
    也可以将完整的html输出到文件里查看
2、打印json数据，方便跟php等交互
    打印数据
    casper.then(function(){
        require('utils').dump(data);
    });
3、注意很多异步操作，很多时候，执行效果会跟预期不一样
4、当Casper运行结果跟预期不一样的时候，可以考虑直接写相应的phantomJs做对应小块功能来调试
5、淘宝url等在命令行传参会出错，需要用单引号包含起来

八、参考资料

1、CasperJS 官方文档
    http://docs.casperjs.org/en/latest/index.html
2、phantomJS 文档
    http://phantomjs.org/documentation/
3、PhantomJS基础及示例
    http://imweb.io/topic/560b402ac2317a8c3e08621c
4、casperjs模拟登陆https页面获取当前面地址后发现为about:blank问题排查
    http://www.bubuko.com/infodetail-1018663.html
5、 Linux使用curl访问https站点时报错汇总
    http://www.ipcpu.com/2014/12/curl-https-error/

PhantomJS第一篇：安装及抓取网页为图片

编	写：袁	亮
时	间：2015-07-21
说	明：PhantomJS第一篇：安装及抓取网页为图片

一、是什么，解决什么问题
	1、是一个无界面的，webkit内核浏览器，能像一个真正的浏览器一样解析js，dom，css等
	2、应用场景
		抓取js后加载的内容
		将完整页面转为图片
		屏幕补抓
		自动化测试
		网络监控
	
二、下载安装：linux版
	1、2.0.0版本之前的，直接网上下载编译后的二进制文件即可，直接解压就可以运行
		如果找不到好的下载源，直接上249上，有1.4版本和1.9.8版本
		/opt/software/下
	2、源码安装
		2.1 下载源码
			a：直接下载某个版本
				wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.0.0-source.zip
				unzip phantomjs-2.0.0-source.zip
			b：git下载全部
				git clone git://github.com/ariya/phantomjs.git
				cd phantomjs
				git checkout 2.0
			c:下载太慢，直接从249上拷贝
				/opt/ci123/www/html/phantomjs
		2.2 安装依赖的模块
			yum -y install gcc gcc-c++ make flex bison gperf ruby \
			openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel \
			libpng-devel libjpeg-devel
		2.3 执行安装脚本（以小时记，好久好久...）
			./build.sh
	3、参考文档
		http://phantomjs.org/build.html
	4、执行方法
		./bin/phantomjs examples/post.js
			
三、下载安装：windows版本
	1、自行搜索下载
		http://phantomjs.org/download.html
	2、18上有2.0.0版本
		\\192.168.0.18\运维网络硬盘\r软件\phantomjs-2.0.0-windows.zip
	3、解压出来之后，可以直接运行
	4、命令行下执行：
		cd 到相应目录
		./bin/phantomjs.exe examples/post.js
		
四、简单使用，抓取一个网页，并保存为图片
	1、新建fetch.js文件
	2、输入以下代码
		var page = require('webpage').create();
		page.open('http://www.ci123.com/', function() {
			page.render('/opt/ci123/www/html/geekman/ci123.png');
			phantom.exit();
		});
	3、执行，并查看图片是否生成
		./bin/phantomjs fetch.js
		
五、遇到的问题及解决办法
	1、网页中的中文乱码，中文的地方，都是一堆方括号
		yum install bitmap-fonts bitmap-fonts-cjk
		ps:这个解决了乱码问题，但是导致了下面另外一个问题，坑了我大半天
	2、生成的png有一堆的透明效果
		www.ci123.com加使用美图看看导致，其实是正常的
		放在浏览器里看就正常了
	3、生成jpg格式图片，背景黑色
		执行之后，将body背景设置为白色即可
		page.evaluate(function(){
			document.body.bgColor = 'white';
		});
	4、有些内容后加载，导致页面有空白
		延时一定时间之后在渲染成图片
		window.setTimeout(function (){
			page.render("/opt/ci123/www/html/geekman/ci123.png");
			phantom.exit();
		}, 3000);
	5、有些内容，需要触发效应效果才出现，可以在page.evaluate中模拟
		page.evaluate(function(){
			document.body.bgColor = 'white';
			
			window.scrollTo(0,10000);//滚动到底部
			window.document.body.scrollTop = document.body.scrollHeight;
		});
	6、flash播放显示的内容，截取不到
		1.5版本之后就不再支持flash，如果要抓取flash的，需要安装1.4及之前的版本
	7、生成的图片，宽度不够，比如www.ci123.com大概只有960的样子
		设置webkit的宽高，让样式显示正常（可以调整这个的不同值，来抓取不同分辨率下的表现，特别是响应式布局的页面）
		page.viewportSize = {width: 1440,height: 800};
	8、在window下抓取，页面显示正常，但是在linux下抓取，页面排版跟浏览器上显示的有很大的区别
		8.1 版本一致，怀疑是版本的问题，装过1.4，1.5，1.9.2，1.9.8，2.0.0版本，都没用...
		8.2 百度、google了很久，发现别人都没这个问题
		8.3 怀疑是不是webkit内核不一样，所以在我的浏览器里正常，在服务器上的那个不一样，看过使用的webkit内核，是比较旧
			然后又是各种切换版本，测试，发现还是不行
		8.4 后来仔细看截出来的图，发现汉字跟浏览器里不大一样，怀疑是这个的问题
		8.5 将最开始安装的那两个中文字库删除，再截，发现，汉字乱码了，但是排版正常....
			所以问题就确定了，因为使用了不当的字体库，导致页面排版出错
		8.6 重装centos的字体库，又踩了个坑，这个见额外的文档

六、完整代码范例
	var page = require('webpage').create();
	page.viewportSize = {width: 1440,height: 800};
	var url = 'http://www.ci123.com/';
	page.open(url, function (status){
		if (status != "success")    {
			console.log('FAIL to load the address');
			phantom.exit();
		}

		var bb = page.evaluate(function()    {
			document.body.bgColor = 'white';

		// //此函数在目标页面执行的，上下文环境非本phantomjs，所以不能用到这个js中其他变量
			window.scrollTo(0,10000);//滚动到底部
			window.document.body.scrollTop = document.body.scrollHeight;
		});

		window.setTimeout(function (){
			page.render("/opt/ci123/www/html/geekman/ci123.png");
			phantom.exit();
		}, 3000);
	});
		
七、其他
	1、1.5版本之后不支持flash，如果要支持flash的话，请下载1.4以前的版本
	2、常用语法
		http://www.tuicool.com/articles/nieEVv
		http://www.cnblogs.com/justany/p/3279717.html
	3、官方文档
		http://phantomjs.org/documentation/
	4、examples文件夹下，有很多范例，直接参考使用，很好用

file_get_contents了解：自定义http请求

编	写：袁	亮
时	间：2015-07-17
说	明：file_get_contents了解：自定义http请求

一、使用原因
	1、这是一个使用非常频繁的函数，对应的file_put_contents，都是文件操作中第一选择
	2、抓取网络内容，一般情况下，也是使用的这个，但遇到稍微麻烦点的，我们就觉得没法子了
	3、curl等能做的，其实file_get_contents也基本上都能做，只是大家不熟悉
	
二、简单范例，直接看php.net
	array(
		'method'=>"GET",
		'header'=>"Accept-language: en\r\n" .
				  "Cookie: foo=bar\r\n"
	  )
	);

	$context = stream_context_create($opts);

	// Open the file using the HTTP headers set above
	$file = file_get_contents('http://www.example.com/', false, $context);
	
三、核心函数 stream_context_create
	1、支持以下协议，生成相应资源流上下文
		http://php.net/manual/zh/wrappers.php
		file:// — 访问本地文件系统
		http:// — 访问 HTTP(s) 网址
		ftp:// — 访问 FTP(s) URLs
		php:// — 访问各个输入/输出流（I/O streams）
		zlib:// — 压缩流
		data:// — 数据（RFC 2397）
		glob:// — 查找匹配的文件路径模式
		phar:// — PHP 归档
		ssh2:// — Secure Shell 2
		rar:// — RAR
		ogg:// — 音频流
		expect:// — 处理交互式的流
	
	2、http资源流支持参数：
		http:http://php.net/manual/zh/context.http.php
		http协议支持的参数，基本都支持
		header头，post数据，user_agent,代理，超时，跟随重定向等等
		
	3、post数据设置范例
		$postdata = http_build_query(
			array(
				'var1' => 'some content',
				'var2' => 'doh'
			)
		);
		$opts = array('http' =>
			array(
				'method'  => 'POST',
				'header'  => 'Content-type: application/x-www-form-urlencoded',
				'content' => $postdata
			)
		);
		$context = stream_context_create($opts);
		$result = file_get_contents('http://example.com/submit.php', false, $context);

coreseek排错：api版本不对导致搜索错误

编	写：袁	亮
时	间：2015-07-17
说	明：coreseek搜索的一个小提示

一、问题描述
	1、在本地254上，搭建了3.2.14 版本的coreseek服务端
	2、searched进程启动
	3、命令行模式下搜索有数据
	4、使用php的api搜索，没有返回值，也没有报错
	
二、问题排查
	1、使用api搜索的，如果出现问题，第一反应输出其本身的错误信息，last_error还是什么的，查一下
	2、api的版本和coreseek的版本不一致，导致不能搜索
	3、找到对应版本的php api即可

curl番外：linux命令行下使用

编	写：袁	亮
时	间：2015-07-17
说	明：curl番外：linux命令行下使用

一、常用命令
	1、直接抓取网页
		curl http://www.ci123.com

	2、抓取数据，并保存成文件
		curl -O http://192.168.0.62/yl/curl/demo.php //需要后面有具体文件名，否则抓取不到
		curl -o index.html http://www.ci123.com
		
	3、仅显示http响应头
		curl -I http://www.ci123.com
		
	4、发送post数据
		4.1 普通post
			curl -d "username=name&nickname=暗夜御林" http://192.168.0.62/yl/curl/demo.php
		4.2 上传文件的时候，-F每次只能设置一个参数项，不能多个，文件名用@符号加载地址前
			curl -F "file=@51268106.html" -F "username=name" -F "nickname=暗夜御林" http://192.168.0.62/yl/curl/demo.php
	
	5、模拟登陆，使用cookie文件夹
		5.1 将cookie写入到本地文件（使用-F可以）
			curl -c cookie.txt http://192.168.0.62/yl/curl/demo.php
			curl -D cookie.txt http://192.168.0.62/yl/curl/demo.php //直接将响应头存储进文件
		5.2 使用本地存储的cookie文件发送请求
			curl -b cookie.txt http://192.168.0.62/yl/curl/demo.php
			
	6、伪造referer
		curl -e 'http://www.baidu.com' http://192.168.0.62/yl/curl/demo.php
	
	7、使用代理访问（找免费代理，翻墙出去，google搜索比较给力）
		curl -x 124.202.183.170:8118 http://www.baidu.com

fsockopen初阶：了解并使用

编	写：袁	亮
时	间：2015-07-16
说	明：fsockopen初阶：了解并使用

一、作用（简单使用）
	1、类似file_get_contents,curl，在程序中，发起一次网络请求，抓取数据或者调用接口等
	2、curl能干的事，这个也都能干
	3、在发起http请求的时候，会对http整个工作过程更熟悉，每一步都很清楚
	
二、工作流程
	1、使用fsockopen打开一个网络连接或者一个Unix套接字连接
	2、使用fwrite，传输请求头信息
	3、使用fgets读取响应
	4、使用fclose关闭套接字
	ps:一个完整的http请求，更清晰些，平时访问网页的时候，浏览器帮我们做的这些工作

三、使用条件
	1、php配置中开启 allow_url_fopen
		
四、简单范例，php.net
	
	$fp = fsockopen("www.example.com", 80, $errno, $errstr, 30);
	if (!$fp) {
		echo "$errstr ($errno)
\n";
	} else {
		$out = "GET / HTTP/1.1\r\n";
		$out .= "Host: www.example.com\r\n";
		$out .= "Connection: Close\r\n\r\n";
		fwrite($fp, $out);
		while (!feof($fp)) {
			echo fgets($fp, 128);
		}
		fclose($fp);
	}
	
	
五、函数封装
	
	header("Content-Type:text/html;charset=utf-8;");

	$data = fsockOpenHttp("http://local.ci123.com/yl/fsockopen/t.php",'POST',array('username'=>'yuanliang847','nickname'=>'暗夜御林'));
	var_export($data);

	//图片上传的暂未封装，可以自己看下firebug中上传图片时的请求信息，然后封装
	function fsockOpenHttp($url, $method='GET', $postfields = NULL , $multi = false){
		$url = trim($url);
		if(!$url){
			return array('status'=>4001,'mess'=>'链接不能为空');
		}

		$urlinfo = parse_url($url);
		if(!$urlinfo['host']){
			return array('status'=>4002,'mess'=>'链接非法，请填写完整链接地址');
		}
		if($urlinfo['scheme'] == 'https'){//判断是否是https请求
			$port = 443;
			$version = '1.1';
			$host = 'ssl://'.$urlinfo['host'];
		}else{
			$port = 80;	
			$version = '1.0';
			$host = $urlinfo['host'];
		}
		$urlinfo['path'] = $urlinfo['path']?$urlinfo['path']:'/';

		$header = "{$method} {$urlinfo['path']} HTTP/$version\r\n";	
		$header .= "Host: {$urlinfo['host']}\r\n";
		if($multi){
			//$header .= "Content-Type: multipart/form-data; boundary=\r\n";	
		}else{	
			$header .= "Content-Type: application/x-www-form-urlencoded\r\n";  
		}
		if(strtolower($method) == 'post' ){
			if(is_array($postfields)){
				$postfields = http_build_query($postfields);
			}
			$header .= "Content-Length: ".strlen($postfields)."\r\n";
			$header .= "Connection: Close\r\n\r\n";  
			$header .= $postfields;
		}else{
			$header .= "Connection: Close\r\n\r\n";  
		}

		$ret = '';
		$fp = fsockopen($host,$port,$errno,$errstr,30);
		if(!$fp){
			return array('status'=>4003,'mess'=>'建立sock连接失败');
		}

		fwrite ($fp, $header);  
		while (!feof($fp)) {
			$ret .= fgets($fp, 4096);
		}
		fclose($fp);

		$info = split("\r\n\r\n",$ret);
		$t = array_slice($info,1);
		$returnInfo = implode('',$t);
		
		$head = $info[0];
		$tmp = split("\r\n", $head);
		$tmp = split(" ", $tmp[0]);
		$http_status = $tmp[1];
		
		$html = iconv("utf-8","utf-8//ignore",$returnInfo);
		return array(
			'status'	=> '1',
			'mess'		=> '请求成功',
			'http_status'=> $http_status,//http响应头
			'head'		=> $head,//完整返回头
			'data'		=> $html//响应内容
		);
	}

curl阶段三：模拟用户表单提交数据


编	写：袁	亮
时	间：2015-07-10
说	明：curl高阶应用，模拟用户表单提交数据

一、应用场景
	1、伪装用户登录，爬取需要登录才能访问的数据
	2、提交表单，进行一些操作，比如自动发帖等，刷刷投票什么的
	3、内部接口调用，模拟提交数据，作为参数
	
二、get传送
	没什么好说的，直接在链接后面拼起来就好了
	
三、post数据传送
	1、form表单提交数据，编码设置，直接参考w3cschool
		application/x-www-form-urlencoded	在发送前编码所有字符（默认）
		multipart/form-data	不对字符编码。在使用包含文件上传控件的表单时，必须使用该值。
		text/plain	空格转换为 "+" 加号，但不对特殊字符编码。
	2、一般的表单项
		2.1 采用的是第一编码方式
		2.2 代码使用：
			$data = array(
				'title'		=> '大家好，我是新人，请多多关照',
				'content'	=> '第一次来这边，发现好多东西好有帮助...',
			);
			curl_setopt($ch, CURLOPT_POST, true);
			curl_setopt($ch, CURLOPT_POSTFIELDS, $data);//Post提交的数据包   
	3、文件上传
		3.1 代码和上面一样
		3.2 文件地址使用@符合加载绝对路径之前即可，先绝对路径，否则很容易出错
		3.3 例如：
			$data = array(
				'title'		=> '大家好，我是新人，请多多关照',
				'content'	=> '第一次来这边，发现好多东西好有帮助...',
				'photo'		=> '@/opt/ci123/www/html/ciphot/demo.jpg',
			);
			curl_setopt($ch, CURLOPT_POST, true);
			curl_setopt($ch, CURLOPT_POSTFIELDS, $data);//Post提交的数据包
		3.4 还有个参数 CURLOPT_UPLOAD，没用过，有兴趣可以自己了解下
		
四、http basic验证
	1、有些项目或者网站，访问的时候加了http basic验证，直接抓取会失败
	2、知道账号密码的话，简单设置下即可
		curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_BASIC); 
		curl_setopt($ch, CURLOPT_USERPWD, "username:password"); 
	
五、错误信息显示
	1、在exec执行之后，如果出错，可以返回报错信息方便查看
		$img = curl_exec($ch);
		$err = curl_error($ch);
		if($err){
			return $err;
		}
	2、很少用，一般是在上传图片的时候，图片路径出错会出这个问题
	3、curl抓取不到，请注意是否能ping的通域名，能否正常访问那个文件，ping一下，或者wget下那个地址
	4、ipv6报错提示：curl: (6) Couldn't resolve host（域名能正常访问的话），设置使用ipv4的
		curl_setopt($ch, CURLOPT_IPRESOLVE, CURL_IPRESOLVE_V4)

curl阶段二：伪造请求信息及其他小知识


编	写：袁	亮
时	间：2015-07-09
说	明：curl请求伪造信息及其他小知识点

一、为什么需要伪造？
	在抓取的过程中，经常会出现被人屏蔽，不给抓了，这个时候，我们需要让自己尽量像是一个正常的用户去抓取相应数据
	
二、伪造哪些信息？
	1、useragent
		1.1 最初级的，所有浏览器、app都会带上自己的ua信息，如果没有，那就是直接告诉别人，我不是一个正常访问
		1.2 curl_setopt($ci, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0');
		1.3 ua内容，可以使用firebug，查看网络中的请求头信息，复制下来即可，也可以准备多个，随机使用
	2、referer
		2.1 浏览器告知服务端，上一个请求的链接是什么；特别是在图片的抓取上，很多网站都会判断referer是不是自己的网站
		2.2 根据网址，自动伪造首页referer
			$urlinfo = parse_url($url);
			$host = $urlinfo["scheme"].'://'.$urlinfo['host'];
			curl_setopt ($ch, CURLOPT_REFERER, $host);
	3、cookie
		3.1 很多网站需要登录才能显示内容，这个时候，就需要伪造相应的登陆cookie，否则抓取不到内容
		3.2 主要两种办法：一个是在浏览器里登陆相应的账号，从firebug等，查看请求头里的cookie内容，复制下来
			第二种是使用账号密码，在curl中，模拟登陆，然后将cookie存到txt文件里，下次将cookie带上去抓取数据
		3.3 第一种比较快捷方便，特别是有验证码的网站，适合短时间抓取，但可能会因为cookie失效等原因出问题
			第二种，如果有验证码会很麻烦，但是优点在于只要账号密码不出问题，程序就很少出问题
		3.4 第一种代码：
			curl_setopt ($ch, CURLOPT_COOKIE, 'BAIDUID=7268C693B1F385AC297F677E90E092D4:FG=1;BIDUPSID=6093A44AECD856D0FFBD012FA16D99BA; PSTM=1436169100; BD_UPN=13314352;BDUSS=VRFdUMyRndUWmdkLUxrTW5-d0NjSVZocktDVHdublh1SFhqRTFHSlB3c2piTVJWQVFBQUFBJCQAAAAAAAAAAAEAAAD6lOAweXVhbmxpYW5nODQ3XzEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACPfnFUj35xVd;BD_HOME=1;H_PS_PSSID=11194_1442_14601_16148_13245_16035_10813_14429_10211_12868_16167_14667_16210_14954_15397_11465_13932_13612;BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0;BD_CK_SAM=1;__bsi=15490895447769138228_00_3_R_N_25_0303_C02F_N_I_I_0');
		3.5 第二种
			伪造登陆的请参考阶段三，form表单伪造，cookie保存和下次使用就下面两段代码，注意文件写权限问题
			curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie_file); //连接结束后保存cookie信息的文件。    
			curl_setopt($curl, CURLOPT_COOKIEFILE, $cookie_file);
	4、使用代理访问
		4.1 很多网站，都会对同一个ip的访问次数和频率做限制，这个时候可以使用代理来隐藏我们的ip
		4.2 代理有很多种，具体的参考其他文档，网上找的免费代理经常失效，不稳定，所以保持代理库的及时更新非常重要
		4.3 使用方法
			curl_setopt($curl, CURLOPT_PROXY, '代理ip:代理端口');
	5、伪造ip
		5.1 将自己作为代理的一层，伪造header中的x-forwared-for来达到
		5.2 关于ip的相关知识，可以搜索查看其他文档
		5.3 采用的伪造头信息来达到目标，上面的那些伪造也可以使用这个方法达成，只要对http头熟悉即可
			$header = array(
				'X-FORWARDED-FOR:202.103.229.40',
				'...'//其他需要伪造的，再加一行即可
			);
			curl_setopt ($ch, CURLOPT_HTTPHEADER , $header );  //构造IP
	
三、curl超时
	1、所有curl请求，必须设置超时时间，否则很容易导致进场堆积，将服务器拖垮
	2、超时有两个，一个是连接超时，一个是传输内容超时，都必须要设置
	3、设置代码：
		curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT , 2 );//连接时间
		curl_setopt ($ch, CURLOPT_TIMEOUT , 3 );//最长执行时间
	
四、跟踪链接跳转
	1、抓取的时候，会出现目标被header跳转
	2、跳转的代码在header中获取
		curl_setopt($ch,CURLOPT_HEADER,true);//将头信息输出，默认只输出http的body部分（非html的body）
		curl_setopt($ch,CURLOPT_NOBODY,true);//不输出body数据，如果确定有location跳转的话用，一般情况下不要设置
	3、设置代码：
		curl_setopt ($ch, CURLOPT_FOLLOWLOCATION , true );//跟随跳转
		curl_setopt ($ch, CURLOPT_MAXREDIRS , 2 );//跳转次数限制，防止死循环等

curl阶段一：简单使用


编	写：袁	亮
时	间：2015-07-09
说	明：curl的初阶使用

一、curl是干什么的？
	当我们需要在程序中，抓取其他网页或者图片等远程数据的时候，可以使用curl完成一些比较强大的功能
	ps:如果要求不高，只是简单的抓取，可以使用file_get_contents来抓取

二、开启扩展
	ps:确定是否有该扩展，很简单，写个php文件，里面价格curl_init();运行是否报错，如果报错则需要开启扩展
	1、windows下开启，以appserv为例
		1.1 将以下三个文件复制到C:\Windows\system32\下
			AppServ\php5\ext\php_curl.dll
			AppServ\php5\libeay32.dll
			AppServ\php5\ssleay32.dll
		1.2 找到C:\Windows\php.ini文件(phpinfo函数输出的内容中，有php.ini文件的位置)
			extension=php_curl.dll
			将这行前面的;号注释去掉
		1.3 重启apache，appserv中有apache restart的功能
	2、linux
		虚拟机上的话重新编译php的curl模块
		线上服务器，直接找运维同学帮忙安装即可
		
三、简单使用
	1、简单函数
		function curl($url){//curl模拟浏览器方式数据
			$urlinfo = parse_url($url);
			$host = $urlinfo["scheme"].'://'.$urlinfo['host'];

			$ch = curl_init();
			curl_setopt($ch, CURLOPT_URL, $url);
			curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不直接输出，作为变量返回
			curl_setopt($ch, CURLOPT_REFERER, $host);//模拟referer，防止被禁止，抓取图片的时候非常有用
			curl_setopt($ch, CURLOPT_TIMEOUT,3);//内容传输的最长时间，一定要设置
			curl_setopt($ch, CURLOPT_CONNECTTIMEOUT,3);//连接的最长时间，一定要设置
			$img = curl_exec($ch);
			return $img;
		}
	2、使用
		$html = curl('网页、图片等地址');