字体：大中小

php采集器

PHP　2011/3/9 17:36:58　　点击：不统计

<网f站o学a习s制p作.cn>
php采集器，采集代码，采集原理，通过php正则的形式，获取页面内容然后再通过这则获取相关内容，连接等。
首先看获取内容。php获取web网页内容很简单：$content = file_get_contents(web地址);
然后通过这则分别获取内容，现在将本站的某个页面进行分解(希望不要采集我的站啊)
<?//获取内容
$content = file_get_contents("http://www.forasp.cn/html/1899.html");
//echo $content;这里可以试试是否输出，然后获取title
//preg_match_all 是正则匹配，第一个参数时正则表达式，第二个时匹配内容，第三个时获取正则后的内容数组
preg_match_all("/<title>(.*)<\/title>/",$content,$title);
echo $title[1][0];
//说一下匹配结果：匹配结果为什么是[1][0].第一个数组表示匹配的正则顺序，以0开始，0表示整个正则表达式，1以及以后表示子表达式，后面的表示匹配多个或者单个结果的数组索引
//下面匹配内容
preg_match_all("/<div id=\"contentcon\">([\s\S]*)<\/div>
<div id=\"fanye\">/",$content,$array);
echo $array[1][0];
//同样的原理，输出内容了
//var_dump($array);
?>
这基本上就是php采集器的原理。了解了原理然后逐渐加大内容就成了一个采集器，当然当前内容离采集器比较远了。
http://%77%77%77%2E%66网站制作%6F学习网%72%61%73%70%2E%63%6E

·上一篇：php连接sql server分页 >> 　　　·下一篇：php正则获取a链接地址 >>