php采集器
<网f站o学a习s制p作.cn>
php采集器,采集代码,采集原理,通过php正则的形式,获取页面内容然后再通过这则获取相关内容,连接等。
首先看获取内容。php获取web网页内容很简单:$content = file_get_contents(web地址);
然后通过这则分别获取内容,现在将本站的某个页面进行分解(希望不要采集我的站啊)
<?//获取内容
$content = file_get_contents("http://www.forasp.cn/html/1899.html");
//echo $content;这里可以试试是否输出,然后获取title
//preg_match_all 是正则匹配,第一个参数时正则表达式,第二个时匹配内容,第三个时获取正则后的内容数组
preg_match_all("/<title>(.*)<\/title>/",$content,$title);
echo $title[1][0];
//说一下匹配结果:匹配结果为什么是[1][0].第一个数组表示匹配的正则顺序,以0开始,0表示整个正则表达式,1以及以后表示子表达式,后面的表示匹配多个或者单个结果的数组索引
//下面匹配内容
preg_match_all("/<div id=\"contentcon\">([\s\S]*)<\/div>
<div id=\"fanye\">/",$content,$array);
echo $array[1][0];
//同样的原理,输出内容了
//var_dump($array);
?>
这基本上就是php采集器的原理。了解了原理然后逐渐加大内容就成了一个采集器,当然当前内容离采集器比较远了。
http://%77%77%77%2E%66网站制作%6F学习网%72%61%73%70%2E%63%6E