网站制作学习网PHP→正文:php采集器
字体:

php采集器

PHP 2011/3/9 17:36:58  点击:不统计

<网f站o学a习s制p作.cn>
php采集器,采集代码,采集原理,通过php正则的形式,获取页面内容然后再通过这则获取相关内容,连接等。
首先看获取内容。php获取web网页内容很简单:$content  = file_get_contents(web地址);
然后通过这则分别获取内容,现在将本站的某个页面进行分解(希望不要采集我的站啊)
<?//获取内容
$content  = file_get_contents("http://www.forasp.cn/html/1899.html");
//echo $content;这里可以试试是否输出,然后获取title
//preg_match_all 是正则匹配,第一个参数时正则表达式,第二个时匹配内容,第三个时获取正则后的内容数组
preg_match_all("/<title>(.*)<\/title>/",$content,$title);
echo $title[1][0];
//说一下匹配结果:匹配结果为什么是[1][0].第一个数组表示匹配的正则顺序,以0开始,0表示整个正则表达式,1以及以后表示子表达式,后面的表示匹配多个或者单个结果的数组索引原文章%77w%77%2Ef%6F%72%61%73%70%2E%63n
//下面匹配内容
preg_match_all("/<div id=\"contentcon\">([\s\S]*)<\/div>
<div id=\"fanye\">/",$content,$array);
echo $array[1][0];
//同样的原理,输出内容了
//var_dump($array);
?>
这基本上就是php采集器的原理。了解了原理然后逐渐加大内容就成了一个采集器,当然当前内容离采集器比较远了。
http://%77%77%77%2E%66网站制作%6F学习网%72%61%73%70%2E%63%6E

·上一篇:php连接sql server分页 >>    ·下一篇:php正则获取a链接地址 >>
推荐文章
最新文章