php知道与问问的采集插件代码
前端之家收集整理的这篇文章主要介绍了
php知道与问问的采集插件代码,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
最近发现知道和问问小偷的版本越来越多了!!
看过一个百度小偷的网站也达到了pr6。收录十万多!!
在经过 荐礼啦 四十天的实践之后 发现百度对这个确实挺友好的。
从网站访问来看 很多也是从百度搜索来的!
所以用知道和问问来填充网站内容还是可行的。
于是自己开发了一个知道 问问的采集插件
原则上适合 PHP+MysqL 并且文章是在一个表的程序
知道采集代码
<div class="codetitle"><a style="CURSOR: pointer" data="85143" class="copybut" id="copybut85143" onclick="doCopy('code85143')"> 代码如下:
<div class="codebody" id="code85143">
<?
PHP session_start();
header("content-type:text/html;charset=gbk");
require("stole_config.
PHP");
require("conn.
PHP");
require("keyword.
PHP");
$searchStr=$_GET["searchStr"];
$ss=explode(" ",$searchStr);//拆分
搜索关键字
$word="";//关键字设为空
foreach($ss as $key=>$t)
{
if($key>0)
{
$word .="+";
}
$word .=urlencode($t);
}
$jl=intval($_GET['jl']);
if(isset($_GET['page']))
{
$page=intval($_GET['page']);
}else{
$page=1;
}
$rs=intval($_GET['rs']);
if($rs>=10)
{
$rs=0;
$page++;
}
if($page>76)
{
echo "采集完毕 ${jl}";
exit();
}
if(!empty($searchStr))//如果
搜索 {
//
获取问题
页面 $content=@file_get_contents("
http://zhidao.baidu.com/q?ct=17&lm=0&tn=ikaslist&pn=".(($page-1)*10)."&rn=10&word=".$word);
//
获取问题列表
preg_match_all("/<a href=\"\/question\/(.
).html/iUs",$content,$uid);
$uid=$uid[1];//获取详细页文章
$uid=$uid[$rs];
//判断数据是否存在
$suid="bd{$uid}";
$sct=mysql_query("select count() from {$table_prefix}c_article where suid='$suid' ");
$sct=mysql_fetch_array($sct);
$sct=$sct[0];
if($sct==0)
{
$content=@file_get_contents("
http://zhidao.baidu.com/question/".$uid.".html") ;
$arr=explode('
',$content);
$art_title=$arr[1];
$arr=explode('',$art_title);
$art_title=$arr[0];//获取标题结束
//判断内容是否符合
$word_arr=explode(",",$cj_word);
$word_allow=false;//初始化是否允许采集
$word_count=count($word_arr);//关键字总数
for($i=0;$i<$word_count;$i++)
{
if(substr_count($art_title,$word_arr[$i])>0)
{
$word_allow=1;
$i=$word_count;
}
}
if($word_allow)//如果满足条件
{
$arr=explode('
',$content);
$contentQuestion=$arr[1];
$arr=explode('
',$contentQuestion);
$contentQuestion=$arr[0];
echo "开始采集内容
";
echo "$art_title
";
@preg_match_all('/(
|)(.)<\/pre>(<\/ca>|<\/cn>)/iUs',$answerArr);
$answerArr=$answerArr[2];
if($arr_order==1)//随机排序
{
shuffle($answerArr);
}
if($arr_order==2)//倒序
{
$answerArr=krsort($answerArr);//倒序
}
foreach($answerArr as $t)
{
$answerTemp=str_replace('','',$t);
$answerTemp=str_replace('
',$answerTemp);
$answerTemp=str_replace('',$answerTemp);
$answerTemp=str_replace('
',$answerTemp);
if(strlen($answerTemp)>$min_t1)
{
$art_content .=$answerTemp."
";
}
}
//去除链接
$s1="/(<a .>)(.)<\/a>/iUs";
$art_content=preg_replace($s1,${2},trim($art_content));
$art_content=str_replace("\n\r","
",$art_content);
if(strlen($art_content)>$min_t2)
{
$title_ct=mysql_query("select count() from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复
$title_ct=@mysql_fetch_array($title_ct);
$title_ct=$title_ct[0];
if($title_ct>0)
{
$art_title .="{$same_title}{$title_ct}";
}
$art_time=date("Y-m-d");
$art_content=strtr($art_content,$keyword);
$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表
mysql_query($sql);
if(empty($t_catx_id))//如果无分类
{
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_author')";
}else
{
$sql2="insert into {$t_table}({$t_art_title},{$t_artx_author},{$t_catx_id}) values('$art_title','$cat_id')";
}
mysql_query($sql2);//插入文章表
$jl++;
//数据库处理完毕
}else
{
echo "内容长度不够";
}
//获取文章内容结束
}else
{
echo "主题不符合要求";
}
}else
{
echo "已经存在";
}$rs++;
file_put_contents("bd.txt","采集{$searchStr}到第{$page}第{$rs}条");
echo "";
exit();
}
?>
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC">
<tr>
<td height="50" align="center" bgcolor="#00CC00"></td>
</tr>
</table>
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC" style="margin-top:6px; margin-bottom:6px;">
<tr>
<td height="30" align="center" bgcolor="#FFFFFF"><a href="cj_config.php">采集设置 <a href="uninstall.php" onclick="return confirm('您确定要卸载采集插件吗');">卸载采集<a href="cj_view.php">查看采集记录<a href="cj_help.php">采集帮助 <a href="baidu.php" target="_blank">知道采集 <a href="wenwen.php" target="_blank">问问采集</td>
</tr>
</table>
<table width="537" height="45" align="center" style="margin-top:30px;"><tr><td height="39">
<form id="form1" name="form1" method="get" action="baidu.PHP">
<div id="search">