帝国CMS的采集正则
1、作用:通过设置采集正则以便使系统识别你要采集的内容。
2、帝国CMS的采集正则是什么样的,下面我们用实例讲解:
(1)、假如我们要采集页面的内容页为如下页面:
图1:HTML页面

图2:查看页面源代码为如下:

(2)、由上图的源代码内容我们可以得出帝国CMS的采集正则:
新闻标题正则
<td>标题:<strong>[!--title--]</strong></td><td>内容:<font color="#FF0000">[!--newstext--]</font></td>(3)、由上面我们得出了,帝国CMS采集正则是把正则变量替换要采集内容后的代码内容。格式:
识别代码头部[!--变量名--]识别代码尾部
注意事项:上面的"识别代码头部"一定是要唯一的标记。
3、帝国CMS正则还有表示任意内容的字符:"*"
如果"识别代码头部"中有内容是变化的,那么我们可以用*代替它。如页面源代码为如下,我们要采集下面的链接地址:
<a title="任意可变内容" href="链接地址">标题</a><a title="*" href="[!--newsurl--]">4、其他说明:
(1)、正则要找出唯一性的开头字符。有时候空格都会成为识别的依据。
(2)、对于特殊字符请在前面加上"",当然直接将特殊字符改为"*"最合适了。特殊字符如下: " )"、"("、"{"、"}"、"["、"]"、""、"?"等等。
 
                     
												 
        
       
        
      
发表评论