| 网站首页 | 公共论文 | 经济论文 | 教育教学 | 法律论文 | 商务管理 | 行政管理 | 医学论文 | 艺术论文 | 理工论文 | 
 | 文史论文 | 学英语 | 范文 |           强力推荐!本站与百度合作新开频道    >> >>    论文知道

    最新公告:     新年新气象,论文先生网祝大家新年快乐,牛年行大运!  [wxziyang  2009年1月1日]            本站与百度合作新开频道-论文知道,欢迎访问.  [wxziyang  2008年12月7日]            本站已通过百度大联盟认证,相关结果请查看底部相关链接.  [wxziyang  2008年12月7日]         会员登录 -- 会员注册 -- 会员中心  

◇◇◇ 您现在的位置: 论文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

DEDE万能过滤规则及应用实例

作者:wxziyang 2008-9-16 20:59:07


DEDE万能过滤规则及应用实例来自于论文先生网,如该文注明了作者及出处,请在转载引用时保留。否则因《DEDE万能过滤规则及应用实例》一文引起的法律纠纷请自负。

dede CMS是一个非常好的新闻文章系统,有很多比较大的网站也采用了DEDE CMS。关于这些大网站,由于新闻量非富,在这里就不谈了。

今天主要谈一下DEDE的采集功能,这个采集功能才是众多人力资源不足的小网站的所爱。DEDE CMS的采集功能非常强大,但使用起来也比较复杂。采集过程中最麻烦的莫过于采集的正则过滤函数的编写。说实在的,dede在这点上和很多ASP CMS系统比如说动易等,采集的时候直接选择几个选项就可以了,简单的完成想过滤的东西。不过他们只局限于对文章内容的过滤不是很好。而DEDE却能对所有采集的字段进行过滤,功能上弥补了易用性的缺陷,期待柏拉图在后续版本中加上选择性过滤功能。
下面是在综合论坛上网友的各种正则的一个全集:

{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}


应用示例一:标题中空格的过滤
经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤

{dede:trim} {/dede:trim}


应用示例二:来源作者中连接的过滤
在采集文章的时候,有的系统里面作者或者来源处都有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}


应用示例三:文章内容中连接以及其他广告代码的过滤
这个就不用说了,当需要对所有东西过滤的时候,直接用上面所有的代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等进行过滤。(这个需要按照对方内容里面具体含有什么代码来具体操作)
一般的只有链接,使用二中的代码进行过滤就可以了,但是实际上一般的网站现在都在内容里面加有广告等,所以采取下面的过滤正则就可以完成过滤:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}


应用示例四:过滤GG广告代码
其实这个就是在上面的内容过滤,但是很多论坛里的网友经常问这个,所以单独作为一个应用列出来:

{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}


好了,上面四种应用基本上涵盖了采集的各种应用,掌握了这个,过滤基本上就不用求人了

DEDE万能过滤规则及应用实例来自于论文先生网,如该文注明了作者及出处,请在转载引用时保留。否则因《DEDE万能过滤规则及应用实例》一文引起的法律纠纷请自负。

  • 上一篇论文:
  • 下一篇论文:
  • 广告位招商 0713-8567819
    最新计算机信息技术列表
     什么是.NET和.NET的重要意…
     windows环境下木马的隐藏手…
     大型行业门户网站设计开发…
     DEDE万能过滤规则及应用实…
     EWEBS 2008在政府部门中的…
     EWEBS 2008在制作业的应用
     EWEBS 2008应用虚拟化系统…
     EWEBS应用虚拟化系统简介
     钢框架偏心核心筒弹塑性分…
     结构化布线工程应注意的问…
     机器狗穿透还原的工作原理…
     网页游戏的发展、市场分析…
     黑客又出手 解析新时代的网…
     电脑的日常维护与故障诊断…
     浅谈互联网对未成年人的影…
     关于计算机网络辅助大学英…
     网络游戏“私服外挂”问题…
     海洋科普网站建设毕业设计…
    计算机信息技术推荐列表
     电子商务中的安全技术
     海洋科普网站建设毕业设计…
     坚持就是胜利-龙芯2007年总…
     浅谈锐起无盘XP在教学中的…
     谈网络中隐私权保护模式
     在C  中实现JAVA的存储管理…
     数据库设计三大范式应用实…
    设为首页 | 加入收藏 | 版权申明 | |
    CopyRight 2008-2010 论文先生网