主页 PC知识 网管技术 黑客帝国 安全技术 开放系统 程序设计 搜索 技术论坛

 

相关联接
 
RHU本级分类

编程语言
程序代码
WIN/*NIX编程
其他类别
JAVA专区

 
RHU阅读排行
·新欢乐时光病毒源代码
·ShixxNote 6.net缓冲区溢出代码
·详细解析C++编写的ATM自动取款机模拟程序
·一个写硬盘的VBS脚本程序
·冲击波病毒源代码
·超级DDOS源码~每秒>4W
·socks5协议转http协议源码
·得到远程机器MAC地址源代码
·一个简单的CMDSHELL后门
·Win2000下系统进程隐藏代码

 
 
RHU最新文章
·MS Internet Explorer XML Parsing Buffer Overflow Exploit (vista) 0day网马生成器
·xml下载者VC源码
·Python写的蜘蛛程序代码
·C#抓取alexa排名的代码
·一个超级mail蠕虫的诞生
·洪水攻击原理及代码实现全攻略(附源代码)
·修改了一个抓包的程序(c语言队列)
·企业内部AD脆弱密码审计
·用vbs加用户的绝妙方法
·黑客编程利用Debug Api 获得QQ2007密码

 
 
RHU相关搜索









 
 
RHU广而告之

 
 
>您的位置:首页 -> 程序设计 -> 程序代码
Python写的蜘蛛程序代码

作者:RHU-TAC编辑员 来自:RHU网络采集 时间:2008-11-12 双击滚屏 收藏本页 字体:


点击 查看RHU2004全年文章


我发分享一个用Python的小程序,在CSDN上找的

复制内容到剪贴板
代码:

import re
from Parser import *
class NewsParser(Parser):
    """
    doParse 这个方法必须实现,
    参数page为一个dict,page有两个键-url和html,通过page['url']可以获得url,page['html']获得网页的HTML
    """        
    def doParse(self,page):
        self.URL = page['url']
        self.Html = page['html']
        result={}
        result['url'] = page['url']
        sPattern='notice(?P<code>\d{6})_(?P<id>\d{1,7})\.html'
        result.update(self.suckItem(page['url'], sPattern))
        sPattern='<h1>(?P<title>.*?)</h1>.*?<div class="artibody" id="artibody">(?P<content>.*?)</div>'
        
        result.update(self.suckItem(page['html'], sPattern))
        if result.has_key('title'):
            print result['url'],result['title']
        return result
    def suckItem(self,str,sPattern):
        pattern = re.compile(sPattern,re.IGNORECASE | re.DOTALL)
        m=pattern.search(str)
        if m:
            return  m.groupdict()
        else:
            return {}
 


OVER

[1] 页 RedHyphone.Union 投稿邮箱
[特别声明]:
本站文章大多搜索转载自网络中,如果侵犯了您的权利,请告之我们。本站将立即删除。
本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有。
查看评论】【向上滚屏】【关闭窗口】【 打印
-相关文章
  • 编程语言岁末盘点 C有望成为08年年度语言
  • MS Internet Explorer XML Parsing Buffer Overflow Exploit (vista) 0day网马生成器
  • 定时重启或关机的小工具 HTA文件
  • 快速开发一个PHP扩展
  • 如何编写PHP扩展
  • -文章评论 (关闭)
    ·还没有相关的评论!

    网上大名:
    红旋风网络技术联盟 RHUTech.Union
     
    Copyright © 2000-2007 RedHyphone.Union All Rights Reserved. 红旋风联盟版权所有.皖ICP备05011033号
    中国红旋风网络技术联盟 | www.RedHyphone.net
    Mailto:Redhyphone@gamil.com