`
wenbin151
  • 浏览: 31514 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

取URL地址,并根据地址抓下页面

 
阅读更多

/**
   *
   * 解析文件,取出URL地址
   *
   */
 public static void regexStr(){
  String input="飞机但是http://mail.Sohu.com.cn 飞机恺撒";
  Pattern p = Pattern.compile("http://[*[a-zA-Z]|w{3}].*[a-zA-Z ]");
  Matcher m = p.matcher(input);
  m.find();
  String str=m.group();
        System.out.print(str);
  
  
 }
/**
 * 根据URL,把网页保存到本地
 * @param urlStr
 * @param filename
 * @return
 */ 
 public  static  boolean  getUrlToFileInputStream(String urlStr, String filename){
   
   DataInputStream dataInputStream=null;
   try{
      URL url = new URL(urlStr);
           URLConnection conn = url.openConnection();
           dataInputStream = new DataInputStream(conn.getInputStream());
          
     }catch(Exception e){
      e.getMessage();
   
     }
     DataOutputStream dataoutputstream = null;
   if(dataInputStream !=null){
         try {
    dataoutputstream = new DataOutputStream(new BufferedOutputStream(new FileOutputStream(filename)));
   
   byte b[] = new byte[1024*10];
   int len = 0;
   while ((len = dataInputStream.read(b, 0, 1024)) != -1) {
    dataoutputstream.write(b, 0, len);
   }

   dataoutputstream.flush();
         } catch (Exception e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
   }
            return true;
   }else{
    return false;
   }
    
    
  }

分享到:
评论

相关推荐

    python爬虫 基于requests模块发起ajax的get请求实现解析

    用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求 这...

    WuGter

    2、99%的情况下软件可以正常使用,但根据个体机器的不同,也有可能会在某些机器上获取不到页面地址,这时软件就要带参运行,运行方法为:WuGter.exe n (n为数字,一般取1,2,3,软件默认是2)。 3、欢迎大家...

    网络爬虫调研报告(2).doc

    抓 取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同 的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定 义要获取的URL。 二者的差异: Nutch 只获取并...

    python通过urllib2爬网页上种子下载示例

    4.循环访问所有帖子url,从帖子页面代码中取种子下载地址(通过正则表达式或第三方页面解析库) 5.访问种子页面下载种子 复制代码 代码如下:import urllibimport urllib2import cookielibimport reimport sysimport ...

    C++网络爬虫项目

     爬虫通过“DNS解析” 将读到的URL转换为网站服务器的IP地址;  爬虫将网站服务器的IP地址、通信端口、网页路径等信息交给“网页下载” 器;  “网页下载”器负责从“互联网”上下载网页内容;  对于已经...

    精易模块[源码] V5.15

    2、新增“网页_是否为网页”判断地址是否为URL路径。 3、删除“窗口_取进程路径”命令,与窗口_句柄取进程路径() 功能相同。 4、删除“线程_强制结束”命令,与 线程_销毁() 功能相同。 5、修改“窗口_热键注册”...

    精易官方免费模块v3.60版

    2、改进“系统_取MAC地址”命令,感谢会员 Mr.Yang 的源码 3、改进“ 网页_取Cookie”等命令的描述歧义,感谢会员 imdong 的提醒 1、修复“时间_取中国星期几”命令无效的BUG,感谢会员 易難為易 的建议 2、修复...

    asp.net知识库

    根据基本表结构及其数据生成 INSERT ... 的 SQL 简便的MS SQL 数据库 表内容 脚本 生成器 将表数据生成SQL脚本的存储过程 直接从SQL语句问题贴子数据建表并生成建表语句的存储过程 从SQL中的一个表中导出HTML文件...

    JAVA上百实例源码以及开源项目

     Java实现HTTP连接与浏览,Java源码下载,输入html文件地址或网址,显示页面和HTML源文件,一步步的实现过程请下载本实例的Java源码,代码中包括丰富的注释,对学习有帮助。 Java实现的FTP连接与数据浏览程序 1个...

    vc++ 开发实例源码包

    6.右边窗口停止抓包后显示十六进制数 hyperlink 自绘CStatic,实现超链接。 iconbutton_demo 演示了多种自绘Button。 IDocHostUIHandler Extended CHtmlView 如题。 IM_毕业设计 聊天系统,操作了数据库,有...

    JAVA上百实例源码以及开源项目源代码

     Java实现HTTP连接与浏览,Java源码下载,输入html文件地址或网址,显示页面和HTML源文件,一步步的实现过程请下载本实例的Java源码,代码中包括丰富的注释,对学习有帮助。 Java实现的FTP连接与数据浏览程序 1个...

Global site tag (gtag.js) - Google Analytics