/**
*
* 解析文件,取出URL地址
*
*/
public static void regexStr(){
String input="飞机但是http://mail.Sohu.com.cn
飞机恺撒";
Pattern p = Pattern.compile("http://[*[a-zA-Z]|w{3}].*[a-zA-Z
]");
Matcher m = p.matcher(input);
m.find();
String str=m.group();
System.out.print(str);
}
/**
* 根据URL,把网页保存到本地
* @param urlStr
* @param filename
* @return
*/
public static boolean getUrlToFileInputStream(String urlStr, String filename){
DataInputStream dataInputStream=null;
try{
URL url = new URL(urlStr);
URLConnection conn = url.openConnection();
dataInputStream = new DataInputStream(conn.getInputStream());
}catch(Exception e){
e.getMessage();
}
DataOutputStream dataoutputstream = null;
if(dataInputStream !=null){
try {
dataoutputstream = new DataOutputStream(new BufferedOutputStream(new FileOutputStream(filename)));
byte b[] = new byte[1024*10];
int len = 0;
while ((len = dataInputStream.read(b, 0, 1024)) != -1) {
dataoutputstream.write(b, 0, len);
}
dataoutputstream.flush();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return true;
}else{
return false;
}
}
分享到:
相关推荐
用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求 这...
2、99%的情况下软件可以正常使用,但根据个体机器的不同,也有可能会在某些机器上获取不到页面地址,这时软件就要带参运行,运行方法为:WuGter.exe n (n为数字,一般取1,2,3,软件默认是2)。 3、欢迎大家...
抓 取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同 的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定 义要获取的URL。 二者的差异: Nutch 只获取并...
4.循环访问所有帖子url,从帖子页面代码中取种子下载地址(通过正则表达式或第三方页面解析库) 5.访问种子页面下载种子 复制代码 代码如下:import urllibimport urllib2import cookielibimport reimport sysimport ...
爬虫通过“DNS解析” 将读到的URL转换为网站服务器的IP地址; 爬虫将网站服务器的IP地址、通信端口、网页路径等信息交给“网页下载” 器; “网页下载”器负责从“互联网”上下载网页内容; 对于已经...
2、新增“网页_是否为网页”判断地址是否为URL路径。 3、删除“窗口_取进程路径”命令,与窗口_句柄取进程路径() 功能相同。 4、删除“线程_强制结束”命令,与 线程_销毁() 功能相同。 5、修改“窗口_热键注册”...
2、改进“系统_取MAC地址”命令,感谢会员 Mr.Yang 的源码 3、改进“ 网页_取Cookie”等命令的描述歧义,感谢会员 imdong 的提醒 1、修复“时间_取中国星期几”命令无效的BUG,感谢会员 易難為易 的建议 2、修复...
根据基本表结构及其数据生成 INSERT ... 的 SQL 简便的MS SQL 数据库 表内容 脚本 生成器 将表数据生成SQL脚本的存储过程 直接从SQL语句问题贴子数据建表并生成建表语句的存储过程 从SQL中的一个表中导出HTML文件...
Java实现HTTP连接与浏览,Java源码下载,输入html文件地址或网址,显示页面和HTML源文件,一步步的实现过程请下载本实例的Java源码,代码中包括丰富的注释,对学习有帮助。 Java实现的FTP连接与数据浏览程序 1个...
6.右边窗口停止抓包后显示十六进制数 hyperlink 自绘CStatic,实现超链接。 iconbutton_demo 演示了多种自绘Button。 IDocHostUIHandler Extended CHtmlView 如题。 IM_毕业设计 聊天系统,操作了数据库,有...
Java实现HTTP连接与浏览,Java源码下载,输入html文件地址或网址,显示页面和HTML源文件,一步步的实现过程请下载本实例的Java源码,代码中包括丰富的注释,对学习有帮助。 Java实现的FTP连接与数据浏览程序 1个...