中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » [求助]如果将文件中相同的部分替换掉?
« [1] [2] »
作者:
标题: [求助]如果将文件中相同的部分替换掉? 上一主题 | 下一主题
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 16 楼』:  



  Quote:
Originally posted by zh159 at 2007-12-6 12:19 AM:
估计是要处理成这样:

是的,希望处理成类似那样的格式。



探讨批量下载与智能化的下载
2007-12-6 09:09
查看资料  发短消息 网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 17 楼』:  



  Quote:
Originally posted by junchen2 at 2007-12-6 01:08 AM:
awk "NF>0{sub(/省    市/,\",\");sub(/房  型:/,\",\");sub(/万元\/套/,\",\");sub(/备  注:/,\",\");sub(/房  龄:/,\",\") ...

谢谢,

只是你这个也是先识别出来之后,在写语句来实现替换得到最终格式的。

我现在的问题是如何自动的识别出来。比如识别出“省    市”是一个每行都重复的词。



探讨批量下载与智能化的下载
2007-12-6 09:15
查看资料  发短消息 网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 18 楼』:  



  Quote:
Originally posted by lxmxn at 2007-12-6 01:02 AM:
重复的部分是不是固定格式的?

如果不是固定的,你的意思是不是要让程序来找到这些重复的部分,然后替换成(,)?

是的,就是想要让程序来找出这些重复的部分,比如找出“省  市”、“物业名称”……



探讨批量下载与智能化的下载
2007-12-6 09:25
查看资料  发短消息 网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 19 楼』:  



  Quote:
Originally posted by everest79 at 2007-12-6 02:43 AM:

静态的html,你在导入任一页的WEB数据时只需要先将那个查询保存下来,本来就是文本格式,查询内容除了web地址有变化外其它是一样的,这样你可以 ...

查询结果是由部分信息,我需要的是全部信息,所以:
1,先抓取查询结果网页,
2,然后提取出其中的详细情况的URL列表,
3,依次下载每一个详细情况的网页,(每一个都类似http://www.fangduo.com/listsell.asp?id=33664
4,目前的问题点:怎么有效的提取每个详细情况网页中的这些信息?



探讨批量下载与智能化的下载
2007-12-6 10:18
查看资料  发短消息 网志   编辑帖子  回复  引用回复
lxmxn
版主




积分 11386
发帖 4938
注册 2006-7-23
状态 离线
『第 20 楼』:  



  Quote:
Originally posted by honghunter at 2007-12-6 09:25:
是的,就是想要让程序来找出这些重复的部分,比如找出“省  市”、“物业名称”……

你这样的要求有点像是人工智能哈。

看看下面被标记的部分,是不是也要剔除呢?如果也要剔除,那也好办了。

  Quote:
上海华泾新村二手房出售(地址:徐汇区华泾路880弄1楼)详情####房产编号: F52532828##省    市:  上海  物业名称:  华泾新村##所在区县:  徐汇  物业地址:  徐汇区华泾路880弄1楼##房  型:  2室1厅1卫  房  龄:  年##产权说明:  个人产权  业主报价:  55 万元/套##建筑面积:  57.2平方米  使用面积:  平方米##面积说明:  ##房屋朝向:  南  所在楼层:  1层(共6层)##物业类型:  普通住宅  物业费用:  元/平方米·月##装修情况:  简装修##周边设施:  ##交通说明:  770,718,714,804等##中介服务:  ##看房时间:  提前联系##登记日期:  2007-12-3  有效期:  不限##备  注:  赠送维修基金,煤气等设备####>>>联系方式  ( 好年华上中西路店 )##联 系 人:  请恰值班人员##联系电话:  54816012 54816013##手机:  ##QQ:  ##email:  ##



2007-12-6 19:21
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
honghunter
中级用户





积分 321
发帖 135
注册 2007-2-4
状态 离线
『第 21 楼』:  

不是提出同一行中重复的部分,是要找出不同行中重复的部分。



探讨批量下载与智能化的下载
2007-12-6 20:24
查看资料  发短消息 网志   编辑帖子  回复  引用回复
« [1] [2] »
请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: