|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
『楼 主』:
[求助]如果将文件中相同的部分替换掉?
我要处理的文件内容如下,
希望能将其中每行上面相同的部分替换成“,”,从而生成一个csv文件。
上海华泾新村二手房出售(地址:徐汇区华泾路880弄1楼)详情####房产编号: F52532828##省 市: 上海 物业名称: 华泾新村##所在区县: 徐汇 物业地址: 徐汇区华泾路880弄1楼##房 型: 2室1厅1卫 房 龄: 年##产权说明: 个人产权 业主报价: 55 万元/套##建筑面积: 57.2平方米 使用面积: 平方米##面积说明: ##房屋朝向: 南 所在楼层: 1层(共6层)##物业类型: 普通住宅 物业费用: 元/平方米·月##装修情况: 简装修##周边设施: ##交通说明: 770,718,714,804等##中介服务: ##看房时间: 提前联系##登记日期: 2007-12-3 有效期: 不限##备 注: 赠送维修基金,煤气等设备####>>>联系方式 ( 好年华上中西路店 )##联 系 人: 请恰值班人员##联系电话: 54816012 54816013##手机: ##QQ: ##email: ## 我现在的做法是人工分析出相同的部分,然后通过类似下面的批处理来完成替换:
fr data.txt -f:"##网上房地产-上海二手房:上海" -t:"##上海"
sleep 2s
fr data.txt -f:"出售详情####>>>" -t:","
sleep 2s
fr data.txt -f:"(出售)详情: 房产编号:" -t:","
sleep 2s
fr data.txt -f:"##省 市:" -t:","
sleep 2s
fr data.txt -f:"物业名称: " -t:","
sleep 2s
fr data.txt -f:"##所在区县:" -t:","
sleep 2s
fr data.txt -f:"物业地址:" -t:","
sleep 2s
|
探讨批量下载与智能化的下载 |
|
2007-12-5 14:27 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
『第
2 楼』:
我的期望是能自动识别出每行中相同的部分,比如我上面写到的“出售详情####>>>”、"(出售)详情: 房产编号:"等等。
|
探讨批量下载与智能化的下载 |
|
2007-12-5 14:29 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
|
2007-12-5 14:30 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
『第
4 楼』:
说一下背景。
我从\fangduo.com下载房屋的详情网页,转成TXT,得到:
上海华泾新村二手房出售(地址:徐汇区华泾路880弄1楼)详情
房产编号: F52532828
省 市: 上海 物业名称: 华泾新村
所在区县: 徐汇 物业地址: 徐汇区华泾路880弄1楼
房 型: 2室1厅1卫 房 龄: 年
产权说明: 个人产权 业主报价: 55 万元/套
建筑面积: 57.2平方米 使用面积: 平方米
面积说明:
房屋朝向: 南 所在楼层: 1层(共6层)
物业类型: 普通住宅 物业费用: 元/平方米·月
装修情况: 简装修
周边设施:
交通说明: 770,718,714,804等
中介服务:
看房时间: 提前联系
登记日期: 2007-12-3 有效期: 不限
备 注: 赠送维修基金,煤气等设备
>>>联系方式 ( 好年华上中西路店 )
联 系 人: 请恰值班人员
联系电话: 54816012 54816013
手机:
QQ:
email: 然后希望能提取其中各项信息来生成CSV文件。
目前的做法是我先把它转成一个长字符串,手工整理出其中重复的部分。然后进行替换。比如
fr data.txt -f:"出售详情####>>>" -t:","
最后得到CSV文件。
现在就是觉得这样的手工整理其中重复的部分是在太累了,研究用怎么样的思路可以写小程序来达到自动分析和提取的效果。
|
探讨批量下载与智能化的下载 |
|
2007-12-5 15:59 |
|
|
lxmxn
版主
积分 11386
发帖 4938
注册 2006-7-23
状态 离线
|
『第
5 楼』:
看了半天,看得一头雾水,到底要达到什么样的要求?你所说的“重复”是什么意思?
最好举例说明源文件的格式,然后说明希望得到的文件格式。
另外,fr 是你自己做的脚本么?
|
|
2007-12-5 16:43 |
|
|
huahua0919
银牌会员
积分 1608
发帖 780
注册 2007-10-7
状态 离线
|
|
2007-12-5 19:00 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
『第
7 楼』:
Quote: | Originally posted by lxmxn at 2007-12-5 04:43 PM:
看了半天,看得一头雾水,到底要达到什么样的要求?你所说的“重复”是什么意思?
最好举例说明源文件的格式,然后说明希望得到的文件格式。
另外,fr 是你自己做的脚本么? |
|
不好意思,可能没说明白,我重新说一下:
我现在得到的数据每行都想1楼那样,类似下面这样:
##上海金榜三期二手房出售(地址:沧源路770弄)详情####房产编号: ##省 市: 上海 物业名称: 金榜三期##所在区县: 闵行 物业地址: 沧源路770弄……
##上海林梅新村二手房出售(地址:三林路788弄)详情####房产编号: 64##省 市: 上海 物业名称: 林梅新村##所在区县: 浦东 物业地址: 三林路788弄……
##上海平南一村二手房出售(地址:平南一村)详情####房产编号: F52836384##省 市: 上海 物业名称: 平南一村##所在区县: 闵行 物业地址: 平南一村…… 上面这是3行。
我现在想要做的
1,就是想出一个思路来识别出其中每行重复的内容,也就是首先要能识别出其中的下列信息是重复的(只是“ (*)”部分不同)
##上海(*)二手房出售(地址:(*))详情####房产编号: (*)##省 市: (*) 物业名称: (*)##所在区县: (*) 物业地址: (*)……
2,第二步就是把识别出来的这些重复(相同)的部分,在替换成“,”,把数据文件变成CSV格式文件,以便后续的进一步处理。
|
探讨批量下载与智能化的下载 |
|
2007-12-5 23:01 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
|
2007-12-5 23:05 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
『第
9 楼』:
fr是一个用来查找替换的小工具。
===============================================================================
find and replace Ver 2.0.3.624 by BaiYang / 2004 - 2006, Freeware
===============================================================================
Find string in files or pipe, and replace it to another string
USAGE: fr [filePattern1 filePattern2 ...] {FindOption:StringToFind}
{ReplaceOption:StringToReplacement} [OtherOptions]
附件是希望的处理后的情况
附件
1: data.rar (2007-12-5 23:13, 61.43 K,下载次数: 4)
|
探讨批量下载与智能化的下载 |
|
2007-12-5 23:13 |
|
|
everest79
金牌会员
一叶枝头,万树皆春
积分 2564
发帖 1127
注册 2006-12-25
状态 离线
|
『第
10 楼』:
MS_office 中有专门解决这个的方案
设定execl的源位置为那个网站,剩下的记不清了,采集到后你想存什么格式都行
|
|
2007-12-5 23:22 |
|
|
honghunter
中级用户
积分 321
发帖 135
注册 2007-2-4
状态 离线
|
|
2007-12-5 23:55 |
|
|
zh159
金牌会员
积分 3687
发帖 1467
注册 2005-8-8
状态 离线
|
『第
12 楼』:
估计是要处理成这样:
Quote: | 金榜三期,沧源路770弄, ,,上海,金榜三期,闵行,沧源路770弄……
林梅新村,三林路788弄,64,上海,林梅新村,浦东,三林路788弄……
平南一村,平南一村,F52836384,上海,平南一村,闵行,平南一村…… |
|
|
|
|
2007-12-6 00:19 |
|
|
lxmxn
版主
积分 11386
发帖 4938
注册 2006-7-23
状态 离线
|
『第
13 楼』:
重复的部分是不是固定格式的?
如果不是固定的,你的意思是不是要让程序来找到这些重复的部分,然后替换成(,)?
|
|
2007-12-6 01:02 |
|
|
junchen2
高级用户
积分 537
发帖 219
注册 2007-8-4 来自 杭州--半山
状态 离线
|
『第
14 楼』:
awk "NF>0{sub(/省 市/,\",\");sub(/房 型:/,\",\");sub(/万元\/套/,\",\");sub(/备 注:/,\",\");sub(/房 龄:/,\",\");gsub (/元\/平方米·月/,\",\");gsub(/平方米/,\",\");sub(/>>>联系方式/,\",\");for(i =2;i<=NF;i++){if($i~/#+.*:/)gsub(/#+.*:/,\",\",$i);if($i~/#/)gsub(/#+/,\",\",$i);if($i~/:$/)gsub(/.*:$/,\",\",$i)};gsub(/[ ]+/,\"\");print $0}" dat.txt
上海金榜三期二手房出售(地址:沧源路770弄)详情####房产编号:,上海,金榜三期,闵行,沧
源路770弄,,2室1厅1卫,6年,产权,74,,81.34,,,,,南,1/6,多层住宅,,,豪华,银行,邮电局,
超市,医院,公园,学校,商场,菜场,,中介勿扰,提前联系,2007-12-3,不限,,,,(鼎族房产东川
店),联系,朱庆龙,13681834310,13681834310,464131674,
用gawk工具可能可以,写成这样,真怕挨打:P:P
下面是一个前辈搜集的工具。里面有gawk
http://www.vkill.net/tools.html
[ Last edited by junchen2 on 2007-12-6 at 01:37 AM ]
|
|
2007-12-6 01:08 |
|
|
everest79
金牌会员
一叶枝头,万树皆春
积分 2564
发帖 1127
注册 2006-12-25
状态 离线
|
『第
15 楼』:
Quote: | Originally posted by honghunter at 2007-12-5 11:55 PM:
前面给大家看的待处理的数据,是抓几个网页组合出来的。
我对excel了解有限,但是设置源位置的方式,我好像只成功的抓到一个页面上的信息 ... |
|
静态的html,你在导入任一页的WEB数据时只需要先将那个查询保存下来,本来就是文本格式,查询内容除了web地址有变化外其它是一样的,这样你可以通过脚本或宏来动态引用这个查询,并可以定义在每查询完毕后只按你规定的格式来保留相应表格的数据
|
|
2007-12-6 02:43 |
|
|