中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » 批处理怎样对庞大的【手机号码归属地数据】进行筛选?
« [1] [2] »
作者:
标题: 批处理怎样对庞大的【手机号码归属地数据】进行筛选? 上一主题 | 下一主题
jack1505
新手上路





积分 7
发帖 7
注册 2010-5-5
状态 离线
『楼 主』:  批处理怎样对庞大的【手机号码归属地数据】进行筛选?

数据下载
http://www.rayfile.com/files/bd8 ... -98b5-0015c55db73d/

说明:
1.第一个原始数据文件data.txt内含有20万条数据(中间以tab分隔),文件大小超过8MB
2.第二个quhao.txt文件有300多条数据(中间以空格分隔),文件大小不到5KB

=========================================================================
1.原始数据
手上有一个比较详尽的手机号码归属地数据文件data.txt,格式如下(中间以tab分隔):
1534960 宁夏银川 电信CDMA卡
1534961 宁夏银川 电信CDMA卡
1534967 宁夏银川 电信CDMA卡
1534968 宁夏银川 电信CDMA卡
1534969 宁夏银川 电信CDMA卡
1534970 青海西宁 电信CDMA卡
1534971 青海西宁 电信CDMA卡
1534972 青海西宁 电信CDMA卡
1534973 青海西宁 电信CDMA卡
1534974 青海西宁 电信CDMA卡
1534975 青海海东 电信CDMA卡
1534976 青海海东 电信CDMA卡
1534977 青海海西 电信CDMA卡
1534978 青海共和 电信CDMA卡
1534979 青海格尔木 电信CDMA卡
1534985 安徽巢湖 电信CDMA卡
1534986 安徽六安 电信CDMA卡
1534987 安徽六安 电信CDMA卡
多数为三段(多数号码是连续的,前后仅相差1,但部分号码不是连续的)

1566023 广东佛山 联通 GSM卡
1864353 吉林通化 联通WCDMA 3G卡
1881943 广东广州 移动TD-SCDMA 3G卡
1892413 广东广州 电信天翼  3G卡
部分数据为四段数据

2.数据精简
预将上述数据中,归属地相同的连续号码,精简为号段形式,并删掉手机卡类型,输出格式如下:
1534960 宁夏银川
1534962 未知
1534967 宁夏银川
1534970 青海西宁
1534975 青海海东
1534977 青海海西
1534978 青海共和
1534979 青海格尔木
1534980 未知
1534985 安徽巢湖
1534986 安徽六安

精简的目的就是极大地减小数据量,仅表示该号段第一个号码,所有大于第一个号码的均视为同一个归属地
解释为:1534960~1534961 宁夏银川,1534962~1534966 未知,1534967~1534969 宁夏银川,1534970~1534974 青海西宁……

data.txt中多数号码是连续的,前后仅相差1
但部分不是连续的号码,应增加一行内容为“最后一个连续号码+1 空格 未知”,见增加的蓝色内容

如:1534961、1534963、1534967不是连续的,因此应增加“1534961+1 空格 未知”,即“1534962 未知
       若不加“1534962 未知”,则会误认为1534962与1534961归属相同




3.更改归属地名称为区号代码
另有一个quhao.txt文件,格式如下(中间以空格分隔):
111 未知
564 安徽六安
565 安徽巢湖
951 宁夏银川
971 青海西宁
972 青海海东
977 青海海西
979 青海格尔木

将刚才第二步精简后的数据中,参考quhao.txt,将对应的归属地名称改为区号代码,最终输出格式如下(中间以空格分隔):
1534960 951
1534962 111
1534967 951
1534970 971
1534975 972
1534977 977
1534978
1534979 979
1534980 111
1534985 565
1534986 564

因quhao.txt中没有1534978对应的“青海共和”,所以后面为空(便于今后补充)


4.结果输出
如果最后结果文件大小不到5KB,显然把所有归属相同的都精简了,每个地区只剩一个号段了
最终结果文件大小应该超过600KB才合理

结果应该是这种格式(从小到大排列):
1300000 10
1300001 519
1300002 565
1300003 111
1300006 25
1300007 111
1300008 27
1300009 111
1300010 10
1300012 22
1300015 533
1300016 535
1300017 531
1300018 22
1300020 21
1300025 25
1300027 535
1300028 25
1300033 510
1300040 20
1300045 10
=========================================================================
再次先谢过各位高手了!
此贴在批处理之家也讨论过

[ Last edited by jack1505 on 2010-5-6 at 22:52 ]

2010-5-6 11:33
查看资料  发短消息 网志   编辑帖子  回复  引用回复
qinchun36
高级用户

据说是李先生


积分 609
发帖 400
注册 2008-4-23
状态 离线
『第 2 楼』:  

1300000        北京        联通如意通卡
1300001        江苏常州        联通如意通卡
1300002        安徽巢湖        联通如意通卡
1300006        江苏南京        联通如意通卡
1300008        湖北武汉        联通如意通卡
1300010        北京        联通如意通卡

处理过后就变成下面这个样子?

1300000 10
1300001 519
1300006 25
1300010 10

1300002 ,1300008 跑哪儿去了?

是不是从这个结果数据可以得知 1300002 ~ 1300005 都是 江苏常州 的号?

你自己说的就有问题。

2010-5-6 14:23
查看资料  发送邮件  发短消息 网志  OICQ (182484135)  编辑帖子  回复  引用回复
jack1505
新手上路





积分 7
发帖 7
注册 2010-5-5
状态 离线
『第 3 楼』:  



  Quote:
Originally posted by qinchun36 at 2010-5-6 14:23:
1300000        北京        联通如意通卡
1300001        江苏常州        联通如意通卡
1300002        安徽巢湖        联通如意通卡
1300006        江苏南京        联通如意通卡
1300008        湖北武汉        联通如意通卡 ...

请看我一楼帖子中的第2条、第3条说明
我举的例子是老数据中的,现在1楼已经更新了

[ Last edited by jack1505 on 2010-5-6 at 14:50 ]

2010-5-6 14:46
查看资料  发短消息 网志   编辑帖子  回复  引用回复
qinchun36
高级用户

据说是李先生


积分 609
发帖 400
注册 2008-4-23
状态 离线
『第 4 楼』:  

总共有5个参数,前两个说明:

skipUnknown 控制当 【quhao.txt中没有1534978对应的“青海共和”】的处理,true 表示后面为空,false表示后面是 “青海共和”。

rawcode 就是你说的那个 111。
其他的一看就知道意思了。

保存为 .js 运行。
var skipUnknown = false;
var rawcode     = "111";
var quhaoFile   = "quhao.txt";
var dataFile    = "data.txt";
var resultFile  = "newData.txt";

var fso=new ActiveXObject("Scripting.FileSystemObject");
var f,quhao=[];
f=fso.OpenTextFile(quhaoFile,1,false,false);
do{var line=(f.ReadLine()).split(" ");
var map=line[1].split("/");
for(var i in map)quhao[map[i]]=line[0];
}while(!f.AtEndOfStream);f.Close();
f=fso.OpenTextFile(dataFile,1,false,true);
var lines=[];do lines.push(f.ReadLine());
while(!f.AtEndOfStream);f.Close();lines.sort();
f=fso.CreateTextFile(resultFile,true,false);
var last=[0,"",false];
for(var i=0;i<lines.length;i++){
var isSkip=false,isBlink=false,line=lines[i].split("\t");
tempArr=[line[0]*1,quhao[line[1]]==undefined?(skipUnknown?"":line[1]):quhao[line[1]]];
if(tempArr[0]>(last[0]+1)&&i)
f.WriteLine(last[0]+1+" "+rawcode);
if(!(tempArr[1]==last[1]&&tempArr[0]==last[0]+1))
f.WriteLine(tempArr[0]+" "+tempArr[1]);
last=[tempArr[0],tempArr[1],isSkip];
}f.Close();
WScript.Echo(fso.GetFile(resultFile).Path);


2010-5-6 17:08
查看资料  发送邮件  发短消息 网志  OICQ (182484135)  编辑帖子  回复  引用回复
jack1505
新手上路





积分 7
发帖 7
注册 2010-5-5
状态 离线
『第 5 楼』:  

谢谢qinchun36,js好复杂啊,看晕了,呵呵

运行后newData.txt结果为
NaN undefined

2010-5-6 18:23
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 6 楼』:  

...可以不要这么小气,弄这么小的字体么,眼好花的.




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-6 19:02
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 7 楼』:  

我刚好也是有一个3十几万条数据的IP数据库要处理.
处理过后是希望,省份放在一个字段,城市放另一个字段.




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-6 19:08
查看资料  发短消息 网志   编辑帖子  回复  引用回复
freeants001
中级用户




积分 330
发帖 244
注册 2006-4-14
来自 湖北
状态 离线
『第 8 楼』:  

试着写了个批脚本;)
@echo off&SETLOCAL ENABLEDELAYEDEXPANSION
set data=data.txt
set quhao=quhao.txt
set dstFile=result.txt
set a=1300000
set b=北京
for /f "tokens=1,2" %%i in (%quhao%) do set %%j=%%i
call echo.1300000        %北京%>%dstFile%
for /f "tokens=1,2" %%m in (%data%) do (
    if "%%n" equ "!b!" (
        set a=%%m
    ) else (
        set/a a=!a!+1
        if "!a!" neq "%%m" call echo.!a!        %%未知%%>>%dstFile%
        set a=%%m
        set b=%%n
        call echo.!a!        %%!b!%%>>%dstFile%
    )
)
start %dstFile%


2010-5-6 19:18
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
freeants001
中级用户




积分 330
发帖 244
注册 2006-4-14
来自 湖北
状态 离线
『第 9 楼』:  

测试通过,我的老爷机用时7分多~~

稍微修改一下,免得以为处现死循环
@echo off&SETLOCAL ENABLEDELAYEDEXPANSION
set data=data.txt
set quhao=quhao.txt
set dstFile=result.txt
set a=1300000
set b=北京
for /f "tokens=1,2" %%i in (%quhao%) do set %%j=%%i
call echo.1300000        %北京%>%dstFile%
for /f "tokens=1,2" %%m in (%data%) do (
    set/a line+=1&echo.正在处理第 !line!/202605 行:%%m %%n
    if "%%n" equ "!b!" (
        set a=%%m
    ) else (
        set/a a=!a!+1
        if "!a!" neq "%%m" call echo.!a!        %%未知%%>>%dstFile%
        set a=%%m
        set b=%%n
        call echo.!a!        %%!b!%%>>%dstFile%
    )
)
start %dstFile%
[ Last edited by freeants001 on 2010-5-6 at 19:55 ]

2010-5-6 19:47
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
qinchun36
高级用户

据说是李先生


积分 609
发帖 400
注册 2008-4-23
状态 离线
『第 10 楼』:  

估计是你机器的问题。
这个是我用马甲在bathome下载的附件和处理的结果,有兴趣的可以下载下来试着看运行是否会出错,以证实不是脚本的问题,那个代码是我在上班的地方机器上运行的,现在回来运行了一次同样出结果:

https://dl.dropbox.com/u/3395833 ... d-7847-4-1.done.zip

2010-5-6 23:03
查看资料  发送邮件  发短消息 网志  OICQ (182484135)  编辑帖子  回复  引用回复
freeants001
中级用户




积分 330
发帖 244
注册 2006-4-14
来自 湖北
状态 离线
『第 11 楼』:  

4楼的代码没问题,不过楼主说的也没错,因为楼主1楼链接提供的文件为ASSIC文件,而qinchun36测试时使用的文件为格式为Unicode,嘿

2010-5-6 23:47
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
jack1505
新手上路





积分 7
发帖 7
注册 2010-5-5
状态 离线
『第 12 楼』:  

回复qinchun36:

我找到原因了,是我为了批处理能识别,把文本专程ANSI格式了,所以不行
换成Unicode就没问题了!
非常感谢!

另外问一下此脚本能前台显示吗?一运行都在后台,刚开始还以为没运行成功呢

2010-5-6 23:53
查看资料  发短消息 网志   编辑帖子  回复  引用回复
jack1505
新手上路





积分 7
发帖 7
注册 2010-5-5
状态 离线
『第 13 楼』:  

回复freeants001:

你的代码也完全能出正确结果,只是速度慢很多
但不知道为什么最终结果和qinchun36的有些区别?

qinchun36的结果50472行
你的结果50520行

2010-5-6 23:57
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 14 楼』:  

-_-我用批处理三十万几记录,22M文件。感觉差不多半小时左右。比我的好多了。

呵呵。




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-7 00:09
查看资料  发短消息 网志   编辑帖子  回复  引用回复
freeants001
中级用户




积分 330
发帖 244
注册 2006-4-14
来自 湖北
状态 离线
『第 15 楼』:  



  Quote:
Originally posted by jack1505 at 2010-5-6 23:57:
回复freeants001:

你的代码也完全能出正确结果,只是速度慢很多
但不知道为什么最终结果和qinchun36的有些区别?

qinchun36的结果50472行
你的结果50520行

因为测试之前Ansic data.txt(1楼)和Unicode data 文件有区别

速度P一般是要慢一些

2010-5-7 00:11
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
« [1] [2] »
请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: