中国DOS联盟论坛

中国DOS联盟

-- 联合DOS 推动DOS 发展DOS --

联盟域名:www.cn-dos.net  论坛域名:www.cn-dos.net/forum
DOS,代表着自由开放与发展,我们努力起来,学习FreeDOS和Linux的自由开放与GNU精神,共同创造和发展美好的自由与GNU GPL世界吧!

游客:  注册 | 登录 | 命令行 | 会员 | 搜索 | 上传 | 帮助 »
中国DOS联盟论坛 » DOS批处理 & 脚本技术(批处理室) » 处理IP数据库(三十万条记录)
« [1] [2] »
作者:
标题: 处理IP数据库(三十万条记录) 上一主题 | 下一主题
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 16 楼』:  

靠,不规则的数据信息真难处理,吐血了

本来以为可行代码,运行完之后看结果有一些信息处理不到,又从头改代码从头处理。




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-9 01:46
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 17 楼』:  



  Quote:
Originally posted by terse at 2010-5-8 22:47:
用findstr /rivg:国家列表.txt 原始ip.txt>tem_ip
这个速度并不理想
换个思路
把省市列表和直辖市合并为 HB.txt
findstr /rig:HB.txt 原始IP.txt>temp_ip.txt
这个速度明显提高了

自从用上了FR.EXE很少考虑这样处理文本.




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-9 02:37
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 18 楼』:  

先反馈一下信息,我已经在批处理使用FR.exe,完成了本次37万条记录的纯真IP数据的处理,
嘿嘿,至少可以说明FR.EXE在-RIC单行正则匹配模式下可以经受30多万条信息的处理.




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-9 02:45
查看资料  发短消息 网志   编辑帖子  回复  引用回复
terse
银牌会员





积分 2404
发帖 946
注册 2005-9-8
状态 离线
『第 19 楼』:  



  Quote:
Originally posted by yishanju at 2010-5-9 02:37:


自从用上了FR.EXE很少考虑这样处理文本.

和yishanju兄10楼的代码比 时间上有优势吧
@echo off
findstr /rivg:国家列表.txt 原始IP.txt>tem_ip
pause
处理的结果不是很满意
@echo off
findstr /rivg:国家列表.txt 原始IP.txt>tem_ip
for /f "delims=" %%i in (直辖市.txt) do set %%i=%%i
(for /f "usebackq tokens=1-3" %%a in ("tem_ip") do (
    for /f "tokens=1-2 delims=省市" %%i in ("%%c") do (
        if not defined %%i (
        if "%%j" neq "" (echo %%i %%j %%a %%b)else echo %%i - %%a %%b
      ) else (
        echo %%i %%i %%a %%b
    )
  )
))>ipa.txt
pause
[ Last edited by terse on 2010-5-9 at 11:39 ]



简单!简单!再简单!
2010-5-9 11:21
查看资料  发送邮件  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 20 楼』:  

很好,速度很快




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-9 12:20
查看资料  发短消息 网志   编辑帖子  回复  引用回复
523066680
银牌会员

SuperCleaner


积分 2362
发帖 1133
注册 2008-2-2
状态 离线
『第 21 楼』:  

依山居也是猛男一个……



综合型编程论坛

我的作品索引
  
2010-5-9 17:20
查看资料  发送邮件  访问主页  发短消息 网志  OICQ (523066680)  编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 22 楼』:  

原来还想用PYTHON 处理的,不过水平相当之菜,烦躁之下还是直接用FR折腾出来了
处理出来的结果比terse的代码效果要好一点,使用FR正则匹配,对输出的结果比较放心,虽然比较慢。

嘿,其实人家MM来着,不是男滴。




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-9 17:38
查看资料  发短消息 网志   编辑帖子  回复  引用回复
HAT
版主





积分 9023
发帖 5017
注册 2007-5-31
状态 离线
『第 23 楼』:  Re 22 楼

美女,这种问题可能Perl效率会更高,要不找到Perl版块问问?



2010-5-9 19:05
查看资料  发短消息 网志   编辑帖子  回复  引用回复
523066680
银牌会员

SuperCleaner


积分 2362
发帖 1133
注册 2008-2-2
状态 离线
『第 24 楼』:  

我知道依山居百博的头像是个美女,但是lxmxn老大很明确的告诉我
依山居是男的! 所以我就再也没去美女头像的空间了…………

vbs处理行不行……   接过一次文本处理任务,也是挺多信息的,
里面也是有IP 地址。。。

当时有一些不对头的信息,我继续导入最终文档,另外在屏幕上显示
可能需要人工处理的行为:XXX...

像这样

  Quote:
需要留意的编号: 2480788 位于第 89 行,请核查各项信息
需要留意的编号: 2480845 位于第 90 行,请核查各项信息
需要留意的编号: 2480263 位于第 745 行,请核查各项信息
需要留意的编号: 2481192 位于第 2167 行,请核查各项信息
需要留意的编号: 2481303 位于第 2259 行,请核查各项信息
共 2308 个信息, 以上列出的需人工修改的信息量是: 5

话说信息量远远没有这个多……

[ Last edited by 523066680 on 2010-5-9 at 19:16 ]



综合型编程论坛

我的作品索引
  
2010-5-9 19:13
查看资料  发送邮件  访问主页  发短消息 网志  OICQ (523066680)  编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 25 楼』:  

在学PYTHON呢,进步好慢,没有时间学PERL。
好几年没学到新东西了,弄得现在工作好难找。

[ Last edited by yishanju on 2010-5-9 at 22:49 ]




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-9 22:45
查看资料  发短消息 网志   编辑帖子  回复  引用回复
523066680
银牌会员

SuperCleaner


积分 2362
发帖 1133
注册 2008-2-2
状态 离线
『第 26 楼』:  

学perl,  python 之类的能当做技能来找工作么? 那我也去学学。



综合型编程论坛

我的作品索引
  
2010-5-10 09:29
查看资料  发送邮件  访问主页  发短消息 网志  OICQ (523066680)  编辑帖子  回复  引用回复
chy505908440
初级用户

小鸟鸟



积分 120
发帖 74
注册 2010-5-8
来自 河北
状态 离线
『第 27 楼』:  

来过

2010-5-10 11:17
查看资料  发送邮件  访问主页  发短消息 网志  OICQ (505908440)  编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 28 楼』:  

python 慢慢火起来的过程当中,python程序员缺人呢




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-10 11:38
查看资料  发短消息 网志   编辑帖子  回复  引用回复
yishanju
银牌会员

[b]看你妹啊[/b]


积分 1488
发帖 1357
注册 2006-5-20
状态 离线
『第 29 楼』:  

IP数据库经过处理得到想要的结果后,怎么样进行精简呢?
也就是把同一个地方并且连接的IP地址合并到一条中。




有问题请发论坛或者自行搜索,再短消息问我的统统是SB
2010-5-10 13:00
查看资料  发短消息 网志   编辑帖子  回复  引用回复
« [1] [2] »
请注意:您目前尚未注册或登录,请您注册登录以使用论坛的各项功能,例如发表和回复帖子等。


可打印版本 | 推荐给朋友 | 订阅主题 | 收藏主题



论坛跳转: