设为首页收藏本站

塞爱维(CIV)文明联盟

 找回密码
 注册
查看: 13844|回复: 44

[原创] 塞爱维战报下载器 - CivClub Report Crawler

[复制链接]
发表于 2009-7-26 20:31:53 | 显示全部楼层 |阅读模式
塞爱维战报下载器 - CivClub Report Crawler

最新版本: 0.2

本程序设计目标为保存塞爱维文明联盟论坛上的战报, 主要功能目前是根据战报地址自动生成相应的html文件, 以便于保存到本地, 可过滤战报作者以外用户的帖子, 支持白名单.
python2.5.2 + lxml2.2写成, 完全绿色

使用方法:
将下载地址保存到download.lst, 执行主程序ccr_crawler.exe即可; 或者通过命令行参数将下载地址传递给ccr_crawler.

注: 使用任意一个主流浏览器打开本程序生成的html文件, 执行另存为, 保存类型选择全部, 即可将战报真正的保存到本地.

下载页面:
http://code.google.com/p/civ4xml/downloads/list

如果已安装Python和lxml, 可直接下载源代码, 跨平台支持
源代码下载链接:
http://civ4xml.googlecode.com/files/ccrcrawler-src-0.2.zip

否则只支持windows, 下载windows执行程序.
windows执行程序下载链接:
http://civ4xml.googlecode.com/files/ccrcrawler-win-0.2.zip

以下是0.1.0.1的用法, 0.2的用法参见usage.bat, 详细说明以后补全
配置简介:
[option]
use_whitelist: 是否使用白名单, 如果使用, 则只下载白名单内用户的帖子, 楼主永远在白名单内.
hide_username: 生成的html文件只包括用户的发言而不包括其id
hide_unique_username: 如果使用白名单,但白名单设定为空, 则生成的html文件只包括用户的发言而不包括其id

[account]
由于战报区并不公开, 而且即使在主区有的帖子包含的图片需登录才能看到, 所以要下载到完整的战报, 有时需要提供用户名和密码.
questionid, answer和登录界面中安全提问,回答对应.
如果username为空, 则下载生成的文件等价于游客浏览的结果.

[codepage][whitelist]
修改此配置文件保存时, 如果whitelist中含有中文, 请务必保证保存时的编码也[codepage]conf相同. 一般来说大家用的是gb2312, gbk向下兼容gb2312.

其它: 一行的开头使用#, 将注释掉此行.

配置文件示例
  1. [codepage]
  2. conf=gbk

  3. [option]
  4. use_whitelist=False
  5. hide_unique_username=True
  6. hide_username=False

  7. [whitelist]
  8. #1=乌有先生

  9. [account]
  10. username=
  11. password=
  12. questionid=0
  13. answer=

  14. [url]
  15. login_url=http://www.civclub.net/bbs/logging.php?action=login&
  16. base_url=http://www.civclub.net/bbs/

  17. [output]
  18. template_filename=civclub

  19. [keyword]
  20. div_page=p_bar
  21. a_pages=p_pages
  22. a_redirect=p_redirect
  23. td_user=t_user
  24. a_user=bold
  25. div_msg=t_msgfont
  26. div_msg_id=id
  27. div_msg_id_starts=message
复制代码
附件是使用本程序下载的Sukadi的经典战报

[ 本帖最后由 Khyron 于 2010-1-25 20:43 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2009-7-26 20:34:59 | 显示全部楼层
不错呀 不过怎么这么小,是不是断网了就不能看啦?
发表于 2009-7-26 20:44:08 | 显示全部楼层
图多杀猫
同二楼问
 楼主| 发表于 2009-7-26 21:41:47 | 显示全部楼层
前面不是说了吗.
随便用个浏览器打开那个html文件, 执行另存为, 选择全部, 就可以真正保存到本地了.

这步也可以交给爬虫干, 不过没必要, 现在的浏览器哪个不能胜任这步?

Sukadi的那篇战报算上图片大概有23M.

[ 本帖最后由 Khyron 于 2009-7-26 21:44 编辑 ]
发表于 2009-7-26 21:54:10 | 显示全部楼层
这是好东西啊~
发表于 2009-7-26 22:00:55 | 显示全部楼层
试过了,好东西
发表于 2009-7-26 23:06:54 | 显示全部楼层
这下战报整编工作更容易了。
发表于 2009-7-26 23:14:11 | 显示全部楼层
好东西支持~
发表于 2009-7-27 09:37:19 | 显示全部楼层

回复 #1 Khyron 的帖子

牛,赞
发表于 2009-7-27 09:38:46 | 显示全部楼层
有源程序吗?开源吗?
发表于 2009-7-27 11:04:23 | 显示全部楼层
牛物......
发表于 2009-7-27 11:15:21 | 显示全部楼层
太棒了!快让它多多地爬吧!
发表于 2009-7-27 12:14:39 | 显示全部楼层
太棒了 这下所有精华可以整合了
发表于 2009-7-27 12:20:45 | 显示全部楼层
另存为之后还是有些图片没有保存下来。。
发表于 2009-7-27 12:35:06 | 显示全部楼层

回复 #14 maya_axe 的帖子

那些事本来就已经丢失的
 楼主| 发表于 2009-7-27 16:03:25 | 显示全部楼层
既然没什么反对意见, 就放出来.
发表于 2009-7-27 16:11:00 | 显示全部楼层

回复 #16 Khyron 的帖子

祝贺祝贺
发表于 2009-7-27 16:23:59 | 显示全部楼层
好东西,感谢!
发表于 2009-7-27 17:05:41 | 显示全部楼层
要在白名单里添加多个ID应该怎么写?
发表于 2009-7-27 17:13:32 | 显示全部楼层

回复 #19 INTheEnd 的帖子

分几行写.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|塞爱维(CIV)文明联盟    

GMT+8, 2024-4-28 02:46

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表