塞爱维战报下载器 - CivClub Report Crawler
最新版本: 0.2
本程序设计目标为保存塞爱维文明联盟论坛上的战报, 主要功能目前是根据战报地址自动生成相应的html文件, 以便于保存到本地, 可过滤战报作者以外用户的帖子, 支持白名单.
python2.5.2 + lxml2.2写成, 完全绿色
使用方法:
将下载地址保存到download.lst, 执行主程序ccr_crawler.exe即可; 或者通过命令行参数将下载地址传递给ccr_crawler.
注: 使用任意一个主流浏览器打开本程序生成的html文件, 执行另存为, 保存类型选择全部, 即可将战报真正的保存到本地.
下载页面:
http://code.google.com/p/civ4xml/downloads/list
如果已安装Python和lxml, 可直接下载源代码, 跨平台支持
源代码下载链接:
http://civ4xml.googlecode.com/files/ccrcrawler-src-0.2.zip
否则只支持windows, 下载windows执行程序.
windows执行程序下载链接:
http://civ4xml.googlecode.com/files/ccrcrawler-win-0.2.zip
以下是0.1.0.1的用法, 0.2的用法参见usage.bat, 详细说明以后补全
配置简介:
[option]
use_whitelist: 是否使用白名单, 如果使用, 则只下载白名单内用户的帖子, 楼主永远在白名单内.
hide_username: 生成的html文件只包括用户的发言而不包括其id
hide_unique_username: 如果使用白名单,但白名单设定为空, 则生成的html文件只包括用户的发言而不包括其id
[account]
由于战报区并不公开, 而且即使在主区有的帖子包含的图片需登录才能看到, 所以要下载到完整的战报, 有时需要提供用户名和密码.
questionid, answer和登录界面中安全提问,回答对应.
如果username为空, 则下载生成的文件等价于游客浏览的结果.
[codepage][whitelist]
修改此配置文件保存时, 如果whitelist中含有中文, 请务必保证保存时的编码也[codepage]conf相同. 一般来说大家用的是gb2312, gbk向下兼容gb2312.
其它: 一行的开头使用#, 将注释掉此行.
配置文件示例- [codepage]
- conf=gbk
- [option]
- use_whitelist=False
- hide_unique_username=True
- hide_username=False
- [whitelist]
- #1=乌有先生
- [account]
- username=
- password=
- questionid=0
- answer=
- [url]
- login_url=http://www.civclub.net/bbs/logging.php?action=login&
- base_url=http://www.civclub.net/bbs/
- [output]
- template_filename=civclub
- [keyword]
- div_page=p_bar
- a_pages=p_pages
- a_redirect=p_redirect
- td_user=t_user
- a_user=bold
- div_msg=t_msgfont
- div_msg_id=id
- div_msg_id_starts=message
复制代码 附件是使用本程序下载的Sukadi的经典战报
[ 本帖最后由 Khyron 于 2010-1-25 20:43 编辑 ] |