设为首页收藏本站

塞爱维(CIV)文明联盟

 找回密码
 注册
查看: 2513|回复: 14

[疑问] 那个战报下载器CCRCRAWLER-WIN-0.2似乎不能用了

[复制链接]
发表于 2012-8-6 16:58:46 | 显示全部楼层 |阅读模式
如题
受这次CC流量临时关站触动,想把自己喜欢的战报和攻略都下载下来
结果今天发现原来用的好好的CCRCRAWLER-WIN-0.2这次不能用了,生成的结果显示“CivClub 原始链接”
伸手党召唤大神来看看原因哟~
是不是论坛改过设置了。。。
发表于 2012-8-6 20:57:50 | 显示全部楼层

回复 1# 的帖子

我建议你使用一个专业的离线下载软件干这活.

不过我可以给出一个解决方案:
下载附件, 这个修正包包含3个文件:
ccr_grabber.py
civclub_report.conf
template.html

首先ccrcrawler自带一个文件叫library.zip, 这就是一个普通的zip文件, 你在其中找到ccr_grabber.pyo, 把它删除, 再把ccr_grabber.py添加那个zip文件中.
然后修改civclub_report.conf这个文件, 将其中[keyword]以下改成
  1. div_page=pages_btns
  2. a_pages=pages
  3. a_redirect=p_redirect
  4. td_user=postauthor
  5. a_user=dropmenu
  6. right_t_number=postinfo
  7. t_msg=
  8. div_msg=t_msgfont
  9. div_msg_id=id
  10. div_msg_id_starts=message
复制代码
或者使用这个修正包中的civclub_report.conf, 覆盖你的原文件, 再调整其中你的选项.

最后修改template.html, 在其中搜索span改成h2即可, 或用修正包中的版本替换原文件.

[ 本帖最后由 zahlen 于 2012-8-8 19:13 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| 发表于 2012-8-7 10:13:32 | 显示全部楼层

回复 2# 的帖子

感谢楼上的回复
我没理解错的话应该是把附件中的civclub_report.conf和template.html替换原文件
删除library.zip中的ccr_grabber.pyo,然后把附件中的ccr_grabber.py添加到library.zip

我按照上述步骤操作之后还是不行,error.log显示:

Traceback (most recent call last):
  File "ccr_crawler.py", line 11, in <module>
  File "ccr_crawler.py", line 8, in main
  File "ccr_core.pyo", line 307, in start
  File "ccr_core.pyo", line 294, in processArgv
  File "ccr_core.pyo", line 178, in grab
  File "D:\ccrcrawler-win-0.2\library.zip\ccr_grabber.py", line 99, in start
  File "D:\ccrcrawler-win-0.2\library.zip\ccr_grabber.py", line 171, in collectThreadInfo
AttributeError: 'NoneType' object has no attribute 'strip'

output.log是:
download queue
http://www.civclub.net/bbs/viewthread.php?tid=50406


http://www.civclub.net/bbs/viewthread.php?tid=50406
donwloading ...
parsing ...
preprocessing ...

Aug 07 2012, Tue, 10:08:38


另外,能否推荐一个专业下载软件,百度搜索出来的软件下一个网页没问题,不能和CCRCRAWLER-WIN-0.2一样整合成一个HTML
再次感谢楼上回复
回复 支持 反对

使用道具 举报

发表于 2012-8-7 19:29:53 | 显示全部楼层

回复 3# 的帖子

我忘了考虑对多页的修正了,你再试试附件中的这个ccr_grabber.py, 看看能否工作.
这个爬虫的源代码太缺乏注释了.

至于离线下载软件, 说实话上一次用, 还是5年前.


注: 此楼附件有错误, 已过时, 不要下载, 请下载2楼中更新后的修正.

[ 本帖最后由 zahlen 于 2012-8-8 19:16 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2012-8-8 10:49:31 | 显示全部楼层

回复 4# 的帖子

谢谢楼上
新的附件能下了,不过只能下当前页,先凑活着用了。
回复 支持 反对

使用道具 举报

发表于 2012-8-8 17:22:36 | 显示全部楼层

回复 5# 的帖子

只能下当前页, 我测试时是正常的啊?

比如多页的贴子
多于10页的, 我测试的是第39910篇贴子
凯尔特人神级全标准,“男人背后的女人”已完结,基于征服胜利下的....外交胜利
不超过10页的, 我测试的是第99369篇贴子
Magic of Mana 1.4 魔法大师汉化补丁20120213版
我分别执行了
ccr_crawler 39910
ccr_crawler -i on 39910
ccr_crawler 99369
ccr_crawler -i on 99369
结果都很正常, 符合预期.
而且我还对civclub_report.conf下的use_whitelist, omit_username进行了测试, 它们分别是True或False时结果也符合预期.

[ 本帖最后由 zahlen 于 2012-8-8 17:25 编辑 ]
回复 支持 反对

使用道具 举报

 楼主| 发表于 2012-8-8 18:03:04 | 显示全部楼层

回复 6# 的帖子

真的很神奇。。。

我尝试了下39910
http://www.civclub.net/bbs/viewthread.php?tid=39910

就成功的下载了

但是我下载99081的时候
http://www.civclub.net/bbs/viewthread.php?tid=99081
就不行了

OUTPUT.LOG显示:
Aug 08 2012, Wed, 18:01:57

download queue
http://www.civclub.net/bbs/viewthread.php?tid=99081


http://www.civclub.net/bbs/logging.php?action=login&
openning ...

http://www.civclub.net/bbs/viewthread.php?tid=99081
donwloading ...
parsing ...
preprocessing ...
processing page ...
postprocessing ...
http://www.civclub.net/bbs/viewthread.php?tid=99081
finished


Aug 08 2012, Wed, 18:01:59

ERROR.LOG没记录。。。

下载99369的时候也是失败了
OUTPUT.LOG就不贴了

然后我就尝试的下了个大于10页的
http://www.civclub.net/bbs/viewthread.php?tid=55195
结果是显示了按页下载,最后结果是CCR ERROR CODE 222



莫非是我这里的设置问题??少于10页就出错??

[ 本帖最后由 idra 于 2012-8-8 18:05 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2012-8-8 18:06:52 | 显示全部楼层
竟然还有这么个软件?代码帝辛苦了~
回复 支持 反对

使用道具 举报

发表于 2012-8-8 18:37:22 | 显示全部楼层

回复 7# 的帖子

抱歉, 发现一个bug.
先给出一个手动修改方法, 等我有时间再仔细查查.
ccr_grabber.py中搜索if ('class', 'next') in pages.items():
然后把其中的pages改成a
回复 支持 反对

使用道具 举报

 楼主| 发表于 2012-8-8 18:45:06 | 显示全部楼层

回复 9# 的帖子

感谢楼上
大神辛苦了
回复 支持 反对

使用道具 举报

发表于 2012-8-8 19:23:03 | 显示全部楼层

回复 10# 的帖子

2楼中的附件是最新的修正.
不过只重新修改了9楼中我提到的错误, 没有其它新关键修正.
还发现原作的2个拼写错误: donwloading, openning.
只改正了前者, 后者在ccr_core.py中, 算了.
回复 支持 反对

使用道具 举报

发表于 2012-8-8 19:37:59 | 显示全部楼层

回复 7# 的帖子

第55195号贴子不能成功下载, 是有特殊原因的.
如果你手动浏览那篇, 你会发现选择最后一页返回未定义操作. 这样ccrcrawler判断下载失败放弃前面已经成功下载的页面也可以理解.

算了, 加把劲, 对上述情况给个解决方案. 附件中的ccr_grabber.py面对上述情形时, 如果是第一页将中止任务, 如果是后续页面将仅仅报告缺少不会中止任务.

[ 本帖最后由 zahlen 于 2012-8-8 20:19 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2012-8-9 09:24:12 | 显示全部楼层

回复 12# 的帖子

感谢大神,能完美的下载了
有需要的同学可以到下面地址下载整合好的版本
http://dl.dbank.com/c0q57igvab

[ 本帖最后由 idra 于 2012-8-9 10:16 编辑 ]
回复 支持 反对

使用道具 举报

发表于 2012-8-13 23:12:27 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

发表于 2012-10-5 08:53:17 | 显示全部楼层
感谢13楼,原来的战报下载器确实不能用了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|塞爱维(CIV)文明联盟    

GMT+8, 2024-4-24 14:01

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表