那个战报下载器CCRCRAWLER-WIN-0.2似乎不能用了

idra · 发表于 2012-8-6 16:58:46

如题
受这次CC流量临时关站触动，想把自己喜欢的战报和攻略都下载下来
结果今天发现原来用的好好的CCRCRAWLER-WIN-0.2这次不能用了，生成的结果显示“CivClub 原始链接”
伸手党召唤大神来看看原因哟～
是不是论坛改过设置了。。。

zahlen · 发表于 2012-8-6 20:57:50

我建议你使用一个专业的离线下载软件干这活.

不过我可以给出一个解决方案:
下载附件, 这个修正包包含3个文件:
ccr_grabber.py
civclub_report.conf
template.html

首先ccrcrawler自带一个文件叫library.zip, 这就是一个普通的zip文件, 你在其中找到ccr_grabber.pyo, 把它删除, 再把ccr_grabber.py添加那个zip文件中.
然后修改civclub_report.conf这个文件, 将其中[keyword]以下改成

div_page=pages_btns
a_pages=pages
a_redirect=p_redirect
td_user=postauthor
a_user=dropmenu
right_t_number=postinfo
t_msg=
div_msg=t_msgfont
div_msg_id=id
div_msg_id_starts=message

复制代码

或者使用这个修正包中的civclub_report.conf, 覆盖你的原文件, 再调整其中你的选项.

最后修改template.html, 在其中搜索span改成h2即可, 或用修正包中的版本替换原文件.

[ 本帖最后由 zahlen 于 2012-8-8 19:13 编辑 ]

idra · 发表于 2012-8-7 10:13:32

感谢楼上的回复
我没理解错的话应该是把附件中的civclub_report.conf和template.html替换原文件
删除library.zip中的ccr_grabber.pyo，然后把附件中的ccr_grabber.py添加到library.zip

我按照上述步骤操作之后还是不行，error.log显示：

Traceback (most recent call last):
  File "ccr_crawler.py", line 11, in <module>
  File "ccr_crawler.py", line 8, in main
  File "ccr_core.pyo", line 307, in start
  File "ccr_core.pyo", line 294, in processArgv
  File "ccr_core.pyo", line 178, in grab
  File "D:\ccrcrawler-win-0.2\library.zip\ccr_grabber.py", line 99, in start
  File "D:\ccrcrawler-win-0.2\library.zip\ccr_grabber.py", line 171, in collectThreadInfo
AttributeError: 'NoneType' object has no attribute 'strip'

output.log是：
download queue
http://www.civclub.net/bbs/viewthread.php?tid=50406

http://www.civclub.net/bbs/viewthread.php?tid=50406
donwloading ...
parsing ...
preprocessing ...

Aug 07 2012, Tue, 10:08:38

另外，能否推荐一个专业下载软件，百度搜索出来的软件下一个网页没问题，不能和CCRCRAWLER-WIN-0.2一样整合成一个HTML
再次感谢楼上回复

zahlen · 发表于 2012-8-7 19:29:53

我忘了考虑对多页的修正了,你再试试附件中的这个ccr_grabber.py, 看看能否工作.
这个爬虫的源代码太缺乏注释了.

至于离线下载软件, 说实话上一次用, 还是5年前.

注: 此楼附件有错误, 已过时, 不要下载, 请下载2楼中更新后的修正.

[ 本帖最后由 zahlen 于 2012-8-8 19:16 编辑 ]

idra · 发表于 2012-8-8 10:49:31

谢谢楼上
新的附件能下了，不过只能下当前页，先凑活着用了。

zahlen · 发表于 2012-8-8 17:22:36

只能下当前页, 我测试时是正常的啊?

比如多页的贴子
多于10页的, 我测试的是第39910篇贴子
凯尔特人神级全标准，“男人背后的女人”已完结，基于征服胜利下的....外交胜利
不超过10页的, 我测试的是第99369篇贴子
Magic of Mana 1.4 魔法大师汉化补丁20120213版
我分别执行了
ccr_crawler 39910
ccr_crawler -i on 39910
ccr_crawler 99369
ccr_crawler -i on 99369
结果都很正常, 符合预期.
而且我还对civclub_report.conf下的use_whitelist, omit_username进行了测试, 它们分别是True或False时结果也符合预期.

[ 本帖最后由 zahlen 于 2012-8-8 17:25 编辑 ]

idra · 发表于 2012-8-8 18:03:04

真的很神奇。。。

我尝试了下39910
http://www.civclub.net/bbs/viewthread.php?tid=39910

就成功的下载了

但是我下载99081的时候
http://www.civclub.net/bbs/viewthread.php?tid=99081
就不行了

OUTPUT.LOG显示：
Aug 08 2012, Wed, 18:01:57

download queue
http://www.civclub.net/bbs/viewthread.php?tid=99081

http://www.civclub.net/bbs/logging.php?action=login&
openning ...

http://www.civclub.net/bbs/viewthread.php?tid=99081
donwloading ...
parsing ...
preprocessing ...
processing page ...
postprocessing ...
http://www.civclub.net/bbs/viewthread.php?tid=99081
finished

Aug 08 2012, Wed, 18:01:59

ERROR.LOG没记录。。。

下载99369的时候也是失败了
OUTPUT.LOG就不贴了

然后我就尝试的下了个大于10页的
http://www.civclub.net/bbs/viewthread.php?tid=55195
结果是显示了按页下载，最后结果是CCR ERROR CODE 222

莫非是我这里的设置问题？？少于10页就出错？？

[ 本帖最后由 idra 于 2012-8-8 18:05 编辑 ]

混神 · 发表于 2012-8-8 18:06:52

竟然还有这么个软件？代码帝辛苦了~

zahlen · 发表于 2012-8-8 18:37:22

抱歉, 发现一个bug.
先给出一个手动修改方法, 等我有时间再仔细查查.
ccr_grabber.py中搜索if ('class', 'next') in pages.items():
然后把其中的pages改成a

idra · 发表于 2012-8-8 18:45:06

感谢楼上
大神辛苦了

zahlen · 发表于 2012-8-8 19:23:03

2楼中的附件是最新的修正.
不过只重新修改了9楼中我提到的错误, 没有其它新关键修正.
还发现原作的2个拼写错误: donwloading, openning.

只改正了前者, 后者在ccr_core.py中, 算了.

zahlen · 发表于 2012-8-8 19:37:59

第55195号贴子不能成功下载, 是有特殊原因的.
如果你手动浏览那篇, 你会发现选择最后一页返回未定义操作. 这样ccrcrawler判断下载失败放弃前面已经成功下载的页面也可以理解.

算了, 加把劲, 对上述情况给个解决方案. 附件中的ccr_grabber.py面对上述情形时, 如果是第一页将中止任务, 如果是后续页面将仅仅报告缺少不会中止任务.

[ 本帖最后由 zahlen 于 2012-8-8 20:19 编辑 ]

idra · 发表于 2012-8-9 09:24:12

感谢大神，能完美的下载了
有需要的同学可以到下面地址下载整合好的版本
http://dl.dbank.com/c0q57igvab

[ 本帖最后由 idra 于 2012-8-9 10:16 编辑 ]

alanpower · 发表于 2012-8-13 23:12:27

提示: 作者被禁止或删除内容自动屏蔽

zsc413 · 发表于 2012-10-5 08:53:17

感谢13楼，原来的战报下载器确实不能用了

		自动登录	找回密码
密码			注册

alanpower alanpower 积分 657 IP卡	发表于 2012-8-13 23:12:27 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
alanpower alanpower 积分 657 IP卡
	回复支持反对使用道具举报显身卡

[疑问] 那个战报下载器CCRCRAWLER-WIN-0.2似乎不能用了

回复 1# 的帖子

本帖子中包含更多资源

评分

回复 2# 的帖子

回复 3# 的帖子

本帖子中包含更多资源

回复 4# 的帖子

回复 5# 的帖子

回复 6# 的帖子

回复 7# 的帖子

回复 9# 的帖子

回复 10# 的帖子

回复 7# 的帖子

本帖子中包含更多资源

回复 12# 的帖子