Skip to content
This repository has been archived by the owner on Sep 7, 2023. It is now read-only.

【实战】利用爬虫实现知网高级检索后的文献预览和下载(逻辑分析) — Cyrus Ren #7

Open
itstyren opened this issue Dec 19, 2018 · 15 comments

Comments

@itstyren
Copy link
Owner

https://cyrusrenty.github.io//2018/12/19/cnkispider-1/#42-%E5%BE%97%E5%88%B0userkey

完整项目地址:https://github.com/CyrusRenty/CNKI-download

@liwan123123
Copy link

老铁,需要用户名登陆才能下载文件,这个咋搞啊?

@itstyren
Copy link
Owner Author

@liwan123123
老铁,需要用户名登陆才能下载文件,这个咋搞啊?

现在程序需要在你的网络有访问知网权限下才可运行(校内网),后期我会加上公网访问接口

@liwan123123
Copy link

我直接用用户登录后的cookie加到headers里,访问不到数据,

@liwan123123
Copy link

老铁,知网爬虫有偿需求,联系QQ31558614,微信15739612006

@liwan123123
Copy link

老铁,公网接口还没搞出来了吗

@yuyiaili
Copy link

爬取的下载连接没有问题,但是下载的CAJ文件内容是(访问连接超时,重新登陆)

@TangDouOVO
Copy link

建议添加断点续传功能,人机互动会更友好!

@timothywu
Copy link

下载的数据量大了,时间长了就断了(放哪里下载,也就下载了400条),这个问题怎么解决啊?

@MarkNaver
Copy link

from UserInput import get_uesr_inpt
这一行 为什么出错呀,请教一下。

@simpleman0507
Copy link

请问main.py中的106行为什么会出现AttributeError: 'NoneType' object has no attribute 'group'这样的问题呢?

@PrinceFu
Copy link

PrinceFu commented Dec 2, 2021

@simpleman0507
请问main.py中的106行为什么会出现AttributeError: 'NoneType' object has no attribute 'group'这样的问题呢?

我也遇到这种问题 ,请问解决了吗

@beibei9550
Copy link

请问为什么查询结果数量re.compile(r'.?找到 (.?) ')

@itstyren
Copy link
Owner Author

itstyren commented Mar 30, 2022 via email

@DavidLeexxxx
Copy link

获取文件详细信息的时候,page_detail.get_detail_page方法中self.session.get(page_url, headers=HEADER)返回结果为<response [200]>,想问下这是什么问题,另外现在貌似没有http://i.shufang.cnki.net/KRS/KRSWriteHandler.ashx这个注册了

@itstyren
Copy link
Owner Author

itstyren commented Oct 11, 2022 via email

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Projects
None yet
Development

No branches or pull requests

10 participants