Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

use #bookinfo if book page is unavailable in DuXiu #380

Closed
wants to merge 2 commits into from

Conversation

yfdyh000
Copy link
Contributor

@yfdyh000 yfdyh000 commented Sep 7, 2024

部分图书页面是“您访问的资源不存在,请与管理员联系”。例如搜索冯梦龙《情仙曲》

此PR后,在“其他”字段生成如 bookinfo: (日)大木康著,明清文人的小品世界,复旦大学出版社,2015.09,。不过这不能自动填写标题、作者、出版社、日期等字段。

@jiaojiaodubai
Copy link
Collaborator

在这段代码旁边注释上测试链接会比较好

@yfdyh000
Copy link
Contributor Author

yfdyh000 commented Sep 9, 2024

在这段代码旁边注释上测试链接会比较好

页面链接有时效性,注释一份搜索吗,但我不能保证哪些页面在何时能触发这种情况,可能注释的案例不触发但其他仍触发。

@jiaojiaodubai
Copy link
Collaborator

“资源不存在”和具体的账户有关吗?这个网站是不是像知网一样,机构可以只购买部分数据,所以“资源不存在”对应的具体链接在不同机构帐号中可能有所差异?@yfdyh000

@jiaojiaodubai
Copy link
Collaborator

jiaojiaodubai commented Sep 23, 2024

如果必要字段信息缺失的话,最好是能靠 selector 直接过滤掉,避免操作它们,不然存一个半斤八两的条目再叫用户去收拾似乎不太合适

@jiaojiaodubai
Copy link
Collaborator

部分图书页面是“您访问的资源不存在,请与管理员联系”。例如搜索冯梦龙《情仙曲》

我使用这个关键词没有得到适合的搜索结果

此PR后,在“其他”字段生成如 bookinfo: (日)大木康著,明清文人的小品世界,复旦大学出版社,2015.09,。不过这不能自动填写标题、作者、出版社、日期等字段。

我使用的帐号中能正常打开这个文章

所以我没能找到类似你所述的网页进行测试。

@yfdyh000
Copy link
Contributor Author

找到检索词“冯梦龙《情仙曲》”相关结果 2 条,用时0.01秒。通过桂林图书馆登录。

该书的bookDetail我现在能正常打开了,不过也多次遇到其他的打不开。不确定是否与超时(数分钟?)或账号权限相关。

读秀最近出新版界面了,是否看到,似乎需重新编写适配。

@jiaojiaodubai
Copy link
Collaborator

不过也多次遇到其他的打不开。

以后遇到的话,你可以仔细看看 URL 或者 css selector 有无特殊之处。这个 PR 先关闭了(因为我觉得不应该诱导用户抓取缺关键字段的条目,应该从行为上直接否决他做这种事的可能性)。

读秀最近出新版界面了,是否看到,似乎需重新编写适配。

我平时不使用这个网站,而且我获取帐号也比较困难,所以如果你能指出它现在有哪些不兼容的地方,我会抽时间更新一下

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants