我的应用程序需要跟踪RSS / Atom供稿并保存新的条目在数据库中。我的问题是,什么是最可靠的方法来确定是否在饲料中的条目已被抓取或不?

我使用通用订阅分析器模块解析饲料。我当前实现保持feed.entry[i].updated_parsed的最新值,爬行时,如果某个条目的updated_parsed值比记录的值,则该条目保存在数据库中的记录。这里的问题是,许多饲料没有出版日期或更新日期。

有帮助吗?

解决方案

您应该确定是否已经抓取参照其<guid>条目主要(回落至<link>在没有<guid>),以及任何与日期做只能作为辅助分析。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top