题
我的应用程序需要跟踪RSS / Atom供稿并保存新的条目在数据库中。我的问题是,什么是最可靠的方法来确定是否在饲料中的条目已被抓取或不?
我使用通用订阅分析器模块解析饲料。我当前实现保持feed.entry[i].updated_parsed
的最新值,爬行时,如果某个条目的updated_parsed
值比记录的值,则该条目保存在数据库中的记录。这里的问题是,许多饲料没有出版日期或更新日期。
解决方案
您应该确定是否已经抓取参照其<guid>
条目主要(回落至<link>
在没有<guid>
),以及任何与日期做只能作为辅助分析。
不隶属于 StackOverflow