课外天地 李树青学习天地信息检索原理课件 → [转帖]雅虎宣布将 Web 爬虫工具 Anthelion 开源


  共有19043人关注过本帖树形打印复制链接

主题:[转帖]雅虎宣布将 Web 爬虫工具 Anthelion 开源

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1939 积分:26594 威望:0 精华:34 注册:2003/12/30 16:34:32
[转帖]雅虎宣布将 Web 爬虫工具 Anthelion 开源  发帖心情 Post By:2015/12/22 6:01:10 [只看该作者]

雅虎宣布开源了自家的网页爬虫工具 —— Anthelion。Anthelion 是雅虎用来爬取 HTML 中的语法结构数据的网络爬虫。然而对于雅虎来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问,Anthelion 的开源对雅虎在 web 搜索领域的竞争力提升意义重大。

去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到,Anthelion最初致力于爬取嵌入HTML网页中的语义数据。例如:microdata 、microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,感兴趣的朋友可以直接下载。


 回到顶部