新型网络爬虫生成系统AUTOCRAWLER:自动化地从特定类型的垂直信息网页中提取数据

分类:大语言模型 | 热度:20 ℃

来自复旦大学和爱橙科技的研究人员推出新型网络爬虫生成系统AUTOCRAWLER,它是为了自动化地从特定类型的垂直信息网页中提取数据而设计的。垂直信息网页是指那些专注于特定主题或业务的网站,比如汽车、书籍、电影、NBA球员信息等。

主要功能:

  • 自动化爬虫生成:AUTOCRAWLER能够自动创建一系列预定义的规则或操作序列,用于从网页中提取目标信息。

主要特点:

  1. 两阶段框架:该系统采用两阶段方法,首先通过自上而下的策略逐步细化到包含目标信息的特定节点,然后在执行失败时回退并重新选择。
  2. 利用HTML的层次结构:通过HTML文档的DOM树结构,系统能够逐步修剪不相关的页面组件,从而简化网页结构并提高LLM(大型语言模型)生成的性能。
  3. 错误修正与学习:在执行过程中,系统可以从错误中学习,不断修剪HTML以改进动作序列的生成。

工作原理:

  • 自上而下的生成:从DOM树的根节点开始,逐步细化到包含目标信息的节点。
  • 回退操作:如果执行失败,则回退到上一个节点,重新选择一个更可靠、更广泛适用的节点作为基础。
  • 合成阶段:为了提高动作序列的可重用性,系统会从多个网页中生成动作序列,然后选择一个能够从所有网页中提取目标信息的动作序列作为最终结果。

具体应用场景:

假设你想要从一个电影信息网站上提取所有电影的标题、导演和类型。使用AUTOCRAWLER,你只需提供一些种子网页(即该网站的几个页面)和提取指令,系统将自动生成一个爬虫,该爬虫能够访问网站的不同页面并提取出所需的信息。

例如,对于NBA球员信息的提取,AUTOCRAWLER可以生成一个爬虫,该爬虫能够从ESPN等体育新闻网站的NBA球员页面中提取出球员的姓名、所在球队、身高和体重等信息。

这项工作的意义在于,传统的网络自动化方法在面对新网站时适应性和可扩展性较差,而基于LLM的生成型代理在开放世界场景中的表现也不理想。AUTOCRAWLER结合了LLM和爬虫的优点,提高了在多样化和不断变化的网络环境中的效率和可重用性。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论