Planetarium

优惠 新基准测试Planetarium:用于评估大语言模型解决规划问题的性能

  • 新基准测试Planetarium:用于评估大语言模型解决规划问题的性能
    AI
  • 布朗大学计算机科学系的研究人员推出新基准测试Planetarium,用于评估大语言模型解决规划问题的性能,特别是将自然语言描述的规划任务转换成结构化的规划语言,例如规划领域定义语言(PDDL),并通过实验展示了现有模型在这一领域的挑战和潜力。例如,你告诉计算机:“我想要把桌子上的两个积木堆叠起来。”计算机需要理解这句话... 阅读全文