Google 研究和斯坦福大学的研究人员推出Streetscapes,即通过大规模一致性的街景生成技术,从少量图像中生成连贯的城市街景视图。这项技术可以用于从单一视频生成动态场景的三维重建和新视角合成。简单来说,就是利用几张街景图片和一些文本描述,计算机能够自动生成一段连续的、逼真的城市街道视频,展示出街道随着时间和天... 阅读全文
加州大学伯克利分校和 Google 研究的研究人员推出Shape of Motion,从单一视频重建动态场景的四维(4D)结构。这项技术旨在从一段普通的单眼(即从一个视角)视频中恢复出场景的三维(3D)几何结构和随时间变化的运动轨迹。简单来说,就是让计算机能够从一段视频中理解物体的形状和它们是如何移动的。 项目主页:h... 阅读全文
直达链接好 0
不好 00Shape of Motion:从单一视频重建动态场景的四维(4D)结构已关闭评论
阿里巴巴和华中科技大学的研究人员推出一种新型视觉文本生成方法,称为SceneVTG(Scene Visual Text Generator),它能够在野外环境(即非受控的自然环境)中生成高质量的文本图像。这项技术特别关注于生成的文本图像需要满足三个关键标准:真实性(Fidelity)、合理性(Reasonability... 阅读全文
以色列赖希曼大学和亚马逊AWS AI 实验室的研究人员推出新型视觉文档理解方法VisFocus,它是一种无需光学字符识别(OCR)的技术,能够直接从图像中理解文档内容。这种方法特别适用于处理包含大量文本的密集文档,比如PDF文件或图像。 例如,你有一张包含许多文本的PDF文档的图像,并想知道文档中提到的某个特定信息(比... 阅读全文