AI

优惠 普林斯顿团队发布开源版AI程序员SWE-agent

  • 普林斯顿团队发布开源版AI程序员SWE-agent
    AI
  • 普林斯顿团队开源发布了Agent打造的AI程序员SWE-agent,它能让GPT-4等大模型轻松编辑和运行代码,在SWE-bench测试集上获得与首个AI程序员Devin相似的准确度,平均耗时93秒。 项目主页:https://swe-agent.com GitHub ...... 阅读全文

    优惠 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成

  • 先进语音合成模型VOICECRAFT:在不需要任何额外文本的情况下,对语音进行编辑和合成
    AI
  • 来自德克萨斯大学奥斯汀分校和Rembrand的研究团队推出先进语音合成模型VOICECRAFT,它能够在不需要任何额外文本的情况下,对语音进行编辑和合成,这被称为零样本文本到语音(TTS)任务。想象一下,你有一段录音,想 ...... 阅读全文

    优惠 谷歌发布视频插值生成模型VIDIM

  • 谷歌发布视频插值生成模型VIDIM
    AI
  • 谷歌发布视频插值生成模型VIDIM,它能够根据给定的起始和结束帧生成中间的短视频。想象一下,你有两张图片,一张是一个人跳起来的动作,另一张是这个人落地的动作,VIDIM能够在这两张图片之间生成一系列连贯的帧,形 ...... 阅读全文

    优惠 langchain-extract:使用大语言模型(LLMs)从文本和文件中提取信息

  • langchain-extract:使用大语言模型(LLMs)从文本和文件中提取信息
    AI
  • langchain-extract 是一个简单的网络服务器,它允许您使用大型语言模型(LLMs)从文本和文件中提取信息。该服务器基于 FastAPI、LangChain 和 Postgresql 构建。后端设计紧密遵循提取用例的文档,并提供了一个参考应 ...... 阅读全文

    优惠 开源的OpenAI API 非官方 Go 客户端Go OpenAI

  • 开源的OpenAI API 非官方 Go 客户端Go OpenAI
    AI
  • Go OpenAI是一个开源的OpenAI API 非官方 Go 客户端,目前支持: ChatGPT GPT-3, GPT-4 DALL·E 2 Whisper ...... 阅读全文

    优惠 Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐

  • Stable Audio 2.0:只需一句提示词,即可生成长达三分钟的音乐
    AI
  • Stability AI在今天推出Stable Audio 2.0,只需要一句提示词,即可生成长达三分钟的44.1 kHz立体声、结构连贯且音质上乘的完整曲目,还支持音频到音频转换能力,以及上传任意音乐对其进行风格转换。目前免费用户可生 ...... 阅读全文

    优惠 200多位音乐人联名呼吁:停止AI对音乐创作的滥用,保护人类创造力!

  • 200多位音乐人联名呼吁:停止AI对音乐创作的滥用,保护人类创造力!
    AI
  • 随着各种AI音乐生成器的不断涌现,尤其是Suno 3.0的惊艳问世,许多音乐人感受到了前所未有的压力。近期,国外200多位知名音乐人联名签署了一封公开信,强烈呼吁停止AI对人类创造力的侵害,并保护艺术家免受其掠夺性 ...... 阅读全文

    优惠 vLLM:快速且易于使用的库,专为大语言模型推理和提供服务

  • vLLM:快速且易于使用的库,专为大语言模型推理和提供服务
    AI
  • vLLM是一个快速且易于使用的库,专为大语言模型推理和提供服务,支持目前主流的开源大模型。 vLLM之所以快,是因为它具备以下特点: 领先的服务吞吐量 通过PagedAttention高效管理注意力键和值内存 持续批量处理传入 ...... 阅读全文

    优惠 谷歌推出新模型,用于解决视频中的密集字幕生成问题

  • 谷歌推出新模型,用于解决视频中的密集字幕生成问题
    AI
  • 谷歌发布论文介绍了一种新的模型,用于解决视频中的密集字幕生成问题,即在视频中预测字幕并将其定位在特定的时间段内。理想的字幕生成模型应该能够处理长时间的视频输入,生成丰富、详细的文本描述,并且在处理完整 ...... 阅读全文

    优惠 腾讯推出新型视频理解模型ST-LLM

  • 腾讯推出新型视频理解模型ST-LLM
    AI
  • 腾讯推出新型视频理解模型ST-LLM。ST-LLM的核心思想是将视频内容转化为一系列的空间-时间(spatial-temporal)标记,并将这些标记直接输入到大型语言模型(LLM)中,让模型自己学习如何理解和建模视频序列。这种方法 ...... 阅读全文

    优惠 新型开源多语言大语言模型AURORA-M

  • 新型开源多语言大语言模型AURORA-M
    AI
  • 这篇论文介绍了一个名为AURORA-M的新型开源多语言大型语言模型(LLM),它是为了解决现有开源预训练模型在多语言能力、持续预训练导致的灾难性遗忘问题,以及遵守人工智能安全和发展法规方面的挑战而设计的。总的来 ...... 阅读全文

    优惠 谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档

  • 谷歌发布论文探讨如何高效地训练能够理解和处理视觉丰富文档
    AI
  • 这篇论文的主题是关于如何高效地训练能够理解和处理视觉丰富文档(Visually Rich Documents,简称VRD)的语言模型。VRD是指那些结合了视觉元素(如字体大小、颜色、布局等)和语言信息来传递内容的文档,比如发票、 ...... 阅读全文