当前位置：首页 > 优惠 >大语言模型>文章详情

新型光学字符识别（OCR）模型GOT

推荐人：暴走AI| 商城: AI | 2年前 (2024-09-05)| 分类：大语言模型 | 热度：879 ℃

已关闭评论

新型光学字符识别（OCR）模型GOT

AI

阶跃星辰、旷视科技、中国科学院大学和清华大学的研究人员推出新型光学字符识别（OCR）模型GOT，它是迈向OCR-2.0时代的一个尝试。OCR技术简单来说，就是让计算机能够识别图片中的文字，并将其转换成可编辑的文本格式。就像你用手机拍一张图片，然后软件能识别出图片中的文字内容，这背后用到的就是OCR技术。

GitHub：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

主要功能：

统一识别多种格式：GOT模型能够识别普通文本、数学公式、分子结构、图表、乐谱，甚至是几何图形等。
多样式输入输出：支持将输入的图像转换成纯文本或者格式化文本（如Markdown、LaTeX等）。
交互式识别：能够根据坐标或颜色进行区域级别的识别，提高了灵活性。
高分辨率和多页文档处理：适应高分辨率图像和多页文档的识别需求。

主要特点：

端到端模型：GOT是一个集成了编码器和解码器的单一模型，简化了传统OCR系统中多个模块的复杂流程。
低成本训练和推理：相比于需要大量参数的大语言模型，GOT的参数量适中，降低了训练和使用的成本。
多任务通用性：GOT不仅能够处理文本识别，还能够识别和生成多种格式的输出，提高了模型的通用性和实用性。

工作原理：

GOT模型通过一个高压缩率的编码器将图像转换成一系列的“token”，然后通过解码器将这些token转换成对应的文本结果。这个过程中，模型会学习如何将图像中的不同元素（比如文字、公式、图表）映射到相应的文本表示。

具体应用场景：

文档数字化：将纸质文档转换为可编辑的电子格式，比如将扫描的书本页转换成可搜索和编辑的文本文件。
数据提取：从复杂的报表或图表中自动提取关键数据，用于数据分析和报告生成。
辅助阅读：为视障人士提供辅助，将图像中的文字转换为语音输出，帮助他们“阅读”图像中的内容。
在线教育：自动识别和转换教育材料中的文本和公式，便于学生和教师的在线学习和教学。

总的来说，GOT模型通过其先进的OCR技术，能够更智能地理解和处理图像中的文字信息，为各种需要文字识别和转换的场景提供了强大的技术支持。

GOT

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：日本NTT推出声音转换技术FastVoiceGrad

下一篇：开放混合专家语言模型OLMoE

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2026 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录