古籍数字化平台“识典古籍”测试版上线:字节跳动与北京大学合作研发

分类:工具 | 热度:44 ℃

据字节跳动宣布,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版上线。目前,平台已上线 390 部经典古籍,共计 3000 多万字,向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛家的核心书目。未来,“识典古籍”还将实现全自动整理校对,并免费开放这项能力,促进存量古籍数字化。平台还将向全社会开放古籍阅读检索研究能力,同时鼓励拥有文献的学者自行上传文献,用户还能参与再创作和再阐释。

古籍数字化平台“识典古籍”测试版上线:字节跳动与北京大学合作研发

中国现存古籍约 20 万种,其中已经完成数字化影像扫描的有 8 万种,而实现文本数字化的仅 3-4 万种。为了方便大家在古籍“图书馆”里检索、阅读,“识典古籍”平台主要采用三项人工智能技术:

  • 文字识别,也就是用 OCR(光学字符识别)技术将古籍影印版图像识别成文字。目前行业内 OCR 的识别准确率平均为 93% 至 94%,而“识典古籍”将这个数字提高到 96% 至 97%。
  • 自动标点,指通过算法,给原本缺少断句的古籍自动打上标点符号。举个例子,《论语》开篇“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”
  • 命名实体识别,即识别古籍中的“专有名词”,包括人名、地名、书籍、时间、官职五大类型。

古籍数字化平台“识典古籍”测试版上线:字节跳动与北京大学合作研发

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论