回声 (Echo) 是一个简单的翻译器,它通过语音识别文字,然后再使用本地翻译服务器进行翻译。它有以下特点:
演示视频见:
v1.0.0: 回声:实时英语语音翻译
v1.1.0: 回声更新:支持使用GPU & 长句分解
v1.2.0: 回声更新:支持历史字幕 & 自助问题排查
nvcc -V
,看输出:
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_May__3_19:00:59_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.7, V11.7.64
Build cuda_11.7.r11.7/compiler.31294372_0
需要将电脑上声音的输入设备设置为「 立体声混音 」:
环境准备好后,下载:
语音识别服务器:ASR-API 1.1.0
也可加qq群:949175734,在群文件中下载
最后,确保目录结构是这样的:
CPU模式:
- asr-server-v1.1.0
- ...其它文件
- ASR-API.exe
- nlp-server
- ...其它文件
- NLP-API.exe
- echo-web-ui-v1.2.0
- echo-v1.2.0.exe
GPU模式:
- asr-server-v1.1.0
- ...其它文件
- ASR-API.exe
- nlp-gpu-server
- ...其它文件
- NLP-GPU-API.exe
- echo-web-ui-v1.2.0
- echo-v1.2.0.exe
然后双击 exe 即可运行。
成功运行并使用GPU后,窗口标题文字会包含GPU:Echo (GPU)。
点击「 设置字幕区 」,用鼠标「 自左上向右下 」选择一块区域,这块区域将生成一个字幕区:
生成的字幕框可以拖动边缘来调整大小。
开启语音识别后字幕区会有英文字幕和中文翻译,关闭后字幕区不再更新。注意:首次开启可能会等待一段时间才会出字幕。
默认情况下,语音识别出的英文会是一大段话,这会影响翻译的速度和准确性。勾选「 长句分解 」可分解为短句。
默认情况下,生成的字幕框始终会在窗口最上层。如果这不是想要的,那么可以自己切换。
默认情况下,如果 3.5s 都没能完成一次 语音识别或翻译,那么此次翻译将跳过。这个时间可根据自己的设备来调整,只需用文本编辑器打开config.json
,编辑 timeout
后的数值。注意单位是毫秒(ms)。
如遇无法正常使用,可下载对应版本的调试包进行问题排查,方法是:下载echo-vx.x.x-debug-exe.zip
,双击打开exe,在弹出的小黑窗中会有详细报错信息,将其截图,然后进行问题反馈。
也可以加qq群反馈:949175734。
如果遇到无法使用的情况,可以先参考这里的解决方法:
stderr: ERROR:root:[WinError 1225]
stderr: Problem occurred during compilation with the command line below:
stderr: "C:\Program Files\mingw64\bin\g++.exe" ...
没有立体声混音选项:可能是电脑禁用了,结合自己电脑情况,可以网上搜一下怎么配置或修复之类的,比如 link 1 或者 link 2
有立体声混音选项,但播放视频时测试的音量条没有跳动,或用耳机情况下无法使用:可以参考 link 试试
:)
如果此软件值得赞赏,可以请作者看小说,一元足足可看八章呢。