开源 · 跨平台 · 本地推理

让语音输入
更高效、更自由

基于 SenseVoice + ONNX Runtime 的实时语音转文本输入法,完全本地运行,无需联网。

实时语音识别
音频文件转写
配置
● 模型已就绪

核心功能

从实时语音识别到文件转写,满足各种语音输入场景

🎙️

实时语音识别

长按 CapsLock 开始录音,松开后自动识别,文字实时注入到当前应用中,支持微信、Word、浏览器等。

📁

音频文件转写

支持 WAV/MP3/FLAC/OGG 格式,批量处理音频文件,导出为 TXT 文本或 SRT 字幕格式。

🔒

完全本地运行

基于 ONNX Runtime 本地推理,所有语音数据不会离开您的设备,保护隐私安全。

🌐

多语言支持

SenseVoice 模型支持中文、英文、日语、韩语、粤语等多语言自动识别。

⌨️

CapsLock 快捷键

长按超过 1 秒触发语音输入,短按正常切换大小写,无缝融入日常操作习惯。

🎨

深色 / 浅色主题

支持深色和浅色界面切换,可自定义字体大小,打造舒适的视觉体验。

使用流程

简单几步,开始使用语音输入

1

下载运行

下载对应平台的压缩包,解压后直接运行,无需安装。

2

加载模型

下载 SenseVoice ONNX 模型,在配置页面设置模型路径并保存。

3

开始说话

将光标定位到目标应用,长按 CapsLock 说话,松开后文字自动输入。

4

文件转写

切换到文件转写页面,选择音频文件,一键转写并导出结果。

技术栈

高性能、跨平台的技术选型

组件技术选型
GUI 框架Qt 6(Fusion / Windows 原生风格)
推理引擎ONNX Runtime(C++ API)
语音模型SenseVoice Small
音频采集PortAudio
音频解码dr_libs(dr_wav / dr_mp3 / dr_flac)
构建系统CMake 3.20+
配置存储nlohmann/json
支持平台Windows / Linux

下载

选择适合您平台的版本

🪟 Windows

约 47 MB
  • impress_voice_input_windows.zip
  • 包含全部运行依赖 DLL
  • 解压后进入 dist_win/ 运行 .exe
前往下载

🐧 Linux

约 34 MB
  • impress_voice_input_linux.tar.gz
  • 包含 Qt6 + ONNX + PortAudio 运行库
  • 解压后运行 ./run.sh
前往下载

常见问题

使用过程中的常见问题解答

语音输入没有反应?

请确认:① 模型已加载(状态栏显示"模型已就绪");② 已设置语音快捷键;③ 麦克风正常工作。

识别文字没有输入到目标应用?

某些应用可能拦截模拟按键输入,请尝试在管理员权限下运行本程序。

识别速度慢?

在配置中增大 ONNX 线程数(建议 2-4),或使用 GPU 版本的 ONNX Runtime。

CapsLock 短按不起作用?

请确保按键时间小于 1 秒,超过 1 秒会触发语音输入模式。

从哪里下载模型?

访问 HuggingFace 模型仓库,下载 model.int8.onnx 和 tokens.txt 两个文件。

数据安全吗?

完全本地运行,所有语音识别都在您的设备上完成,数据不会上传到任何服务器。