开源 · 跨平台 · 本地推理

让语音输入
更高效、更自由

基于 SenseVoice + ONNX Runtime 的实时语音转文本输入法，完全本地运行，无需联网。

⬇ 立即下载了解更多

实时语音识别

音频文件转写

配置

● 模型已就绪

核心功能

从实时语音识别到文件转写，满足各种语音输入场景

🎙️

实时语音识别

长按 CapsLock 开始录音，松开后自动识别，文字实时注入到当前应用中，支持微信、Word、浏览器等。

📁

音频文件转写

支持 WAV/MP3/FLAC/OGG 格式，批量处理音频文件，导出为 TXT 文本或 SRT 字幕格式。

🔒

完全本地运行

基于 ONNX Runtime 本地推理，所有语音数据不会离开您的设备，保护隐私安全。

🌐

多语言支持

SenseVoice 模型支持中文、英文、日语、韩语、粤语等多语言自动识别。

⌨️

CapsLock 快捷键

长按超过 1 秒触发语音输入，短按正常切换大小写，无缝融入日常操作习惯。

🎨

深色 / 浅色主题

支持深色和浅色界面切换，可自定义字体大小，打造舒适的视觉体验。

使用流程

简单几步，开始使用语音输入

下载运行

下载对应平台的压缩包，解压后直接运行，无需安装。

加载模型

下载 SenseVoice ONNX 模型，在配置页面设置模型路径并保存。

开始说话

将光标定位到目标应用，长按 CapsLock 说话，松开后文字自动输入。

文件转写

切换到文件转写页面，选择音频文件，一键转写并导出结果。

技术栈

高性能、跨平台的技术选型

组件	技术选型
GUI 框架	Qt 6（Fusion / Windows 原生风格）
推理引擎	ONNX Runtime（C++ API）
语音模型	SenseVoice Small
音频采集	PortAudio
音频解码	dr_libs（dr_wav / dr_mp3 / dr_flac）
构建系统	CMake 3.20+
配置存储	nlohmann/json
支持平台	Windows / Linux

下载

选择适合您平台的版本

🪟 Windows

约 47 MB

impress_voice_input_windows.zip
包含全部运行依赖 DLL
解压后进入 dist_win/ 运行 .exe

前往下载

🐧 Linux

约 34 MB

impress_voice_input_linux.tar.gz
包含 Qt6 + ONNX + PortAudio 运行库
解压后运行 ./run.sh

前往下载

常见问题

使用过程中的常见问题解答

语音输入没有反应？

请确认：① 模型已加载（状态栏显示"模型已就绪"）；② 已设置语音快捷键；③ 麦克风正常工作。

识别文字没有输入到目标应用？

某些应用可能拦截模拟按键输入，请尝试在管理员权限下运行本程序。

识别速度慢？

在配置中增大 ONNX 线程数（建议 2-4），或使用 GPU 版本的 ONNX Runtime。

CapsLock 短按不起作用？

请确保按键时间小于 1 秒，超过 1 秒会触发语音输入模式。

从哪里下载模型？

访问 HuggingFace 模型仓库，下载 model.int8.onnx 和 tokens.txt 两个文件。

让语音输入更高效、更自由

核心功能

实时语音识别

音频文件转写

完全本地运行

多语言支持

CapsLock 快捷键

深色 / 浅色主题

使用流程

下载运行

加载模型

开始说话

文件转写

技术栈

下载

🪟 Windows

🐧 Linux

常见问题

语音输入没有反应？

识别文字没有输入到目标应用？

识别速度慢？

CapsLock 短按不起作用？

从哪里下载模型？

数据安全吗？

让语音输入
更高效、更自由