OpenType:把 AI 语音输入带到 macOS 的每个角落
在日常使用电脑时,我们常常会遇到这样一种微妙的割裂感:脑海里的想法如泉水般涌出,但手指在键盘上的敲击速度却总是跟不上思维的节奏。虽然市面上已经有了许多语音转文字工具,但它们大多需要你打开一个特定的应用,或者在一个网页里完成录音,然后再把文字复制粘贴出来。
这种体验太笨重了。语音输入本该像呼吸一样自然,像敲击键盘一样没有阻力。
这也是为什么我开发了 OpenType。

一个手势,打破应用的边界
OpenType 的核心理念非常简单:在不切换上下文的情况下进行语音输入。
想象一下这个场景:你正在写一封邮件、回复一条消息,或者在代码编辑器里写注释。你不需要停下手中的工作去寻找录音按钮。你只需要按住你设置好的快捷键(比如 fn 键),然后像平时一样自然地说话。
当你松开按键时,OpenType 就会把你刚才说的话变成干净、准确的文字,直接输入到你光标所在的位置。无论你当前在使用什么应用,它都能无缝工作。
这种「按住-说话-松开」的交互方式,将语音输入从一个「任务」变成了一个「手势」。它不再打断你的心流,而是成为了你表达思想的自然延伸。
原生,所以轻盈
在这个万物皆可被打包成 Electron 应用的时代,我依然坚持用 Swift 6 和原生技术栈来构建 OpenType。
这不是为了某种技术洁癖,而是因为只有原生技术,才能带来那种真正属于 Mac 的轻盈和跟手感。
- AVAudioEngine 负责低延迟的麦克风捕捉,确保你按下的瞬间就开始录音,没有任何迟滞。
- ScreenCaptureKit 和 Vision 框架在后台默默工作,通过屏幕 OCR 获取上下文,帮助大语言模型(LLM)更好地纠正同音字和专业术语。
- WhisperKit 提供了强大的离线语音识别能力。
- MLX-Swift-LM 则让 Qwen2.5/Qwen3 等大模型能够在 Apple Silicon 上流畅运行,进行本地推理。
OpenType 就像一个真正的 Mac 小工具,安静地待在菜单栏里,不喧宾夺主,但随叫随到。
隐私,是不容妥协的底线
当你习惯了用语音输入一切时,隐私就成了一个无法回避的问题。你可能在谈论公司的机密项目,可能在回复私人的家庭信息。
OpenType 在设计之初就将隐私放在了最高优先级:默认情况下,所有的处理都在本地完成。
没有音频上传。没有强制的云端调用。
得益于 Apple Silicon 强大的端侧算力,WhisperKit 可以在离线状态下完成高精度的转录,而 MLX-Swift-LM 可以在设备上直接对文本进行润色和整理。你的声音和屏幕内容,永远不会离开你的 Mac。
当然,如果你更看重云端模型的处理能力,OpenType 也提供了充分的自由。你可以接入 OpenAI、Claude、Gemini,或者国内的豆包、百炼等 API。选择权完全在你手里。
更多可能性
除了基础的语音输入,OpenType 还在尝试探索更多有趣的交互:
- 智能格式化:它不仅仅是转录,还能根据你的设置,将口语化的表达整理成结构化的列表,或者调整语言的正式程度。
- 屏幕感知指令:你可以对它说「总结一下这篇文章」或者「把这段代码翻译成 Python」,它会读取屏幕上的内容并给出回应。
- 个人词典:你可以设置自己的文本替换规则,让它更懂你的专属词汇。
结语
技术工具最好的状态,是让你感觉不到它的存在。
OpenType 并不想成为一个庞大复杂的效率怪兽。它只是想在那个你需要将声音转化为文字的瞬间,提供一个最简单、最直接的通道。
如果你也对这种纯粹的输入体验感兴趣,欢迎去 GitHub Releases 下载体验。如果你是开发者,也欢迎查看 项目源码。
愿你的每一次表达,都能如行云流水般自然。