OpenType：把 AI 语音输入带到 macOS 的每个角落

2026-05-14 / #AI #macOS #Open Source #OpenType #Voice Input

在日常使用电脑时，我们常常会遇到这样一种微妙的割裂感：脑海里的想法如泉水般涌出，但手指在键盘上的敲击速度却总是跟不上思维的节奏。虽然市面上已经有了许多语音转文字工具，但它们大多需要你打开一个特定的应用，或者在一个网页里完成录音，然后再把文字复制粘贴出来。

这种体验太笨重了。语音输入本该像呼吸一样自然，像敲击键盘一样没有阻力。

这也是为什么我开发了 OpenType。

OpenType 演示

一个手势，打破应用的边界

OpenType 的核心理念非常简单：在不切换上下文的情况下进行语音输入。

想象一下这个场景：你正在写一封邮件、回复一条消息，或者在代码编辑器里写注释。你不需要停下手中的工作去寻找录音按钮。你只需要按住你设置好的快捷键（比如 fn 键），然后像平时一样自然地说话。

当你松开按键时，OpenType 就会把你刚才说的话变成干净、准确的文字，直接输入到你光标所在的位置。无论你当前在使用什么应用，它都能无缝工作。

这种「按住-说话-松开」的交互方式，将语音输入从一个「任务」变成了一个「手势」。它不再打断你的心流，而是成为了你表达思想的自然延伸。

在这个万物皆可被打包成 Electron 应用的时代，我依然坚持用 Swift 6 和原生技术栈来构建 OpenType。

这不是为了某种技术洁癖，而是因为只有原生技术，才能带来那种真正属于 Mac 的轻盈和跟手感。

AVAudioEngine 负责低延迟的麦克风捕捉，确保你按下的瞬间就开始录音，没有任何迟滞。
ScreenCaptureKit 和 Vision 框架在后台默默工作，通过屏幕 OCR 获取上下文，帮助大语言模型（LLM）更好地纠正同音字和专业术语。
WhisperKit 提供了强大的离线语音识别能力。
MLX-Swift-LM 则让 Qwen2.5/Qwen3 等大模型能够在 Apple Silicon 上流畅运行，进行本地推理。

OpenType 就像一个真正的 Mac 小工具，安静地待在菜单栏里，不喧宾夺主，但随叫随到。

当你习惯了用语音输入一切时，隐私就成了一个无法回避的问题。你可能在谈论公司的机密项目，可能在回复私人的家庭信息。

OpenType 在设计之初就将隐私放在了最高优先级：默认情况下，所有的处理都在本地完成。

没有音频上传。没有强制的云端调用。

得益于 Apple Silicon 强大的端侧算力，WhisperKit 可以在离线状态下完成高精度的转录，而 MLX-Swift-LM 可以在设备上直接对文本进行润色和整理。你的声音和屏幕内容，永远不会离开你的 Mac。

当然，如果你更看重云端模型的处理能力，OpenType 也提供了充分的自由。你可以接入 OpenAI、Claude、Gemini，或者国内的豆包、百炼等 API。选择权完全在你手里。

技术工具最好的状态，是让你感觉不到它的存在。

OpenType 并不想成为一个庞大复杂的效率怪兽。它只是想在那个你需要将声音转化为文字的瞬间，提供一个最简单、最直接的通道。

如果你也对这种纯粹的输入体验感兴趣，欢迎去 GitHub Releases 下载体验。如果你是开发者，也欢迎查看项目源码。

愿你的每一次表达，都能如行云流水般自然。