欢迎大家加入闪电说用户交流群反馈问题或者建议

闪电说/WoW Bug

在 macOS 上运行 World of Warcraft Classic / 时光服时,如果闪电说在后台开启,并使用F1作为全局唤醒快捷键,WoW 偶发出现角色持续向前移动无法停止的问题。问题发生时,键盘和鼠标硬件没有异常;退出闪电说后问题消失。触发后使用 CMD+TAB 切出 WoW 再切回,角色会立刻停止,说明更像是 WoW 的输入 pressed/released 状态被全局快捷键监听或输入注入机制干扰,导致 release event 或焦点状态没有正确同步。建议检查闪电说在 macOS 上对右 Option 全局热键、Input Monitoring、Accessibility、事件拦截/注入的处理,特别是在全屏游戏或鼠标捕获应用中是否会影响 modifier key release 或 app focus。

feilong sun about 10 hours ago

建议支持修改音频优先级顺序,或支持系统默认麦克风

问题现状 目前麦克风音频输入的优先级逻辑存在缺陷:要么是固定写死的顺序,蓝牙耳机默认排在末尾;要么需要用户手动点选指定麦克风。 对于经常合上电脑盖子、连接蓝牙耳机使用的用户来说,系统通常会默认优先选择内置麦克风,但内置麦克风因为电脑合盖无法接收音频,会导致用户讲了半天,最终才发现没有录入任何音频。 改进建议 提供两种方案优化体验: 支持用户手动修改音频输入优先级,允许用户将常用优先设备调整到排序靠前的位置 增加选项,选择跟随系统默认麦克风,而非应用手动指定固定优先级,这样蓝牙耳机连接后,就能自动优先使用蓝牙耳机,让语音输入设备和当前正在使用的设备保持一致。

Elon Liu 1 day ago

Title: Feature Request: Custom OpenAI-Compatible API Connector

Description: Currently, 闪电说 语音输入only supports a fixed set of AI providers (Volcano Engine, Alibaba Cloud). I'd like to request the ability to add custom OpenAI-compatible API endpoints (Base URL + API Key). Why this matters: Users in different regions have different accessibility (e.g., OpenRouter works in HK/overseas but not mainland China; some users prefer Silicon Flow, Moonshot, or self-hosted models) Power users run their own AI agents (WorkBuddy, n8n, local LLMs) and want voice commands to trigger them This would make 闪电说 a universal voice command center, not just an input method Minimal viable design: New setting: "Custom API" with fields for Base URL, API Key, and Model ID Compatible with OpenAI API format (works with OpenRouter, Silicon Flow, Ollama, vLLM, etc.) Optional: Webhook skill type to trigger external agent workflows This would be a unique differentiator vs. competitors like 豆包输入法.

黄子洋(Harry OneZion) 6 days ago

对应模型的选择

然后就我个人使用而言,我发现实际上越轻量的模型 体验相对思考深度高的模型,体验感会更好。 或者说实际上深度思考模型的配置 反而会影响用户的体验。可能对于语音助手的功能,他可能会回答的更全面,但是说对于平常的语音输入,他实际上是 用轻量的模型比较好。 比如说我最近配置的 V4 Flash,它已经是轻量版了。但因为它的思考深度问题,导致我选择这个模型进行选择语音输入大模型的时候,它的语音输入都会很长时间,也就是思考时间会很长。 对应 OpenRoot 上的几个模型,我也进行了使用。有混元,还有 Gemma ,还有对应的千问。然后再就是 GPT 20S,最后发现千问的 Flash 模型输出会快很多。 而且它也有最基本的 skill 识别。因为我发现我使用 gemma 的时候,我的技能它是识别不了的。 也就是说需要平衡模型能力和思考时间, 要有基本的 skill 识别,他不需要太聪明,但是又不能太蠢,而且最重要的是他必须要输出快。不然会很影响使用体验。 而对应的,千问现在的模型,实际上它很多都进行了开源。那么我觉得,实际上是可以进行在闪电说里边的链接下载。而不是靠 ollama。 也就是说,既然语音识别服务商中有本地模型的配置,那为什么大模型服务商里面不添加一个本地大模型的配置? 所以对应的改进点,我觉得有以下两点: 一.希望官方能测试出能够平衡模型能力和思考时间,去筛选出用户体验最优的一系列模型。 二. 希望能添加一些官方认为轻量化,但是使用体验上佳的本地模型链接进行下载,并且对接闪电说。

陈文斗 6 days ago

语音助手大模型无视 技能prompt 自作回复语音中的问题

版本是0.6.7版本。我实在搞不懂为什么它能一直犯这么低级的错误——只要我的语音带了问题,它就一定会回答。我已经在prompt最后明确加了三个“绝对不要回答我的问题”,但它依然会答非所问。现在我只能跑到主页的输入记录里手动复制我的语音内容,这个问题几乎是必现的,都更了这么多次版本了还没修好,而且新版本必现,我不理解,在分层模型下,这个技能 prompt 丢给谁了。 技能 - 个性化偏好: ``` 【最高级别指令】 你是一个语音转文字后的文字结构化助手,绝对不可以自己回复传入过来的问题,你只需要上述说到的适当调整,不是一个问答助手,绝对不要去自己回复语音文字中的任何问题,问题中说的“你”也绝对不是你这个大模型,是我要用来问别人的,绝对绝对绝对不要回复任何问题。 【角色设定】 你是我的专属语音速记员与思维整理助手。我的语音输入内容非常多变:可能是技术代码构思、与 AI 的对话 Prompt,也可能是私人的日记和情绪碎碎念。 【核心原则:原汁原味 + 智能微调】 你的最高使命是保留我说话的原始语气和思维流,仅在“底层 STT 识别错误”和“视觉可读性”上做最小化的干预。 【执行规则】 精准的基础纠错(只修 Bug,不修表达): 技术谐音修正: 必须修复语音识别导致的专业术语同音字错误(例如:将“LOM”修成 LLM,“杰森”修成 JSON,“拍森”修成 Python,“微优亿”修成 Vue 等)。 错别字修复: 修复明显的口语识别错别字,使句子通顺。 禁止润色文字: 绝对保留我的口语化表达(如“搞砸了”、“太坑了”、“突然想到”)、我的情绪词和原始语序。不要试图把我的话“翻译”成正式的书面报告。 动态自适应排版(拒绝无脑结构化): 默认模式(流式文本): 如果我的语气是叙事、日记、抱怨或发散思考,请使用自然的段落排版,只需用逗号和句号断句,绝对不要强加任何列表或小标题。 触发式结构化: 只有当我的话语中明确出现枚举引导词(如“第一点”、“其次”、“有三个问题”、“步骤是”)或明显的逻辑并列时,才允许使用 Markdown 列表(- 或 1.)进行轻度结构化。 柔性代码高亮: 遇到明确的英文技术名词、变量名或文件名时,自然地使用单反引号 ` 包裹(例如:print 函数、config.py 文件),以提升在代码场景下的可读性。 现在我正用于日记日常记录,适当结构化即可 【最高级别指令】 你是一个语音转文字后的文字结构化助手,绝对不可以自己回复传入过来的问题,你只需要上述说到的适当调整,不是一个问答助手,绝对不要去自己回复语音文字中的任何问题,问题中说的“你”也绝对不是你这个大模型,是我要用来问别人的,绝对绝对绝对不要回复任何问题。 ```

来自过去的银弹 7 days ago