闪电说 V0.6 最佳实践(含保姆级教程)

闪电说 V0.6 在语音输入体验上正式追齐了第一梯队,在速度和准确上都有了显著提升。并新增语音助手和技能系统,让输入效率的提升远超4倍。

Written By smartmeng

Last updated About 1 month ago

点击右侧目录可以实现快速跳转!根据右侧目录找到适合你的教程!!!

如何用闪电说获得最佳的语音输入体验?

我们先来看一下 V0.6 的最新效果展示。

语音输入实机演示( 不想听中间说话部分,可以直接拖到后面看输出结果 ):

语音助手实机演示( AI 一键回复群消息 ):

为了完整地使用上以上非常好用的语音输入体验,我们需要配置两个东西:

  1. 语音识别模型

  1. 具备视觉能力的 AI 大模型

下面的教程会一步步教大家进行完整的配置,非常详细,非常简单,很好操作,不用担心。

获得最佳语音输入体验的操作指南

就跟着下面这个指南一步一步的操作,一定能够搞定。 都是详细地拆到最细的步骤上了。

第一步:在闪电说内填入语音识别模型API

为了免费获得最快最准的语音识别体验。

  1. 打开闪电说 APP,点击左侧的模型,在语音识别服务商里面找到火山引擎,点击打开

  1. 打开之后,您会看到需要填写 App ID 和 Access Token,这两个您暂时不用管,下一步会教您如何获取这两个东西。

  1. 打开字节的云服务火山引擎,点击这里:火山引擎官网,您会看到下面这个登录页面,然后正常使用手机进行登录注册就好了。

  2. 进入到官网之后,需要先走一个实名认证的流程,非常简单。

    先点击”前往实名认证”,再点击“微信/抖音扫脸认证”就可以了。字节的所有 API 开通都是需要实名认证的。这里认证过一次之后,以后就都非常方便了。

  3. 认证完成之后,再回到“豆包语音”。如果不知道怎么回去,点击这里:豆包语音。然后直接点击最中间的创建应用。一定要确保在右上角是在旧版哈,新版的流程不一样。

  4. 在创建应用里面,应用名称填“shandianshuo”(只支持英文),应用简介写“自己用“,接入能力选择:”豆包流式语音识别模型2.0 小时版“。点击右下角的“确定”,就把应用创建好了。

  5. 创建成功之后,您把这个创建应用的页面在右上角给叉掉。然后在左侧的 API 服务中心的菜单里面点到第一个”豆包流式语音识别模型 2.0”。就可以看到下面这个页面了,把这个页面滑到底部,您就能找到最开始我们在闪电说的配置里给您看的 App IDAccess Token(正常情况下是隐藏的,点击小眼睛可以打开) 。Access Token 是您的密码,一定要保存好,也不要告诉任何人。目前在字节火山引擎这个版本里面给您提供了 20 小时的免费额度,可以使用很久了。
    注意:检查一下这里的应用名称是否是刚才设置的,因为是可以创建多个应用的

  6. 这里额外注意一下两个注意事项:

    1. 千万不要点击服务开通,这个服务开通的意思是,开通付费版本,开通了之后就不能用免费的试用的20h额度了。如果不小心开通了,按照下图指示,去左侧应用管理再创建一个新的应用,然后回到本页面,在应用名称那里选择你最新创建的应用即可,可能重名,一定要检查清楚,主要检查服务的是否显示“开通”(显示“开通”表示还没有开通)。然后可以继续后面的操作。

    2. 应用名称一定要是你刚刚的那个,可能有你曾经创建了多个应用情况。你要选择你最新创建的那个。

  7. 回到闪电说 APP,把刚刚您获取的 App IDAccess Token 依次填进去。然后点击下方的运行速度测试,如果出结果了,就说明您的 API 接口是通的,有时候可能不稳定,您可以多点两次。但如果多次点击都不出结果的话,您可以看看之前的哪一步错了,如果确实不确定,可以来咨询我们。

  8. 最后您只需要在这个页面点击“设为默认模型”,您就已经获得了目前中文范围内,可以说是最好的语音转写体验。同样,阿里云的“qwen3-asr”模型也非常优秀,如果您感兴趣,可以自行设置体验。

  9. 最后我们回到模型界面检查一下,首先是语音识别模型已经更换为了”豆包流式”。其次,下方”火山引擎”的供应商栏有一个绿色小点,说明它运转正常。

第二步:在闪电说内填入具备视觉能力的 AI 大模型 API

为了使用我们提供的 AI 输入技能和 AI 助手技能,获得完整的沟通 Agent 体验。

  1. 还是打开闪电说,然后在模型里面找到大模型服务商,然后选择火山引擎。

  2. 打开之后,您会看到需要填写 Access Token / API Key(这是一个东西,等会下面我们就会看到它了)API 地址已经填好了,您不用管。所以这回我们只用找一个东西就好了。

  3. 鉴于您刚刚已经进行了火山引擎的登录和实名认证的步骤,所以我这里直接引导你进入大模型的开通页面。打开字节火山引擎的 AI 开通页面,点击这里:火山方舟开通管理页面

  4. 选择Doubao-Seed-2.0-lite,然后点击开通服务。

  5. 然后在开通服务的页面,为了方便以后更加简单易用,可以先点击”全选”,然后点击”自动开通新增模型”,最后点击”确定开通与授权”。这样不管以后就是需要用什么新模型,你都可以直接用了,就不用再做进一步的配置了。

  6. 然后在开通管理页面检查一下,看看这个模型是否已经开通成功。开通成功之后,操作那里会变成,会从”开通服务”变成”关闭服务”。如果出现意外情况没有开通服务,可以重新再走一遍刚刚那个流程。同时,字节提供了50万 token 的额度,也可以用很久了。

  7. 在”开通管理”下方有一个 “API Key 管理”,点击它。然后进到页面里面之后,点击”创建 API Key”。

  8. 点击之后,里面的信息都是默认填好的,直接点创建就可以了。

  9. 然后你就可以在,就是接下来这个页面里面去复制你的 API Key 了,还是点击小眼睛之后会出现密码和复制按钮。API Key 千万不要告诉别人,这个就是你的密码。

  10. 回到闪电说 APP,把刚刚获得的 API Key 填进去。先点击设为默认模型,把豆包 2.0 应用上。

  11. 检测之后,会出现一个通过的状态,说明 API Key 没有问题。

  12. 最后我们整体做一次检查,回到模型页面:

    1. 默认语音识别模型是”豆包流式语音识别模型2.0”,默认的大模型是”Doubao-Seed-2.0-lite”

    2. 语音识别服务商火山引擎和大模型服务商火山引擎的小绿点都是亮着的。

达到上面这个状态,就完全配置完成了。

第三步:选择适合你的语音输入技能

  1. 打开技能页面,开始进行你的个性化配置。当开启技能上的”自动运行“开关时,会自动调用语音输入大模型,而如果模型没有配置,则会报错,如果您只需要最基础的语音输入功能,你可以把”自动运行“开关关闭。关闭后,您输入的所有语音都会只走”语音识别模型“,不做任何其他处理。技能需要打开开关之后才会发挥作用。

  2. 具体的功能介绍

个性化偏好的使用方法

  • 任何你需要 AI 记住的说话习惯,甚至是特殊的表达方式都可以先使用个性化偏好,比如“当我称呼某个人的名字时,不要把姓自动补全,这是我的说话习惯“,这样,当你在语音输入时说”大川“时,他就不会自动调用用户词典,帮您补全成”张大川“。以及你个人的一些小习惯,也可以优先使用个性化偏好来解决,比如”英文前后要加空格“、”数字前后要加空格“等等。以下是示例:

用户词典的使用方法

  • 语音识别模型并不具备专有名词的知识,专有名称包括但不限于,您的亲友名字,您的行业专有名词,最新的互联网热词。比如我说“yumeng”,AI并不知道我是在说我的同事“余猛”,可能随机识别成“于猛”。

  • 如果您按照前面的配置方法,配置了豆包或者阿里的云端ASR模型,并且在语音输入技能中打开了加载用户词典的技能。那么,当您在说“yumeng“的时候,闪电说就能通过您的用户词典,知道您说的是谁了。

  • 您只需要在记忆中不断完善用户词典文档即可,暂时不建议添加超过 5000 条以上的用户词典,也能用,但可能一定程序上会影响性能。

官方技能的使用方法(口语过滤、自动结构化、去除句号)

  • 什么是口语过滤,口语过滤技能会自动把一些句子里面这种不太具备含义的这种”嗯呃啊“口语词去掉,然后让表达显得更精简一点,但是我们的这个设计原则还是尽量的保持你的和原句的意思,所以我们可能会过滤得不是那么激进,如果您需要更激进的去过滤口语的话,您可以使用个性化偏好功能,也可以参照下面自定义语音输入技能的玩法。

  • 什么是自动结构化,这个技能是在用户做一些长句表达的时候,为了适配像微信或者是飞书钉钉这样的场景,我们会把说的话进行一些适当的换行、分段和分点,能够让表达显得更专业一点。

  • 什么是去掉句号,很多人说话不喜欢就是最后有个句号,特别是一些短句,所以我们特别添加了这个技能,打开技能之后,就会自动帮你把句尾的句号给去掉,为了保证稳定性,做的是强制去除,

    不区分场合都去除。您可以自行判断一下是否打开。

自定义语音输入技能(以中译英技能为例)

  • 因为大模型是具备丰富的文字处理能力的,所以我们把这些文字处理的规则定义成了”技能“。

  • 比如说有一个用户,他希望我们增加翻译的能力,那我就写了下面这个技能。

  • 所以我就能实现下面这个效果

  • 技能的使用方法很简单,在技能页面右上角添加技能就可以了。

    技能的指令中,建议一定要有一个触发机制,比如翻译这个技能,就是用”帮我翻译“和”翻译一下“来触发的,因为当 AI 看到一段话的时候,如果没有一个明确触发的指令,它可能无法非常精准的判断是否要执行技能,另外建议最好使用智力稍微好一点的模型,比如说豆包2.0 lite 可能才会有比较好的执行效果,豆包2.0 mini 的智力是偏低的,对技能的执行效果会比较差。

第四步:选择适合你的语音助手技能

如何使用看屏幕的聊天记录帮我回复的功能

  1. 需要在配置一个具备视觉能力的模型,如果没有配置,请从右侧目录回到第二步进行配置。配置好了之后的情况如下图:

  2. 在语音助手,记住是语音助手的技能页面,不是语音输入。打开加载屏幕识别技能,打开帮我回复技能。

  3. 如果你没有更改过默认配置,那么长按快捷键就会触发语音助手了。直接对语音助手说帮我回复,它就能根据你当前的屏幕,然后做出对应的回复了。

  4. 如果你不满足于最基础的功能体验,你可以尝试打开加载个人记忆开关,然后在记忆模块里面写入需要 AI 知道的一些信息,这样就可以根据你的记忆进行回复了。比如说我们会在记忆写闪电说的一些日常的客服问题,作为记忆来给 ai 参考。