语音,是一个「甲之蜜糖,乙之砒霜」的媒介。被微信60秒语音轰炸过的朋友,最懂个中滋味。 你说语音输出快,我嫌听起来不方便。你觉得语音更有感情,我认为文字更一目了然。立场相对,对语音的态度也就不同。 好在,已经重塑了很多产品的AI,终于也在语音工具上雕花了。或许会让你觉得,语音也没那么讨厌。 APPSO选取了几款语音转文字的工具,根据4个不同的场景,分享具体的使用体验,不存在纯粹的推荐,过程中有种草也有踩雷。 除了处理他人的语音,我们也可以用这些工具,记录脑洞,提高效率,甚至在以前意想不到的场景,打开新世界的大门。 ——闪念贝壳、Voicenotes 接收语音固然让人暴躁,输出语音却比打字来得迅速。也就是说,捕捉一闪而过的脑洞,语音是一种时间成本较低的方式。 但这里存在一个问题,语音记录的信息粗糙、不直观、不方便检索,说完之后,我们还要再进行整理。 app「闪念贝壳」(目前只有iOS版),考虑到了存在已久的痛点。 设计特别,开屏致敬了《星球大战》的千年隼号 你不用担心停顿、口语化或者逻辑混乱,直接开口说你的想法,AI可以帮你自动整理内容,并添加标签,方便管理和查找。 生成文字之后,你还能通过预置的提示词,将内容一键改写成代办事项、小红书文案等各种风格,或者再和AI聊聊,完善你的想法。 我口述了编辑的工作日常,要求整理成待办事项,说话的时候是想到哪就说到哪,但AI能够按时间线整理。 当我以更随意的状态,输出一些小说、电影的评价,对比了录音可以发现,AI帮我省去了一些「哎」「嗯」之类的语气词,无意义的「然后」也会被消除,说错的一个词重新说一遍之后,会保留下来正确的版本。 AI干完了整理的活,然后我们就可以和它再聊聊,读后感最适合和什么都懂一点的AI交流。 基础功能也没被忽略,闪念贝壳同时保留录音和文字,并可以导出录音,我们纠错也就更加方便。 有些遗憾的是,免费用户体验的「点数」有限,且录音无法超过1分钟,付费(19元每月、149元每年、198元终身),才能不限制录音时间,继续使用AI功能。 海外的语音笔记应用Voicenotes,和闪念贝壳的定位和功能比较像:保留录音、添加标签、人工改正转录错误、AI改写文风、与AI交流想法,但界面设计更加极简。 「独家富人大象馆」,实为「杜莎夫人蜡像馆」 Voicenotes国内可用,app语言为英文,支持在设置里将我们的输入和转写语言改成简体中文。 同样,Voicenotes需要订阅(68元每月或者328元终身),才能实现1分钟以上的录音,用上GPT-4o、ClaudeOpus等更好的大模型。 ——Miley 脑洞、工作事项之外,我们的生活里还存在更日常、更轻量、一句话就能说完的场景,这时候可以试试MileyAI,一款主打「记录+智能体」的个人记忆AI,目前只有iOS版。 它很适合用来在不方便打字的路上随手一记,吃了什么,花了多少钱,有什么突然的灵感,或者接下来要做某件事情,让人类NPC的一天井井有条。 最有意思的地方在于,Miley可以根据你输入的内容,智能分析各种类型的事项。 你提到开心的事情,AI可以识别出你的情绪,并用对应的表情标记。你说午餐花了多少钱,AI会帮你记账。你怕错过点外卖的时间,AI可以设置横幅提醒。 甚至你想设立一个每日运动的小目标,也可以通过授权苹果健康数据,监督每天有没有完成。比如,告诉AI每天都要散步2000步,周末citywalk实现17800步,这一项便可以打上勾。 水灵灵地随口一说,我们就有了记账本、运动打卡、提醒事项…… AI的好处便在这里,碎片化的内容,整理起来不像以前那么花时间了,甚至像我这样不喜欢做计划的懒人也愿意试试,如此日积月累,形成微型日记,内心还会产生成就感。 不过对于免费用户来说,语音识别和智能体分析额度有限,尤其智能体分析,很容易触顶,这时候就需要「钞能力」,每月28元或者每年188元订阅。 「选题会」这个词,AI识别有错有对 更影响使用体验的是,语音识别的准确性不够高,虽然支持修改,但会影响我们使用的初衷——AI应该省事,而非多事。 ——墨问便签 说到创作,我们的脑海中会浮现这样的场景:正襟危坐在电脑前,在键盘上敲敲打打,眼睛快粘在屏幕上…… 更随意、更生活化的语音,是否能被用于更长篇幅的创作?如果你想知道自己能不能出口成章,墨问便签是个不错的开始。 墨问便签是一款微信小程序,它的AI语音功能,单条最长支持录制10分钟,目前免费。 长按底部「+」号召唤出语音功能 其中一个设计很有意思,墨问便签支持实时输出,你边说边能看到转录的文字,而不是只能看到录音时间。 但这个功能也可能是打扰我们输出的干扰项,虽然会不断地自我修正,但转录文字的准确性还有待提高。 输出完毕,按下停止键,AI会对文字润色一番,包括分段、修改错别字、去掉因为嘴瓢重复的词等等,但AI也不能修改所有的错误,之后我们还可以进行手动修改。 最终,我们就整理好了一条保留语音的笔记,可以仅自己可见,也可以公开。 墨问便签将自己定位为「创作者工具」,打开小程序,先显现出来的是它的slogan:记录即创作。 平时看着电脑屏幕发呆还不觉得有什么,但对着手机讲满10分钟,还是挺有挑战性的,不仅口干舌燥,还有搜索枯肠、无话可说的无力感。 提供轻量化体验的小程序,或许真能让思考成为一种习惯。 ——飞书妙记、讯飞听见、通义听悟 以上的语音场景,大多数不是硬性需求,可以抱着玩的心态上手体验。 平时工作遇到必须要用语音的时候,飞书妙记是我的首选。无他,习惯了,「先进团队,先用飞书」,企业账号真香。 几十分钟甚至几个小时的线下发布会、采访,我都是掏出手机,用飞书app里的「飞书妙记」录音,然后在飞书网页端处理音频,导出带有时间戳的文字记录。 这样一来,哪里的文字记录可能有问题,就可以精准定位到音频的对应位置,自己边听边修正。 飞书之前,我常用的是讯飞听见,飞书有的导入音频、区分说话人、倍速播放、搜索关键词等功能,它也有。 不过,讯飞听见虽然录音免费,但核心服务收费:将音频转成文字导出,需要购买录音转写包(连续包月18元)或者畅享包(连续包月79元)。 讯飞听见现在还有AI的加成,支持章节速览和问一问。我让聊天机器人「小谛」总结关于「冥想」的40分钟采访,重点抓得挺有条理,对于写文章有些帮助。但AI功能也并非免费,包含在录音转写包和畅享包里。 如果说飞书妙记用于线下、基于手机,那么通义听悟就补全了线上的场景。 通义听悟有网页、浏览器插件、微信小程序,更加「即用即走」,每天登录自动领取10小时的转写时长,基本相当于免费使用。 上为通义听悟,下为基于CC字幕的双语翻译 但通义听悟的翻译速度有延迟,翻译结果也会根据原文的变化而变动,这很正常,英语句子较长、定语较多,一句话说完才能知道意思,哪怕有字幕,有时候仍然一头雾水。 通义听悟实时调整翻译结果 所以在我的实际体验中,对于实时字幕,通义听悟在中文发布会的表现比英文发布会要好,像雷军这样略微不标准的普通话,很适合交给通义听悟处理。 结束共享之后,通义听悟可以提供转写原文,并智能总结内容和提取重点,很适合作为写稿材料。 但还是会出现语音识别的老问题:说不对名字。Kimi变成了「km」,秘塔变成了「蜜塔」,靠用户自己分辨和修正。 语音转文字,某种程度上是一项刚需。 聊天消息的转写,采访、会议、发布会的跟进,脑洞、生活碎片的记录,我们都可以用到它。 本质上,这些更强调AI存在感的新兴语音转文字产品,其实都在主打更智能、深入的内容处理,包括文字转写润色、按标签和类型整理内容、通过对话的方式查找和拓展内容等。 与此同时,仍有很多不尽如人意的地方。 语音转文字的准确率仍然需要提高,保留录音和支持手动编辑又勉强弥补了这个问题。 功能有创意,但不够完善,甚至成为阻碍记录的干扰项。 收费门槛很低,少量尝鲜后就需要订阅了,但这也不能怪开发者,谁都想站着赚钱。 独立开发者们在语音转文字的赛道竞争,前景如何也并不明朗。 锤子手机2017年推出的闪念胶囊,是很多人心中的「白月光」。 长按Home键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。 记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项…… 这样基于系统的功能,唤起和使用步骤更少,也更符合我们的直觉,不把记录搞复杂化,才能真正地提高效率。 所以,虽然现在产品井喷,未来可能还是由操作系统厂商一锤定音,出现AppleIntelligence这样的、系统级的收编和降维打击。 之前看到一句调侃,国内的主流操作系统不是iOS也不是Android,而是微信。 这话有些道理,像我一位做播客的同事,习惯在路上记录灵感,试过很多语音转文字的工具,最终大道至简,给文件传输助手发语音,再转文字。 高端的食材,往往只需要最简单的烹饪方式。想法本身的奔涌最为可贵,有些时候,不需要什么辅助的AI功能,我们只是想要快速把事情记录下来,能够一键完成终极目标的、最习以为常的方式,往往才是效率最高的手段。 张成晨 利若秋霜,辟除凶殃。工作邮箱:zhangchengchen@ 邮箱8 爱范儿|原文链接··新浪微博