AI手机来了?微软Azure AI语音服务TTS实现语音到文本的转录功能

  作为全球领先的智能终端制造商和移动互联网服务提供商,OPPO致力与合作伙伴一起,将先进的人工智能技术与手机相结合,打造出新一代AI手机,使用户得到满足日渐增长的体验需求。

  行业领先的AI服务提供商OPPO与微软共同合作,连续为用户推出了两项大受欢迎的功能:

  ◉OPPO小布连麦功能采用微软全新TTS技术实现更接近真人的声音,打开即可对话连线,让用户跟小布助手的语音互动更具有真实感和沉浸感。

  ◉Phone Link功能能够让移动电子设备无线连接到PC端,无需第三方工具就能实现手机端和PC端的无缝连接,将PC端强大的能力扩展、共享给手机,为用户更好的提供更加便捷、智能和灵活的跨设备体验。

  而在海外市场推出的新产品上,OPPO与微软在ASR和TTS技术上合作,为OPPO AI手机的两项创新功能提供更出色的用户体验:

  ◉AI录音摘要:快速将录音转录为文本并总结为摘要,让用户能迅速了解录音内容,并随时分享;

  ◉AI文章朗读:让手机以自然声音朗读文本,解放用户的手和眼睛,轻松实现与手机的交互。

  要实现这两项功能,OPPO面临着一系列技术上的挑战,包括转录的准确性、延迟、多语言支持以及安全与合规。

  OPPO首先解决的难题是确保转录的准确性,这是至关重要的,无论是日常使用还是移动办公,用户不仅要求可以将语音准确地转为文本,还期望得到简单、清晰且准确地表达原文精髓的摘要;其次是如何做到延迟短、响应快速,因为没有用户能忍受长时间的等待;其三是文本朗读的声音能更接近人的声音,传统的计算机合成语音单调、刻板,用户更希望听到符合人类语言特征、自然的、类似人声的语音。此外,隐私保护以及安全合规也是OPPO必须应对的另一个重要挑战,新一代的AI手机既要有细致的功能满足用户的全面需求,又要保护好最终用户的个人隐私。

  为了应对这些挑战,OPPO希望选择一个在技术上具有雄厚实力和技术资源且具有前瞻性发展眼光和魄力的AI合作伙伴,展开稳定的长期合作,共同将最新的AI技术应用于智能手机,为用户提供创新服务。

  为了实现语音到文本的转录功能,OPPO采用了Azure AI Speech国际服务,该服务使开发人员能够快速准确地将多种语言和变体的音频转录为文本,它还支持定制模型,以增强特定领域术语的准确性。

  目前企业需要通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用Azure AI 语音服务、ChatGPT等的可能,满足国内发票需求。

  通过微软官方合作伙伴获取服务,可以合规、稳定地提供企业用户使用ChatGPT的可能,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

  微软提供的REST API服务还可以使开发人员以40XRTF的速度创建准确的音频转录,这意味着一个10分钟的音频文件可以在15秒内完成转录,能充分满足OPPO对音频转录时限的要求。同时,Azure AI语音服务提供的语种识别功能(Language Identification(LID))可以迅速且精准地识别用户所用语言,这一功能确保了AI手机可以准确地转录和叙述各种语言的内容,使开发人员能够简化与多种语言音频交互的用户体验。图1是OPPO利用Azure AI Speech服务实现语音转录的流程图。

  为了实现文本朗读功能,OPPO采用了Azure AI文本到语音的TTS服务,该服务采用了深度神经网络技术,使计算机合成的声音可以高度模拟人声。它提供了类似人声的自然韵律和清晰的发音,使朗读的语音几乎与人声相同,大大减轻了人们与人工智能系统交互时的听力疲劳。此外,Azure AI文本到语音功能提供多种声音和语言,这使得多语言支持变得很容易,只需通过预先构建的多语言神经语音系统,用户无需动手、用眼,就能轻松阅读多种语言的内容。图2是OPPO手机利用Azure AI文本到语音TTS服务实现文本转语音的流程图。

  得益于Azure AI语音服务的易用性和微软技术团队的优异支持,OPPO的项目启动非常迅速,在微软技术团队的帮助下,OPPO仅用两周时间就完成了场景验证,并正式开始项目实施。

  在项目实施过程中,为了提高对多种语言声音识别的准确率,微软技术团队与OPPO开发团队一起,通过优化手段截取多个高质量音频片段进行识别,从而大幅度提高了识别准确率。

  利用Azure AI语音到文本服务和Azure AI文本到语音服务,OPPO实现了为AI手机的两项创新功能提供更出色用户体验的目标。

  OPPO AI手机的AI录音摘要实现了超快的智能转录,实时因子(RTF)低于 0.3,这意味着手机用户能够几乎实时地将来自通话、会议、讲座、待办事项等各种来源的语音转录为文本,并进一步将其归纳出摘要信息,便于及时掌握和分享信息,这将极大地提升利用手机进行移动办公的效率。此外,Azure AI 语音服务行业领先的单词校正率(WCR)使OPPO的AI手机不仅转录速度快,而且非常准确,减少了误解并加强了沟通,这一点在会议、访谈和学术讲座等场景下特别有帮助。

  OPPO AI手机的AI文章朗读使用户可以无需动手、用眼,就可以听各种语言的文本,不仅朗读的声音更类似人声,而且用户还能选择口音、调整朗读速度等,无论用户是在驾车、锻炼、烹饪、放松休闲,都可以“听”手机上的文章。

  此外,与微软的合作也充分保证了OPPO AI手机的合规性,因为Azure AI 全球语音服务遵守严格的安全协议和合规标准,确保用户的数据受到保护。在项目实施中,OPPO也采取了一系列措施来保护用户隐私,这些措施包括音频文件采用匿名方式,不包含可识别的个人信息;数据传输链路加密并且音频文件处理完毕就地删除;各个国家(地区)的音频文件在本国(地区)处理。这种对安全和隐私的承诺建立了用户之间的信任,使用户可以放心地使用OPPO的AI手机。

  借助Azure 语音服务功能,OPPO为AI手机用户带来了更出色的体验。AI录音摘要让用户可以将音频文件转录为文本并进一步将文本内容总结为简短摘要,使他们能够迅速了解录音的主要内容,并随时分享给需要的人。而AI文章朗读则使OPPO手机用户可以解放手、眼,轻松享受类似人声的自然声音带来的阅读体验。更值得一提的是Azure AI语音服务使用很方便,可直接调用对应的API,让这些功能在手机上快速实现。OPPO致力于成为AI手机的普及者,AI录音摘要和AI文章朗读功能仅仅是迈出的一小步,未来我们将继续与微软合作,将更多出色的AI体验带给广大的用户。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  美国成世界上年休假时间最少的国家:人均仅11天,65%美国人认为假期被剥夺!中国香港去年假期28天

  纳指收创新高!特斯拉涨超6%,市值一夜大增近2800亿元!英伟达跌3.8%后转涨,油价涨2%

  2024年1-5月河南省各地市财政和税收排名,全省2/3地市出现负增长

  iPhone16和华为Mate70更多细节浮出水面:谁会是,最终选择?

其他人还喜欢