HoloLens开发手记 - 语音输入 Voice input

Changwei | 5/6/2016 11:10:00 AM


语音是HoloLens三大重要输入形式之一。它允许你直接通过语言控制全息图像,而不用借助手势。你只要凝视全息图像然后说出语音命令即可。语音输入是自然的交互方式,它能够很好的改善复杂的交互,因为通过一条语音命令即可以减少很多复杂的UI菜单。

HoloLens语音输入是由同UWP应用一样的语音识别引擎支持。

 

 

选中命令 The "select" command


 

即使没有特地为应用添加语音命令特性,用户还是能够通过说:“select”来简单地激活你的全息图像。这个行为和用手或点击器点击类似。你将会听到一声提示音,同时会看到一条提示:“Select”,用以确认你的语音指令。“Select”命令是由低功耗关键词识别算法来保证的,所以任何时候你都能使用它,这只会带来极低的电量生命周期影响。

 

Say "select" to use the voice command for selection

 

激活Cortana Hey Cortana


 

任何时候你都可以通过说:"Hey Cortana"来激活它,并且不用等待它出现,即可继续问它问题或给出指令。关于Cortana的更多信息和你能做什么,你直接询问它即可。可以说:"Hey Cortana, What Can I Say?",然后它会更出作业和推荐的语音命令列表。如果你已经进入Cortana应用,点击 ? 按钮同样可以获得提示列表。

HoloLens特定语音命令 HoloLens-specific commands

  • Go Home - 唤出开始菜单
  • Launch <应用名> - 打开应用
  • Take a picture
  • Start recording
  • Stop record
  • Increase the brightness
  • Decrease the brightness
  • Increase the volume
  • Decrease the volume
  • Shut down the device
  • Restart the device
  • Reboot the device
  • Go to sleep
  • What time is it?
  • What is my IP address?
  • Am I connected to the network?
  • Are you listening?
  • How much battery do I have left?
  • Call <联系人> - 需要安装HoloSkype
  • Web search

 

"See It, Say It"模式


 

对于语音输入,HoloLens有一个"See It, Say It"模式,在此模式内按钮上会出现文本提示来告诉用户应该使用什么语音命令来使用它。例如,我们看向一个2D应用,当我们看到Holobar上的Adjust按钮时,会出现文本提示框,此时我们直接说:"Adjust"命令即可调整应用在世界中的位置。

 

When looking at a 2D app, a user can say the &quot;Adjust&quot; command which they see in the title bar to adjust the position of the app in the world

 

当应用遵循此规则时,用户可以很容易地明白应该说什么命令来控制系统。为了加强此特性,当用户凝视按钮时,你可以显示一个语音命令提示栏,来使用户明白此按钮支持语音输入同时明白应该说什么指令。

 

See it, say it commands appear below the buttons

 

语音转文字 Dictation


 

和通过点击手势输入一样,语音听写能够更有效地在应用中输入文本。这能更好地加快用户输入,以减少输入对用户体验的影响。

 

Voice dictation starts by selecting the microphone button

 

任何时候全息键盘激活后,你都能将输入模式切换到听写模式。可以通过点击文本输入框左边的麦克风按钮来开始听写操作。

 

通信 Communication


 

对于那些想要使用HoloLens自定义语音输入处理选项的应用来讲,理解音频流类别(audio stream categories)很重要。Windows 10支持数种音频流类别,同时为了优化为语音输入、通信和其他辅助周边环境音频捕获场景量身定制的麦克风音频质量,HoloLens支持其中3种类别来保证自定义音频处理。

  • AudioCategory_Communications流类别被自定义用于通话质量和叙述场景,提供给客户端用户声音的16kHz 24位单声道音频流.
  • AudioCategory_Speech流类别被定制用于HoloLens(Windows)语音识别引擎,提供它们 16kHz 24位单声道用户音频流。如果需要的话,此流类别亦可用于第三方语音识别引擎。
  •  AudioCategory_Other流类别被定制用于周边环境声音录制,提供给客户端 48kHz 24位立体声音频流。

所有的音频处理都通过硬件加速,这意味着此特性会大大降低电池消耗,如果与CPU处理同样音频作业相比的话。通过避免在CPU上处理其他音频输入进程,可以最大化系统电池生命周期,同时能够利用上内置的音频处理作业。

 

问题诊断 Troubleshooting


 

如果你在使用"select"和"Hey Cortana"语音命令中遇到任何问题,请尝试移动到安静的空间,远离噪音来源,或者尝试大声说话。此时,HoloLens上所有的语音识别都将特地为美式英语调整和优化。