人类的输入输出

Sun 10 July 2016

说起来,随着计算机技术的飞速发展, IO 的瓶颈,最终还是在人本身。

人类的主要输入方式为视觉和听觉。视觉输入抽象数据的方法为阅读文字,并进行处理。听觉输入抽象数据的方法为听其他人(或计算机)讲话,并进行处理。辅助的,输入的元信息包括且不限于色彩、字体、排版方式、讲话语调语气。辅助输入还包括图像信息以及音乐信息。某些输入中,图像以及音乐是一个整体。

同样的,人类的主要抽象输出方式包括视觉的输出以及听觉的输出。视觉的输出,主要为文字性的输出以及图像式的输出。听觉的输出,主要为语音性质的输出以及音乐性质的输出。

在这些输入输出方法中,最有效的输入方式为抽象的文本性输入以及抽象的文本性输出。绘画以及音乐,虽然信息熵更高,但输入过程的细节丢失也更多,且此类输入会受到个人的理解严重影响。作为稳定的输入输出手段,文字性的似乎为最合适的。

通常,中文发音的速率大约为 180 wpm,约合 3 个汉字每秒。英文大约为 160 wpm。传递的信息量,大约是一致的。此时,折合的字节数,大约为中文 72bps,英文 100bps。英文看似信息量更高,但其实折合起来,并没有这么高。考虑信息熵后,英文的输出速度甚至可能更低 —— 有效的单字信息量,英文比中文的低一些。写字的速度,不论语言,均低于讲话的速度。

根据调查,阅读速度对于各种语言都在为 180 wpm 左右。也就是说,阅读的输入速率与发音的输出速率大致一致,都在百字节/秒以内。

因此,对于原生的语音和文字来说,人类的处理速率是几乎一致的。当然,由于人进行 context switching 的成本很高,因此进行输入的 multiplexing 是不经济的。

进入信息时代,阅读的输入并没有产生本质的变化。键盘的输出速率毫无疑问低于语音输出速率。触摸选择的速率,更是低于,或在最好情况下与手写持平。这也导致了一个本质的问题 —— 人机界面的 I/O 速率在最好情况下依然低于人类习惯的 I/O 速率。

理想中,最高效率的 HCI 方法即为语音 I/O,辅助文本 I/O。然而,语音文本 I/O 的缺陷也是显著的。我相信大家都对车载 GPS 的语音输入深恶痛绝 —— 下面是个绝佳的例子

  • You: Send me to the gas station along my way to downtown LA before I hit the freeway
  • GPS: Sorry, I can't understand that. Say a command, or help.
  • You: Navigate to nearest gas station
  • GPS: I've found 16 gas stations near you. Which one do you want?
  • looking at GPS screen. rear ended on another car

此类语音控制的 epic fail 随处可见。 Siri 听起来不错,甚至会给你讲段子,但是对于这种人类理解起来非常简单的语音,计算机目前却无计可施。人类对上面的回答会很不一样:

  • 你:我要去洛杉矶市区,在我上高速之前指给我最近的加油站
  • 你女朋友:我看看地图。你继续开
  • (过了半分钟)
  • 你女朋友:上高速之前右拐一下有一家加油站

人类的思考过程,在很大程度上依然是未知的。但是,人类目前了解到的是,经过某种过程后,人类通过神经冲动的方式,或是控制声带,或是控制手,使用目标器官进行控制。因此,似乎最好、最快的方法,便是使人类可以用原生的神经冲动进行控制。

对于直接用神经冲动的交互,从几十年前到现在一直都是在不断继续的,从脑袋上贴电极到脑袋里插电线,类似的尝试一直在不断的继续。比较有侵入性的,是让盲人复明的摄像头以及电子耳蜗 —— 这些装置的侵入性主要因为对进行信息的输入的需求上。无侵入性的解决方案主要是脑袋上贴电极的方法,探测人脑的活动而进行反应。

对于大部分人来说,提高计算机和人类的交互效率,并不需要真的进行双向的加速 —— 从计算机到人的下行带宽已经足够,需要解决的问题只是更快的人到计算机的上行带宽。目前,已经有一些头盔式脑机输入装置走上了商业销售的道路。虽然他们仍然需要进行训练方可使用,而且输入的速率也非常低,精度也有问题,但是在未来,这类技术在解决了精度和速率问题后,很有可能变成下一代的主要输入方式之一。也许,现在被大家调侃的脑上插管用于通讯、嘴里插管用于喝 Soylent 的情景,在 20 年后已经变成常态。

Comments