人类的输入输出

说起来，随着计算机技术的飞速发展， IO 的瓶颈，最终还是在人本身。

人类的主要输入方式为视觉和听觉。视觉输入抽象数据的方法为阅读文字，并进行处理。听觉输入抽象数据的方法为听其他人（或计算机）讲话，并进行处理。辅助的，输入的元信息包括且不限于色彩、字体、排版方式、讲话语调语气。辅助输入还包括图像信息以及音乐信息。某些输入中，图像以及音乐是一个整体。

同样的，人类的主要抽象输出方式包括视觉的输出以及听觉的输出。视觉的输出，主要为文字性的输出以及图像式的输出。听觉的输出，主要为语音性质的输出以及音乐性质的输出。

在这些输入输出方法中，最有效的输入方式为抽象的文本性输入以及抽象的文本性输出。绘画以及音乐，虽然信息熵更高，但输入过程的细节丢失也更多，且此类输入会受到个人的理解严重影响。作为稳定的输入输出手段，文字性的似乎为最合适的。

通常，中文发音的速率大约为 180 wpm，约合 3 个汉字每秒。英文大约为 160 wpm。传递的信息量，大约是一致的。此时，折合的字节数，大约为中文 72bps，英文 100bps。英文看似信息量更高，但其实折合起来，并没有这么高。考虑信息熵后，英文的输出速度甚至可能更低 —— 有效的单字信息量，英文比中文的低一些。写字的速度，不论语言，均低于讲话的速度。

根据调查，阅读速度对于各种语言都在为 180 wpm 左右。也就是说，阅读的输入速率与发音的输出速率大致一致，都在百字节/秒以内。

因此，对于原生的语音和文字来说，人类的处理速率是几乎一致的。当然，由于人进行 context switching 的成本很高，因此进行输入的 multiplexing 是不经济的。

进入信息时代，阅读的输入并没有产生本质的变化。键盘的输出速率毫无疑问低于语音输出速率。触摸选择的速率，更是低于，或在最好情况下与手写持平。这也导致了一个本质的问题 —— 人机界面的 I/O 速率在最好情况下依然低于人类习惯的 I/O 速率。

理想中，最高效率的 HCI 方法即为语音 I/O，辅助文本 I/O。然而，语音文本 I/O 的缺陷也是显著的。我相信大家都对车载 GPS 的语音输入深恶痛绝 —— 下面是个绝佳的例子

You: Send me to the gas station along my way to downtown LA before I hit the freeway
GPS: Sorry, I can't understand that. Say a command, or help.
You: Navigate to nearest gas station
GPS: I've found 16 gas stations near you. Which one do you want?
looking at GPS screen. rear ended on another car

此类语音控制的 epic fail 随处可见。 Siri 听起来不错，甚至会给你讲段子，但是对于这种人类理解起来非常简单的语音，计算机目前却无计可施。人类对上面的回答会很不一样：

你：我要去洛杉矶市区，在我上高速之前指给我最近的加油站
你女朋友：我看看地图。你继续开
（过了半分钟）
你女朋友：上高速之前右拐一下有一家加油站

人类的思考过程，在很大程度上依然是未知的。但是，人类目前了解到的是，经过某种过程后，人类通过神经冲动的方式，或是控制声带，或是控制手，使用目标器官进行控制。因此，似乎最好、最快的方法，便是使人类可以用原生的神经冲动进行控制。

对于直接用神经冲动的交互，从几十年前到现在一直都是在不断继续的，从脑袋上贴电极到脑袋里插电线，类似的尝试一直在不断的继续。比较有侵入性的，是让盲人复明的摄像头以及电子耳蜗 —— 这些装置的侵入性主要因为对进行信息的输入的需求上。无侵入性的解决方案主要是脑袋上贴电极的方法，探测人脑的活动而进行反应。

对于大部分人来说，提高计算机和人类的交互效率，并不需要真的进行双向的加速 —— 从计算机到人的下行带宽已经足够，需要解决的问题只是更快的人到计算机的上行带宽。目前，已经有一些头盔式脑机输入装置走上了商业销售的道路。虽然他们仍然需要进行训练方可使用，而且输入的速率也非常低，精度也有问题，但是在未来，这类技术在解决了精度和速率问题后，很有可能变成下一代的主要输入方式之一。也许，现在被大家调侃的脑上插管用于通讯、嘴里插管用于喝 Soylent 的情景，在 20 年后已经变成常态。

tifan.net

人类的输入输出

Comments