CSS `CSS Speech Module` (提案) (`speak-as`, `voice-family`)：语音合成样式 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位听众朋友们，大家好！我是今天的主讲人，咱们今天来聊点儿不一样的——CSS Speech Module，也就是“语音合成样式”。这玩意儿听起来可能有点儿科幻，但实际上，它能让你用CSS控制网页的“说话”方式，让你的网页不再只是静态的文本和图片，而是能用声音来表达自己！

先别急着说“这玩意儿有啥用？”，想想看：给视力障碍人士提供更好的辅助阅读体验，让网页内容“声情并茂”地朗读出来；或者在一些需要语音提示的场景（比如导航、游戏）中，用CSS就能轻松搞定。是不是有点儿意思了？

当然，目前CSS Speech Module还只是个“提案”，也就是说，它还没正式成为W3C的标准，浏览器支持情况也比较有限。但是，学习它，了解它的潜力，绝对能让你在未来的Web开发中快人一步。

咱们今天主要讲两个核心属性：speak-as和voice-family。

一、speak-as：让文本“说”什么

speak-as属性决定了文本内容应该如何被语音合成器“说”出来。它有点像一个“翻译官”，告诉语音合成器：这段文字是数字？是标点符号？还是啥？

它有几个常用的值：

normal: 这是默认值，语音合成器会尽力“智能”地朗读文本。
spell-out: 把文本一个字母一个字母地“拼”出来。
digits: 把数字作为一个个单独的数字“报”出来，而不是作为一个完整的数字。
literal-punctuation: 把标点符号“念”出来，而不是用停顿来表示。
no-punctuation: 忽略所有的标点符号。

咱们来举几个例子：

<!DOCTYPE html>
<html>
<head>
<title>speak-as 示例</title>
<style>
  .spell-out { speak-as: spell-out; }
  .digits { speak-as: digits; }
  .literal-punctuation { speak-as: literal-punctuation; }
  .no-punctuation { speak-as: no-punctuation; }
</style>
</head>
<body>

<p>这段文字正常朗读：123.45</p>
<p class="spell-out">这段文字逐字朗读：CSS</p>
<p class="digits">这段文字按数字朗读：123.45</p>
<p>这段文字有标点符号：Hello, World!</p>
<p class="literal-punctuation">这段文字标点符号朗读：Hello, World!</p>
<p class="no-punctuation">这段文字无标点符号朗读：Hello, World!</p>

</body>
</html>

在这个例子中，我们定义了几个CSS类，分别对应speak-as的不同值。你可以用支持语音合成的浏览器（比如一些辅助阅读软件）打开这个HTML文件，听听看效果。

CSS类名	`speak-as`值	朗读效果
(无class，默认)	`normal`	“一百二十三点四五”
`.spell-out`	`spell-out`	“C S S”
`.digits`	`digits`	“一二三点四五”
(无class，默认)	`normal` (标点符号)	“Hello，（停顿）World！”
`.literal-punctuation`	`literal-punctuation`	“Hello，逗号，World！感叹号”
`.no-punctuation`	`no-punctuation`	“Hello World” (注意，标点符号被忽略，停顿也没有了)

二、voice-family：选择“声音”

voice-family属性允许你指定语音合成器使用的“声音”。这有点像选择字体一样，你可以选择不同的“声音”来朗读你的文本。

voice-family的值可以是一个或多个声音名称，用逗号分隔。如果第一个声音不可用，语音合成器会尝试使用下一个，以此类推。

voice-family: "Sarah", "David", sans-serif;

在这个例子中，我们指定了三个声音：Sarah、David和sans-serif。Sarah和David可能是特定的语音合成声音，而sans-serif是一个通用的声音类别，表示使用无衬线字体的默认声音。

voice-family还有一些预定义的值，可以用来指定声音的性别和年龄：

male: 男性声音
female: 女性声音
child: 儿童声音
young: 年轻声音
old: 年老声音

你可以把这些预定义的值和其他声音名称组合起来使用：

voice-family: "Sarah", female, sans-serif;

在这个例子中，如果Sarah声音不可用，语音合成器会尝试使用一个女性声音，如果还没有，就使用无衬线字体的默认声音。

需要注意的是，不同的语音合成引擎支持的声音名称可能不同。你可以查阅相关文档，了解你的语音合成引擎支持哪些声音。

咱们来看一个例子：

<!DOCTYPE html>
<html>
<head>
<title>voice-family 示例</title>
<style>
  .female { voice-family: "Microsoft Zira", female; } /* 尝试使用微软的Zira女性声音 */
  .male { voice-family: "Microsoft David", male; }   /* 尝试使用微软的David男性声音 */
  .child { voice-family: child; }
</style>
</head>
<body>

<p>默认声音：这是一段普通的文本。</p>
<p class="female">女性声音：这是一段由女性声音朗读的文本。</p>
<p class="male">男性声音：这是一段由男性声音朗读的文本。</p>
<p class="child">儿童声音：这是一段由儿童声音朗读的文本。</p>

</body>
</html>

在这个例子中，我们尝试使用了微软的Zira（女性）和David（男性）声音，以及一个通用的儿童声音。请注意，这些微软的声音名称可能需要在Windows系统上安装了相应的语音包才能生效。如果你的系统没有这些声音，浏览器可能会使用默认的声音或者选择一个相近的声音。

CSS类名	`voice-family`值	朗读效果
(无class，默认)	(浏览器默认声音)	浏览器默认的语音合成声音
`.female`	`"Microsoft Zira", female`	如果系统有Zira语音包，则使用Zira；否则，尝试使用一个女性声音；否则使用浏览器默认声音
`.male`	`"Microsoft David", male`	如果系统有David语音包，则使用David；否则，尝试使用一个男性声音；否则使用浏览器默认声音
`.child`	`child`	尝试使用一个儿童声音；如果系统没有专门的儿童声音，可能会使用一个音调较高的声音或者使用默认声音

三、其他语音相关的CSS属性（简要介绍）

除了speak-as和voice-family之外，CSS Speech Module还定义了一些其他的语音相关属性，虽然目前支持度不高，但咱们还是简单了解一下：

voice-volume: 控制语音的音量。
voice-rate: 控制语音的语速。
voice-pitch: 控制语音的音调。
voice-range: 控制语音的音调范围。
voice-stress: 控制语音的重音。
pause-before, pause-after: 在元素之前或之后添加停顿。
rest-before, rest-after: 与pause-before和pause-after类似，但可以指定更精确的停顿时间。
cue-before, cue-after: 在元素之前或之后播放提示音。
mark: 在语音中插入标记，方便程序进行处理。

这些属性可以让你更精细地控制语音合成的效果，让你的网页“说”得更自然、更生动。

四、浏览器兼容性：路漫漫其修远兮

正如我前面提到的，CSS Speech Module目前还只是个提案，浏览器支持情况并不理想。截至我写这篇文章时（2024年），主流浏览器（Chrome, Firefox, Safari, Edge）对这些属性的支持都非常有限。

但是，这并不意味着我们就不需要学习它。了解这些属性，可以让我们在未来的Web开发中更好地利用语音合成技术。而且，一些辅助阅读软件可能会支持这些属性，所以即使浏览器不支持，你的代码也可能在某些特定环境下生效。

你可以通过以下方式来测试浏览器对CSS Speech Module的支持情况：

使用Can I use网站: Can I use (caniuse.com) 是一个非常棒的网站，可以查询各种Web技术在不同浏览器中的兼容性。搜索"CSS Speech"或者具体的属性名称（比如"speak-as"），就可以看到最新的兼容性数据。
编写测试代码: 创建一个简单的HTML文件，包含一些使用了CSS Speech Module属性的元素，然后在不同的浏览器中打开，看看是否生效。你可以使用浏览器的开发者工具（通常按F12键打开）来查看CSS属性是否被正确解析和应用。
使用辅助阅读软件: 有些辅助阅读软件（比如NVDA, JAWS）可能对CSS Speech Module有更好的支持。你可以使用这些软件来测试你的代码，看看语音合成的效果是否符合预期。

五、未来展望：语音交互的无限可能

虽然CSS Speech Module的普及还需要时间，但我相信，随着Web技术的不断发展，语音交互将会变得越来越重要。想象一下，未来的网页可以根据用户的语音指令进行操作，可以根据用户的表情进行情感化朗读，甚至可以根据用户的语速自动调整播放速度。这些都将极大地提升用户体验，让Web应用更加智能、更加人性化。

学习CSS Speech Module，就是为未来的Web开发做好准备。即使现在用不上，将来也一定能派上大用场。

六、总结与思考

咱们今天简单地聊了聊CSS Speech Module，主要介绍了speak-as和voice-family这两个核心属性。虽然目前浏览器支持还不够完善，但它代表了Web技术发展的一个方向：让网页更加智能化、更加人性化。

属性	功能	常用值
`speak-as`	控制文本如何被语音合成器“说”出来	`normal`, `spell-out`, `digits`, `literal-punctuation`, `no-punctuation`
`voice-family`	指定语音合成器使用的“声音”	声音名称 (例如: `"Sarah"`, `"David"`), 性别 (例如: `male`, `female`), 年龄 (例如: `child`, `young`, `old`)
其他属性	`voice-volume`, `voice-rate`, `voice-pitch`, `pause-before`, `pause-after`, `cue-before`, `cue-after` 等，控制语音的音量、语速、音调、停顿、提示音等。	(具体值根据属性而定，请查阅相关文档)

最后，留给大家几个思考题：

除了我今天讲的这些，你还能想到哪些CSS Speech Module的应用场景？
如果让你来设计一个语音合成引擎，你会考虑哪些因素？
你认为未来的Web开发中，语音交互会扮演什么样的角色？

希望今天的讲座能给大家带来一些启发。谢谢大家！希望未来我们能一起探索更多Web技术的可能性。

发表回复 取消回复

发表回复取消回复