产 品 介 绍
产品介绍 应用于消费类电子产品上的交互式语音集成芯片(RSC-100/164T,RSC-300/364)是一种高性能、低成本的8位MCU,所有这类芯片内部集成有ADC、DAC、ROM(除了RSC-100/300)、RAM和麦克风的预放大电路,并拥有以下多种功能:与说话者无关/有关的语音识别、语音确认(PASSWORD)、语音和音乐合成,录音和回放、快速数字拨号(只有RSC-300/364)、持续监听。
产品线有两种通用目的的微处理器(RSC系列) 1. RSC-100/164T—低成本的版本(只支持4.0版本技术) 2. RSC-300/364(支持最新版本的6.0版本技术),它有更快的响应时间、先进和附加的技术(包括数字拨号,固定单词触发,同时产生数字记录和识别模板) 3. RSC-164/364产品的特性 a) 有64k内置ROM的8位微处理器; b) 集成有A/D和D/A转换器; c) DAC或PWM(Pulse Width Modulation); d) 可实现DTMF 拨号; e) 音源的AGC功能; f) 16个通用I/O端口; g) 片上有输出放大器; h) 省电模式-最小的功耗(小于5UA)。
RSC-300/364产品特性 RSC-300/364是专门为消费类电子产品应用而设计的,拥有高度集成和高识别率的系统化芯片。RSC-300/364有额外的SDAM和硬件加速器去支持SENSORY的最新技术(5.0以上)。这种特别设计的8位微处理器在拥有灵活的编程时支持一系列语音技术:与说话者无关/有关的识别、语音和音乐的合成、语音确认、语音提示、持续监听、快速数字拨号、录音和回放。RSC-300/364允许在片上存储最多6个与说话者有关的短句。RSC-300与RSC-364的区别就是少一个64K的ROM,根据封装和版本的不同,RSC-300/364的价格在2.2~3.9美元之间。
RSC-164T产品特性 SENSORY的RSC-100/164是专门为成本较为敏感的消费类电子和玩具业设计的。RSC-100/2164也是一块8位的微处理器,支持4.0的语音技术:与说话者无关/有关的语音识别、声音合成、语音确认、持续监听、录音和回放。片上集成有麦克风预放大电路、ADC、DAC、ROM、RAM和PWM(脉宽可调)的喇叭输出,从而使您的系统成本大大降低。RSC-100与RSC-164的区别就是少一个64K的ROM。
VOICE DAILER特性(ASSP) VOICE DAILER364是为了增加语音拨号而设计的,它可应用在非手持的车载电话、手持电话、PDA、答录机和其它个人电子设备。使用者只需说出名字便可拨出相关的电话;VOICE DAILER-364芯片可管理一整套电话目录,包括名字、电话号码和语音识别模板。
SENSORY技术
与说话者有关的语音识别 (Speaker Dependent, SD) 在识别时,每个识别词语需要使用者训练两次来创建语音模板,一个模板需要占用128个字节的存储量。由于练习的原因,一般把需识别的词汇量限制在60个以内,但超过100个也是完全可以的。通过正常设计, SENSORY的SD技术能达到99%的准确率。 与说话者无关的语音识别 (Speaker Independent, SI) ——不需要训练 SI技术是为一种指定的语系而设计的(如英语、汉语、德语),它最多能识别14条命令(识别数量由ROM的容量决定)。通过正常设计,SENSORY的SI技术能达到97%的准确率 语音确认 (Speaker Verification, SV) 同SD技术有点相似,SV能辨别出现在的一句话与原来说的是否相同。使用者可以训练1~4级密码(密码级数越多越安全)来开启设备。误识率大概在1~6%。根据环境、使用者数量、要求的安全程度的不同可设定五级训练难度。 语音自适应技术 (Speaker Adaptive, SA) 对于单用户来说,SA通过一段时间对环境和说话者声音的适应,改进相关的语音模板,从而提高识别准确率。 持续监听 (Continuous Listening, CL) 持续监听技术不需按键便可对某个特别、非连续的命令(在这之前需要静音)产生响应, SENSORY提供SI和SD两种持续监听技术。 WORD SPOTTING ——在一句话中响应某个指定词语。 WORD SPOTTING是持续监听的升级版本,它可以从正常的谈话中“捕捉”并响应某个关键词语,这种技术提供了更为自然、友好的人机界面。 快速数字拨号 (Fast Digit) ——输入电话号码和数字串 快速数字拨号采用了优化的识别算法来实现快速数字串输入,这种技术对语音拨号应用是非常理想的,辟如用在手持通信设备、个人拨号器,手机、非手持设备。 录音和回放 (Record & Playback) ——压缩的数字声音再现。 SENSORY的交互式语音处理器可以14Kbit/s的数据率来存储声音在外置的RAM上。它可用在答录机、变音器、手持录音设备上。根据回放的质量和数量要求,也可以改变片上的压缩率。录音过程中出现完全静音时,微处理器会自动去掉静音这一段来改善声音质量,节约存储空间。
语音合成 (Speech Synthesis) ——创建一个自然的使用界面。 语音效果合成是通过在片上的微处理器读取ROM上的数据实现的。SENSORY合成技术使用了时域技术来压缩语音,使数据率在10kbit/s以下,另外使用了加强的ADPCM算法来回放声音。语音合成技术降低了对手工指令的依赖,使人机界面更为友好。 音乐合成 (Music Synthesis) SENSORY的音乐合成技术能产生四首模拟乐曲,用户也可用一种乐器的声音和音阶来自定义乐库。合成技术不同于数字录音,一首2~3分钟的歌曲只需5KB的片外存储容量,在电话机的应用中,这种功能还可以产生DTMF音,使RSC微处理器实现直接拨号功能。 产品控制 ——完全的系统芯片解决方法。 RSC语音处理器可单独工作或作为协处理器来实现语音功能,通常,它是一个复杂系统的核心:它可提供可变长度的指令,传输率达到4MIPS 、两个计时器、外部存储器接口、DAC和PWM输出,麦克风预放大器、16个I/O端口等。
开发工具
演示模板164T和364 (Demo Unit) 通过演示模板,您能充分体会到SENSORY公司SR芯片的真正魅力。每个模板都能单独演示独一无二的技术,包括SI、SD、SV等,164T和364有着几乎相同的硬件,两者的主要区别是预编程的软件和相关库文件。 RSC-164T和RSC-364开发工具 (Development Kit) 有着相同硬件平台的RSC-164T和RSC-364开发工具,提供了灵活、简便的开发环境,它包括硬件、软件两部分。利用它可开发出用户想要的新颖语音产品。软件开发人员可以无限制的接触到独特的语音技术. Rapid Prototyping Module(适配器, RPM) 它用来连接164T/364演示模板和RSC-164T/364开发工具的,开发人员可以下载RSC软件到适配器,从而快速应用到自己的产品上. Voice Dialer364开发工具 Voice Dialer364开发工具的硬件部分是演示模板364,利用这套工具可以开发出任何基于VD364芯片的语音拨号.
语音合成技术
Sensory SC-6xx系列语音合成芯片简介
一、 概述
Sensory SC-6xx系列语音合成芯片主要有SC-601、SC-604、SC-605、SC-614和SC-691,其中SC-691是一颗特殊的SC-604。
SC-601、SC-604、SC-605、SC-614具有相同的内核,只是I/O口的数量及片内MASK ROM的大小不一样。它们是带有DSP内核的16-bit单片机,必须进行软件开发才能应用,而且的它们软件(即控制程序)只能放在片内MASK ROM中,不能外挂,也就是说必须进行掩膜,而掩膜需要上量,这无法满足一些小批量产品的要求,即使产品能上量,前期的小批量试产也是没法进行的,有较大局限性。
出于对此局限性的考虑,SENSORY公司给SC-604编写了一个特殊控制程序,使SC-604工作于受控模式,并将该控制程序掩膜进了SC-604的片内MASK ROM中,由此就产生了SC-691,即SC-691是一颗掩膜了特殊控制程序的SC-604。它的特点是,不需要对SC-691本身进行软件开发,只需外加一颗常用的单片机(如8051)去控制它即可,这样开发速度快,开发周期短(因为不用掩膜),而且没有量的限制,很适合小批量产品及大批量产品的前期生产。但SC-601、SC-604、SC-605、SC-614可以单芯片工作,而SC-691则必须外接主控CPU及ROM,成本相对高一些,所以对于比较成熟的、能够上量的产品则改用SC-601、SC-604、SC-605、SC-614比较合适。
二、SC-601、SC-604、SC-605、SC-614共同特征
1、 带DSP内核的16-bit单片机,具有很强的运算能力,且运行速度快,每秒可执行1200万条指令(12MIPS)。
2、 带语音合成器,支持MELP、CELP、LPC及ADPCM多种语音压缩算法,音质好
3、 能同时播放语音及MIDI音乐
4、 工作电压范围:3.0V~5.2V
5、 功耗低,且有省电模式,省电模式下电流在10u A以下
6、 32K WORDS片内CODE ROM,用于存储程序及语音数据
7、 另有片内DATA ROM,用于存储语音数据
8、 640 WORDS RAM
9、 16~64条I/O
10、 PDM输出,能直接驱动32Ω喇叭,也可以另加放大电路进行放大
11、 振荡电路可以用电阻也可以用32.768KHz晶振
12、 裸片或LQFP封装
三、SC-601、SC-604、SC-605、SC-614的I/O、ROM及封装的比较
|
芯片型号 |
SC-601. |
SC-604 |
SC-605 |
SC-614 |
|
I/O |
32 |
16 |
32 |
64 |
|
ROM |
32K WORDS |
32K WORDS |
32K WORDS |
32K WORDS |
|
DATA ROM |
1Mb |
无 |
1.83Mb |
无 |
|
能存储语音数据的时间长度(1.0Kbps MX) |
24分钟 |
6.5分钟 |
37分钟 |
6.5分钟 |
|
引脚数 |
LQFP封装 |
100 |
64 |
100 |
100 |
|
裸片 |
52 |
36 |
52 |
86 |
另外,SC-614可以外接最大为64 Mb的ROM来存储语音数据,存储的语音数据可播放长达18小时。
四、SC-691的主要特征
1、 支持MELP、CELP、LPC及ADPCM多种语音压缩算法,音质好
2、 能同时播放语音及MIDI音乐
3、 工作电压范围:3.0V~5.2V
4、 功耗低,且有省电模式,省电模式下电流在10u A以下
5、 PDM输出,能直接驱动32Ω喇叭,也可以另加放大电路进行放大
6、 振荡电路可以用电阻也可以用32.768KHz晶振
7、 裸片(36脚)或LQFP封装(64脚)
8、 本身不需要编写软件,只需外加一个单片机(可以是8位的也可以是4位的)去控制它即可,另外还需外加一个ROM存储语音数据,如下图所示:
MCU从ROM中读取语音数据,发给SC-691,SC-691然后把语音数据合成语音播放出来。
9、 SC-691本身没有语音数据时间长度的限制,其能播放的语音时间长度由主控CPU(MCPU)外挂的ROM的大小而定。
10、 与MCPU之间的接口为2条状态线+3条控制线+4条数据线或2条状态线+2条控制线+8条数据线,前一种方式下,SC-691可以在播放语音的过程中接收新的控制命令,而后一种方式,SC-691在播放语音的过程中不能任何控制命令,只能在一段语音播放完了之后才能接受新的控制命令。
11、 有4条通用I/O
12、 有6级音量可调
13、 播放语音的语调和语速可调
五、MELP、CELP、LPC及ADPCM语音压缩算法
MELP: Mixed Excitation Linear Prediction,混合激励线性预测编码
CELP: Code Excited Linear Prediction,码激励线性预测编码
LPC: Linear Predictive Coding,线性预测编码
ADPCM:Adaptive Differential Pulse Code Modulation,自适应差分脉冲编码调制
数据率比较:
|
算法 |
数据率(8KHz采样率) |
存储1分钟语音需要的ROM大小 |
|
MELP |
1.0~3.5 Kbps |
7.5~26.2KB |
|
CELP |
3.0~11.2 Kbps |
22.5~84 KB |
|
LPC |
1.8 Kbps |
13.5 KB |
|
ADPCM |
32 Kbps |
240 KB |
六、开发工具
1、 语音压缩工具:SCT-6000,用于压缩语音,SC-601、SC-604、SC-605、SC-614和SC-691都需要
2、 软件开发工具:
1) MSPSCANPORTI/F(PC并口连接器)
2) SDK50P614(15片SC-614-P,SC-614窗口片)
3) SPEECH–EVM + EPC50C605(用于SC-601、SC-604、SC-605、SC-614独立模式的软件开发)/ EPC50C604(用于SC-604受控模式的软件开发)/ PC50C604(SC-691主控CPU的软件开发)
|