AIoT应用开发:搞定语音对话机器人=ASR+LLM+TTS
创作时间:
作者:
@小白创作中心
AIoT应用开发:搞定语音对话机器人=ASR+LLM+TTS
引用
CSDN
1.
https://blog.csdn.net/u010522887/article/details/142374036
本文将介绍如何通过ASR(语音识别)、LLM(大语言模型)和TTS(语音合成)实现一个语音对话机器人。文章详细介绍了具体的代码实现和遇到的问题及解决方案,适合有一定技术基础的读者。
大体实现思路如下:
前几篇,在板子上把
LLM 大脑
、
耳朵
和
嘴巴
装上了:
- 如何在手机端部署大模型?
- 手机端跑大模型:Ollma/llama.cpp/vLLM 实测对比
- AIoT应用开发:给板子装上’耳朵’,实现实时音频录制
- AIoT应用开发:给板子装上’嘴巴’,实现音频播放
对应到设备上:
- 耳朵 == 麦克风;
- 大脑 == 大语言模型;
- 嘴巴 == 扬声器;
今日分享,带大家实操:如何把三者串联起来,实现实时语音对话。
有小伙伴问:没有 arm 开发板怎么办?准备一台 Android 手机就行。
友情提醒:本文实操,请确保已在手机端准备好 Linux 环境,具体参考教程:如何在手机端部署大模型?
1. 语音识别-ASR
原打算在板子上部署语音识别模型,发现小模型效果不太好,而大模型的耗时不能忍。
故先采用云端接口跑通流程,这里选用siliconflow提供的免费接口。
给大家贴下调用代码:
def asr_sensevoice(file_path="output/test.mp3"):
url = "https://api.siliconflow.cn/v1/audio/transcriptions"
headers = {
"accept": "application/json",
"Authorization": "Bearer xxx"
}
files = {
"file": open(file_path, "rb"), # The key "file" should match the expected parameter name on the server
"model": (None, "iic/SenseVoiceSmall") # "None" is used because model is just a string, not a file
}
response = requests.post(url, files=files, headers=headers)
data = response.json()
return data["text"]
2. 智能问答-LLM
在如何在手机端部署大模型?中,我们本地部署了
qwen2:0.5b
并接入了OneAPI,直接调用即可。
3. 语音合成-TTS
之前和大家过几款最近爆火的 TTS 项目:
- EdgeTTS
- ChatTTS
- CosyVoice
EdgeTTS 使用最为简单,先接进来:
def tts_edge(text='', filename='data/audios/tts.wav'):
communicate = edge_tts.Communicate(text=text,
voice="zh-CN-XiaoxiaoNeural", # zh-HK-HiuGaaiNeural
rate='+0%',
volume= '+0%',
pitch= '+0Hz')
communicate.save_sync(filename)
4. 整体实现
最后,我们把 ASR + LLM + TTS 串联起来,关键流程如下:
- 基于AIoT应用开发:给板子装上’耳朵’,实现音频录制中实现的逻辑,一旦有音频文件保存到本地,即触发对话功能;
- 语音识别:如果识别结果开头包含关键词
kwords
,才会触发 LLM; - 智能问答:LLM 基于语音识别结果,做出文字答复;
- 语音合成:TTS 结果保存到本地;
- 音频播放:把保存在本地的 TTS 结果,通过蓝牙音箱播放。
贴一下完整代码:
import android
droid = android.Android()
def asr_llm_tts(filename='xx.wav', llm_list=['qwen-0.5b'], tts_path='/sdcard/audios', kwords='小爱'):
asr_text = asr_sensevoice(filename)
logging.info(f"ASR 识别结果:{asr_text}")
if asr_text.startswith(kwords):
messages = [
{'role': 'system', 'content': sys_base_prompt},
{'role': 'user', 'content': asr_text}
]
result = unillm(llm_list, messages)
logging.info(f"LLM 结果:{result}")
filename = f'{tts_path}/{datetime.now().strftime("%Y%m%d_%H%M%S")}.wav'
tts_edge(result, filename=filename)
if os.path.exists(filename):
tag = os.path.basename(filename).split('.')[0]
# 查看是否有音频播放
play_list = droid.mediaPlayList().result
for item in play_list:
res = droid.mediaPlayInfo(item)
isplaying = res.result['isplaying']
if not isplaying:
droid.mediaPlayClose(item)
# 开始播放音频
res = droid.mediaPlay(filename, tag, True)
# 打印播放信息
logging.info(droid.mediaPlayInfo(tag).result)
else:
logging.error("TTS 失败。")
值得注意的是:
asr_llm_tts()
函数耗时较长,会阻塞主线程,导致无法及时从音频流中读取数据,引起下面的错误。
p = pyaudio.PyAudio()
stream = p.open()
data = stream.read(chunk)
File "/home/aidlux/.local/lib/python3.8/site-packages/pyaudio/__init__.py", line 570, in read
return pa.read_stream(self._stream, num_frames,
OSError: [Errno -9981] Input overflowed
这是因为
stream.read(chunk)
需要定期被调用,以清空音频输入缓冲区,如果这个调用被延迟,缓冲区就会溢出。
为了解决这个问题,有两种方法:
- 异步处理:将
asr_llm_tts()
放在一个异步任务中执行,这样主线程可以继续处理音频流,而不会因为等待异步任务完成而阻塞。 - 多线程处理:创建一个新的线程来处理
asr_llm_tts()
,这样就不会干扰主线程的音频流处理。
import threading
threading.Thread(target=asr_llm_tts, args=(filename,)).start()
5. 效果展示
给大家展示一段日志信息:
程序正在运行,按 Ctrl+C 停止...
开始录音...
ASR 识别结果:
低音量持续,停止录音。
录音已保存为 data/audios/20240917_094434.wav
ASR 识别结果:小爱小爱,夸夸我。
LLM 结果:你好!初次见面,很高兴认识你。你的问题我可以帮忙回答。你最近的生活和工作状态如何?遇到什么问题了吗?我会尽力帮助你。
{'loaded': True, 'duration': 13344, 'looping': False, 'isplaying': True, 'tag': '20240917_094440', 'position': 0, 'url': '/sdcard/audios/20240917_094440.wav'}
最后播报的音频结果:体验地址
写在最后
至此,我们已经给开发板装上了:
大脑
+
耳朵
+
嘴巴
,并实现了实时语音对话,一个 AI 机器人的雏形总算捏出来了。
如果对你有帮助,欢迎点赞和收藏备用。
下篇,我们将继续接入 AI 视觉能力,实现更多有意思的创意,敬请期待!
热门推荐
物理学研究声波的频率和振幅如何影响声音的响度?
直饮机选购指南:从滤芯到智能操控,全方位解析家用直饮机选购要点
葱的营养价值与食用功效:从改善便秘到提升免疫力
土旺木弱的命格特征与补救方法
探索芯片的奥秘:中山大学教授为初一学生带来科技启蒙课程
2025年上海的新能源绿牌战胜蓝牌了吗?
长沙高铁西站最新进展:以“杜鹃花开”为设计理念的超级枢纽即将建成
探索颗粒捕捉器神秘面纱:真相远超想象
盘点10大版本的黄蓉:朱茵最美,翁美玲成经典,金庸最满意的却是周迅!
大学校园外卖经济发展现状及思考
诗经《国风·秦风·蒹葭》诗意赏析
中医舌面象仪作用
下一代连接:开创 SIM 卡的未来
体育教育专业毕业后可以干什么 2025就业前景如何
典型案例!法院判决支持电商平台协助消费者维权
封阳台避坑指南:一定要注意这8点,别再白白花冤枉钱!
家里安装电地暖好还是水地暖好?过来人给出中肯的分析,建议看看
风量测试台的原理
网络虚拟化详解:从基础概念到VMware实战
丰台区上线“丰小政”数智助手,打造“政务服务百事通”
技术很好的摄影师用入门级单反拍普通的COS照或艺术照会不会不太好
多价位运动手表详解:从入门款到高端选择全解析
双屏电脑如何摆放?双屏电脑摆放技巧
微信新功能上线!3步开启地震预警服务
耗时5年降价18次,她终于三折卖掉了河北燕郊的房子
被喷《绝地求生》开挂99%来自中国? 外媒道歉称数据错误
最常见的法兰类型
快速掌握 WinRAR:详细安装与使用指南
朱棣:从燕王到永乐帝的辉煌征途
军队特色医学中心已从6个缩减至5个,武警特色医学中心是其中之一