复刻B站UP主虾哥的小智AI语音对话聊天机器人
创作时间:
作者:
@小白创作中心
复刻B站UP主虾哥的小智AI语音对话聊天机器人
引用
CSDN
1.
https://m.blog.csdn.net/weixin_41659040/article/details/145576219
小智AI语音聊天机器人是一种基于人工智能技术的交互式语音助手,它能够通过语音与用户进行交流,提供信息查询、娱乐互动、生活服务等多种功能。这类机器人通常集成了语音识别、自然语言处理、语音合成等先进技术,以实现与用户的自然语言对话。
小智AI语音聊天机器人的关键特点
- 语音识别:机器人能够识别和理解用户的语音输入,将其转换为文本信息,这是实现语音交互的基础。
- 自然语言处理:通过自然语言处理技术,机器人能够理解用户的意图和需求,进行语义分析,并生成合适的响应。
- 对话管理:机器人具备对话管理能力,能够根据上下文信息维持对话的连贯性,提供更加人性化的交流体验。
- 语音合成:机器人能够将文本信息转换为自然流畅的语音输出,使用户能够听到机器人的回应。
- 个性化服务:通过学习用户的行为和偏好,机器人能够提供个性化的服务和推荐。
- 多场景应用:小智AI语音聊天机器人可以应用于多种场景,如智能家居控制、在线客服、教育辅导、健康咨询等。
- 持续学习:通过机器学习算法,机器人能够从每次交互中学习,不断优化其性能和响应质量。
- 集成与扩展:机器人可以与其他服务和应用程序集成,扩展其功能和应用范围。
小智AI语音聊天机器人的设计和实现是一个跨学科的工程,涉及人工智能、机器学习、语音处理、软件工程等多个领域。随着技术的不断进步,这类机器人将变得更加智能和人性化,为用户提供更加丰富和便捷的服务。
DIY硬件清单
- 开发板:ESP32-S3 开发板(选择 WROOM N16R8 模组 P44脚)
- 数字麦克风:INMP441
- 3W功放:MAX98357A
- 腔体喇叭:8Ω 2-3W 或 4Ω 2-3W
- 12832 IIC 液晶显示屏,SSD1306 驱动(0.91寸)
- 12864 IIC 液晶显示屏,SSD1306 驱动(0.96寸)
- ML307R Cat.1 4G 模组,AT固件版(可选)
焊接排插座
安装好基本的硬件
PCB底板说明
核心功能与技术架构
该项目利用ESP32S3开发板,结合通义千问大模型,实现了一个AI语音聊天机器人。用户可以通过语音与机器人进行交互,机器人能够理解用户的语音指令并给出相应的语音回答。
技术架构
- 语音识别:使用语音转文字大模型,将用户的语音输入转换为文本信息。
- 文本理解:将转换后的文本发送到通义千问大模型进行处理,模型会根据文本内容生成相应的回答。
- 语音合成:将模型生成的文本答案通过文本转语音大模型转换为语音输出,供用户收听。
软件实现
- 连接WiFi:ESP32S3首先需要连接到WiFi网络,以便能够访问互联网。
- 语音采集与播放:通过麦克风模块采集用户的语音输入,并通过扬声器播放机器人的语音回答。
- API调用:使用HTTP协议调用通义千问大模型的API,实现语音识别、文本理解、语音合成等功能。
- 数据处理:将采集到的音频数据打包成JSON格式,发送到语音识别API;将模型生成的文本答案打包成JSON格式,发送到语音合成API。
应用场景
- 智能家居控制:用户可以通过语音指令控制连接到ESP32S3的智能家居设备,如开关灯、调节温度等。
- 信息查询:机器人可以回答用户的各种问题,如天气预报、新闻资讯等。
- 娱乐互动:提供简单的娱乐功能,如讲故事、播放音乐等。
项目优势
- 低成本:ESP32S3开发板价格相对较低,且项目开源,用户可以根据自己的需求进行二次开发。
- 易操作:支持语音唤醒和连续对话,用户无需手动操作设备,即可实现便捷的语音交互。
- 多功能:除了语音聊天功能外,还可以扩展其他功能,如音乐播放、显示屏实时显示等。
Flash烧录ESP32 S3 开发板固件(无IDF开发环境)
此固件适用于 ESP32 S3 WROOM N16R8(最新为v1.1.2 Latest 版本)
- v1.1.2 Latest
- 升级至 LVGL 9.2.2
- 优化 WiFi 配网体验
- 使用新的 emoji fonts
- 增加开发板:正点原子 ESP32 S3 开发板,ESP32 开发板
- 修复若干 bugs
- 注意:bread 开头的是面包板版本,ml307 是 4G 版固件。
- 下载后解压 flash_download_tool_3.9.7_1.zip 到硬盘自行指定目录即可,无需安装,进入目录直接双击 flash_download_tool_3.9.7.exe 即可运行。
- 注意,烧录工具也不要放在中文目录下,否则可能无法加载文件。
将下载的merged-binary.bin文件,放到bin文件夹中
- 连接 ESP32 S3 开发板的 USB JTAG/serial 到电脑主机,运行 Flash 下载工具,使用 UART 模式把下载解压后的 merged-binary.bin 烧录到地址 0x0 。下载设置:
- 芯片类型,选择 ESP32-S3
- 工作模式,选择 Develop
- 加载模式,建议选择 UART (备选USB模式,这里不做说明)
- 开发板正面TypeC接口朝下时,右边的接口为 UART 接口(如下图示),左边的为USB接口,注意不要接错了。
- 加载固件 & SPI下载设置
- 在第一行空白框上 … 按钮,选择bin文件目录导入bin文件,如下图示:
- 在导入bin文件选择框前面勾选中(一定要勾选),在bin文件选择框后面的输入框中填写 0x0 或 0x00 或 0 (表示下载到开发板存储器1区起始位置)
- 注意:如果你不把bin文件放到flash download tool 程序的bin目录下,放到电脑硬盘其他地方时,请不要使用中文目录名,否则烧录程序加载bin文件会报错,将无法烧录。
- COM端口:先在桌面 此电脑 —》右键菜单属性 —》设备管理器(右侧菜单) —》端口(COM和LPT)点击展开,查看插入的开发板对应的COM端口号,(不确定的请插拔一下开发板USB接口,看卸载和新识别的COM端口号就是要选择的COM端口号),即为FLASH DOWNLOAD TOOL在SPI下载是要设置的对应COM端口号。
- 注意:ESP32S3开发板的COM串口一般是 CH340 或 CH343 芯片驱动的,带有 CH34 字样端口,或个别 CP210 等芯片驱动的 ,也是UART端口。
- 下图示这里的 COM8端口 仅供参考,根据你的电脑上显示的COM端口来选择你的开发板端口,不一定是COM8,以你的电脑识别的COM端口为准。
- 其他:SPI速度SPEED 和SPI模式MODE 默认即可(不要选QOUT和DOUT),BAUD波特率可选速度高一点的。
- 烧录的bin文件前面复选框一定要勾选!
- COM端口号根据自己电脑设备管理器里的COM端口选择。
- 点击 START开始烧录,进度条开始出现,直到结束,状态显示 FINISH 完成。下载/烧录过程一般几分钟到十来分钟。
- 烧录完成后,重启开发板,即可进入 WI-FI 配网模式。
配置设备 Wi-Fi 和登记设备
- WI-FI网络配置
- 启动设备
在bin固件下载/烧录后,将设备保持接通电源,按下开发板上的RST按钮,复位重启设备(如下图位置),设备将进入配网模式。
注:如果烧录0.3.1以上的固件,程序会自动运行,不需要手动按下RST按钮。 - 配网状态
如果 sRGB 彩灯为蓝色(开发板上的白色灯),并保持闪烁,表示设备处于配网状态。
如果设备不在配网状态或需要重新配网,请按住设备上的配网按键(连接 1 号引脚和GND,v0.2.2以下的旧版),同时按下开发板上的复位(RST)按键,然后先松开复位按键,再松开配网按键。 - 配网步骤
- 使用手机或电脑连接到设备的 WiFi 网络,通常以 Xiaozhi-XXXXXX 命名。选中并连接,如下图示:
- 打开浏览器,确保无线局域网(WIFI)连接的网络是 Xiaozhi-XXXXXX 不要切换,浏览器地址栏输入网址 http://192.168.4.1 进入设备的网络配置页面。
- 在网络配置页面上,选择 WiFi 名称(仅支持 2.4G,iPhone 热点要打开“最大兼容性”选项),SSID将会自动填写,在下方输入密码,然后点击 “Connect” 按钮(如上右图所示)。
如果 WiFi 名称和密码正确,设备将自动连接到 Wi-Fi,并显示 “Done”,表示已经配置网络成功,设备将在 3 秒后自动重启。
如果配置失败,请检查 WiFi 名称和密码是否正确,或者尝试重新配置。
- 启动设备
- 添加新设备到管理后台
你的设备在WI-FI或4G联网后,需要到 小智AI聊天机器人-控制面板 添加设备验证通过,才能正常使用设备进行AI语音聊天,请按照以下步骤操作:
确保设备已连接到互联网,能够通过“你好,小智”唤醒,并出现要求添加设备的提示语6位设备验证码(可以重复唤醒重听)。
手机或电脑浏览器访问 小智AI聊天机器人-控制面板 后台:https://xiaozhi.tenclass.net/ ,如未注册先注册账号。
在菜单选择“设备管理”,页面中找到“添加新设备”入口。
输入提示语中告知6位数字的设备 ID,然后点击“添加设备”按钮,如下图示。
设备将自动激活,并显示在“设备管理”页面上,就可以正常使用了,目前免费。
目前版本,可以选择的角色音色大约有五十多种。
实验场景图
实验记录视频之一
[花雕动手做]复刻B站虾哥的小智AI语音对话聊天机器人
实验记录视频之二
[花雕动手做]复刻B站虾哥的小智AI语音对话聊天机器人
实验记录视频之三
热门推荐
冷库设备提升存储效率的秘诀
脑梗说话不清楚多久恢复正常
AIoT应用开发:搞定语音对话机器人=ASR+LLM+TTS
解密AI大模型:四大核心技术驱动智能革命
ETF与ETF联接基金的费用和策略区别完全解析
双十一必买:漫步者、惠威、JBL高性价比电脑音响大比拼!
消费降级下的年轻人:精打细算,如何以高性价比应对未来?
麻省理工学院“道德机器”:AI伦理决策的全球实验
锻炼前有哪些热身方式
巴菲特教你掌握股票投资基本功
惠州春节打卡最美自然景观:罗浮山&惠州西湖
什么是产权归属
南京六合:“警网融合”赋能基层治理,共筑和谐社区防线
如何选择适合大数据处理的服务器内存?
如何评估显卡的性能参数(了解显卡性能参数)
八字算命与家居风水:从方位到布局的全方位解析
阳志平:如何通过经典书籍提升认知?
SaaS应用的7个热门示例
二代三代女团CP舞台大比拼!谁是你心中的最佳?
足底筋膜炎康复训练,物理治疗师推荐!
精准营养遇上“三减三健”:打造你的健康饮食新方式
如何分析玻璃期货的影响因素?这些因素对期货市场有何作用?
比亚迪汉 vs 小鹏 P7:谁更值得买?
广西事业单位薪资揭秘:你关心的问题都在这里!
主妇联盟教你辨别天然香料与人工香精
iPhone 15 Pro摄像头黑科技大揭秘!
如何提升物业管理水平?这种提升需要做出哪些改变?
薛定谔的猫:从物理悖论到心理隐喻
玻色因:抗衰老界的“顶流”成分
金融科技:现代服务业的新引擎