大模型+智能眼镜,让失明人士也能无障碍阅读
大模型+智能眼镜,让失明人士也能无障碍阅读
你是否想过有一天即使闭上眼睛也能流畅阅读?这不是科幻想象,而是来自维也纳工业大学、罗马第一大学和明尼苏达大学研究人员的最新科研成果。他们开发了一套基于大语言模型(LLM)和智能眼镜的辅助阅读系统,让视力受损人群也能实现无障碍阅读。
视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。据统计,超过40岁的人群中,约有50%以上的人存在不同程度的视力障碍问题。2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到2050年将增加到700万。随着现代生活中信息密度的不断增加,视障人士在海量信息中寻找所需细节(如药物说明书中的正确剂量)变得更加困难。
研究背景与意义
针对这一问题,研究者提出了名为TEXT2TASTE的系统,该系统通过结合智能眼镜、OCR技术和大语言模型,为视障人士提供了一种新的阅读辅助方式。这项研究不仅展示了人工智能在改善残疾人生活方面的潜力,也为未来开发更多类似的辅助技术开辟了新的可能性。
系统设计:基于LLM的智能眼镜
研究团队选择了Aria智能眼镜作为硬件基础,设计了一套新颖的文本分析助手。该系统通过以下三个主要步骤实现无障碍阅读:
1. 图像获取
用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。为了精确定位包含菜单信息的Aria录像帧,研究者使用了当前最先进的逐帧对象检测算法DETIC。该算法可以识别菜单在佩戴者视野内可见的帧,并选择菜单位于图片最中心的帧以减轻相机镜头可能带来的失真与畸变。
2. 文本信息提取
获得菜单图像后,研究者使用开源的OCR算法EasyOCR提取菜单中的文本。为了确保不相关的文本被隔离开,研究者进一步使用GPT4对这些文本进行处理,构建文字版本的菜单信息。这个步骤中,LLM的引入显著提高了数字化过程的速度和准确性。
3. 用户界面
提取出菜单文本信息后,用户可以通过一个基于Gradio的聊天应用程序与眼镜进行交互。该应用程序使用GPT4开发,并通过检索增强生成(RAG)的方法进行了增强。用户可以提出诸如“有什么推荐菜品”等问题,系统会根据用户请求和已知信息(如菜单内容、用户口味偏好等)提供个性化响应。研究者计划在未来将该系统改进为语音控制,以进一步提升视障人士的使用体验。
实验验证
为了验证系统的实际效果,研究者设计了真实场景下的用户测试。测试中使用了四种不同语言(英语、意大利语、波兰语和希腊语)的菜单,以确保系统能够克服语言障碍。四名视力正常的参与者(年龄在25岁到35岁之间,母语不同)使用Aria智能眼镜与菜单进行交互。实验结果显示,系统能够以96.77%的准确率还原菜单项目,并允许用户根据自身需求定制建议(如口味偏好、食物过敏信息等)。参与者对系统的平均评分高达4.87分(满分5分)。
总结与展望
这项研究展示了人工智能在改善残疾人生活方面的巨大潜力。通过结合智能眼镜、OCR技术和大语言模型,研究者开发了一套能够帮助视力受损人群实现无障碍阅读的系统。未来,这种技术有望进一步发展,为视障人士提供更多的生活便利,让他们能够更加独立地生活,减少对外界的依赖。