问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Power Automate桌面版OCR功能详解:从引擎创建到文本操作

创作时间:
作者:
@小白创作中心

Power Automate桌面版OCR功能详解:从引擎创建到文本操作

引用
1
来源
1.
https://learn.microsoft.com/zh-cn/learn/modules/pad-ocr/2-ocr-actions

Power Automate桌面版提供了丰富的OCR(光学字符识别)功能,可以帮助用户从屏幕或文件中快速提取文本信息。本文将详细介绍如何创建OCR引擎、提取文本、验证文本显示状态以及控制光标移动等实用操作。

创建 OCR 引擎

要执行任何OCR操作,您必须首先初始化OCR引擎。OCR引擎是一种将键入或手写内容转换为机器可读和可编辑格式的软件工具。

Power Automate桌面版支持Windows和Google Tesseract两种引擎,并允许用户通过任何OCR操作对其进行初始化。在初始化过程中,您需要指定引擎的语言,并设置图像的宽度和高度乘数。图像乘数会增加图像的大小,以提高文本提取或搜索的准确性。尽管乘数是一种有价值的机制,但建议避免设置大于三的值,因为过高的值可能导致结果失败。

此外,当使用Tesseract引擎时,您还可以启用"使用其他语言"选项,以支持列表之外的语言。要使用其他语言,请提供语言的缩写和相应数据文件的路径。

从屏幕或图像中提取文本

要从屏幕或图像中提取数据,您可以使用"使用OCR提取文本"操作。该操作提供了从整个屏幕、前景窗口或图像文件中提取文本的选项。从屏幕中提取文本的功能非常强大,使您能够在Windows平台上应用OCR。提取范围不仅限于预定义的文件列表,而是可以提取屏幕上显示的任何文本。

在操作的属性中,您还可以指定是从整个所选源、特定子区域还是相对于图像的子区域提取文本。

验证文本是否显示在屏幕或窗口上

除了文本提取功能外,OCR操作还支持验证给定文本是否显示在屏幕或前景窗口上。使用此功能,您可以基于现有文本应用不同的执行路径。例如,您可以检查已扫描发票中的客户名称,并根据结果执行特定操作。

要实现此条件判断,请使用"如果文本显示在屏幕上(OCR)"操作。在操作的属性中,您需要指定要搜索的文本及其来源。文本可以是文字值或正则表达式。同时,您还可以选择从整个所选源、特定子区域还是相对于图像的子区域进行文本搜索。

等待文本显示在屏幕上

在创建自动化流程时,您可能需要等待应用程序或网页加载后再执行其他操作。为了避免在未确保正确信息加载的情况下执行操作导致流程失败,可以使用"等待文本显示在屏幕上(OCR)"操作。

在操作的属性中,您可以选择等待定义的文本显示或消失。文本可以是文字值或正则表达式,而来源可以是整个屏幕或前景窗口。同样,您还可以选择从整个所选源、特定子区域还是相对于图像的子区域进行文本搜索。

作为输出,该操作将生成两个变量,用于描述所找到文本的确切位置。

将光标移至屏幕上的已定义文本

Power Automate桌面版提供了鼠标和键盘操作,以支持与UI操作不兼容的应用程序的自动化。这些操作特别适用于自动执行旧应用程序或受严格安全限制的应用程序。

您可以使用"将鼠标移至屏幕上的文本"操作来在屏幕上移动光标。在操作的属性中,您需要填充要搜索的文本及其来源。文本可以是文字值或正则表达式,而来源可以是整个屏幕或前景窗口。同时,您还可以选择从整个所选源、特定子区域还是相对于图像的子区域进行文本搜索。

如果定义的来源中存在多个包含相同文本的匹配项,您可以在"匹配项"字段中指定要选择哪个匹配项。此外,您还可以选择立即移动光标或使用动画效果。

作为输出,该操作将生成四个变量,用于描述所找到文本的确切位置和大小。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号