首页>>人工智能->使用预构建模型从销售收据中提取文本:Azure 表单识别器

使用预构建模型从销售收据中提取文本:Azure 表单识别器

时间:2023-11-29 本站 点击:0

我们可以利用名为 Form Recognizer 的 Azure 服务,该服务包含智能处理功能来自动处理表单和收据。

如今,几乎一切都转向在线和虚拟模式,任何组织都面临的一个非常普遍的问题是处理以电子方式扫描和提交以用于报销目的的收据。

现在要明确任何索赔或报销,首先必须根据组织和部门到达适当的会计部门,而执行此活动的一种方法是手动干预。一个人或一个团队必须手动浏览所有这些数字扫描收据,并根据部门或他们可能拥有的任何其他验证和资格标准对其进行过滤。

当这种扫描收据的数量太大时,情况变得更加悲惨。因此,摆脱这种手动工作,很多组织已经选择了基于 AI 的解决方案,而且很多都在这样做的过程中。

当然,一个可以去OCR,这是短期的Øpticalçharacter[Recognization技术来提取数据,但这里的问题不仅是数据提取,但它也是关于数据的解读。因为可能会发生用户上传错误文档的事件,这不是收据。因此,解决方案应该足够健壮以过滤掉这些场景。

如何实现基于人工智能的解决方案?

像许多其他 Azure 服务一样,在这里我们也可以利用名为Form Recognizer的服务,它包含智能处理功能,允许我们自动处理表单和收据。基本上,它是 OCR 和预测模型的组合,而后者又属于Azure 认知服务的范畴。

在这里,OCR 将用于文本提取,模型将帮助我们过滤有用的信息,如发票日期、地址、金额、描述、名称或可能是业务需要的任何其他相关字段。

表单识别器支持哪些模型?

表单识别器支持两种类型的模型:预构建模型和自定义模型。

预建模型:是开箱即用的模型,并且已经接受了一些基于美国销售格式的基本销售数据的训练。

自定义模型:是可以根据我们自己的数据和业务需求根据我们的需求量身定制的模型。

因此,在本文中,我将重点介绍预构建模型,并将在另一篇文章中介绍自定义模型集成。

如何开始使用表单识别器?

我们需要做的第一件事是登录到位于portal.azure.com的 Azure 门户以创建 Azure 资源。有两种方法可以创建 Azure 资源。

使用 Azure 表单识别器。

使用 Azure 认知服务。

如果有人计划使用认知服务下的其他服务,则可以使用现有/新资源。但如果只需要使用 Form Recognizer Service,那也可以。

实施细则

对于开发,我使用 Python 作为语言,使用具有 Jupyter Notebook 的 Visual Studio Code。

下面是核心实现代码:

key="KEY_TO_BE_REPLACED"endPoint="ENDPOINT_TO_BE_REPLACED"importosfromazure.ai.formrecognizerimportFormRecognizerClientfromazure.core.credentialsimportAzureKeyCredentialclient=FormRecognizerClient(endpoint=endPoint,credential=AzureKeyCredential(key))image="IMAGE_FILE_PATH"fd=open(image,"rb")analyzeReceipt=client.begin_recognize_receipts(receipt=fd)result=analyzeReceipt.result()print('Address:',result[0].fields.get("MerchantAddress").value)print('ContactNumber:',result[0].fields.get("MerchantPhoneNumber").value)print('ReceiptDate:',str(result[0].fields.get("TransactionDate").value))print('TaxPaid:',result[0].fields.get("Tax").value)print('TotalAmountPaid:',result[0].fields.get("Total").value)items=result[0].fields.items()forname,fieldinitems:ifname=="Items":foritemsinfield.value:foritem_name,iteminitems.value.items():print(item_name,':',item.value)

样本输入和输出

我已将以下收据作为输入:

为此,上面的代码生成了以下输出:

概括

本文提到了如何使用预先构建的 ML 模型从销售收据中读取信息的高级步骤,假设读者已经知道如何使用 Python、VS Code、Jupyter Notebook 以及如何使用导入 Python 模块。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:/AI/954.html