Azure认知服务之表格识别器

Azure 2020-11-22

认知服务

Azure 认知服务的目标是帮助开发人员创建可以看、听、说、理解甚至开始推理的应用程序。 Azure 认知服务中的服务目录可分为五大主要支柱类别：视觉、语音、语言、Web 搜索和决策。开发人员使用 Azure 认知服务能够轻松地将认知功能添加到其应用程序中。
Azure认知服务主要包含：人脸、表单识别、墨迹识别等内容。上次已经介绍过人脸识别服务了，这次介绍下表单识别器如何使用。

表单识别器

Azure 表单识别器是一个认知服务，该服务使用机器学习技术从表单文档中识别和提取文本、键值对和表数据。它会引入表单中的文本并输出包含原始文件中的关系的结构化数据。可以快速获取根据特定内容定制的准确结果，无需进行繁琐的手动干预，也不需要具备丰富的数据科学专业知识。表单识别器由自定义模型、预生成的收据模型和布局 API 组成。可以使用 REST API 调用表单识别器模型，以降低复杂性，并将该模型集成到工作流或应用程序中。

引用自微软Azure文档

新建表单识别器资源

新建一个表单识别器的资源。表单识别器也是一项免费服务，免费定价策略为：500页/月，识别频率在20次/分钟，训练频率1次/分钟。区域选离你最近的，然后取个名字。

查看秘钥跟终结点

创建完成后，点击侧边菜单密钥跟终结点，查看密钥跟终结点信息，等下调用SDK的时候需要使用。

新建一个WPF程序

我们还是新建一个WPF程序来演示如果使用表单识别的SDK。新建一个WPF程序，然后放置一个按钮，点击按钮选择一个文件，对这个文件进行识别并把识别的结果显示在文本框内。

安装SDK

使用nuget进行安装：

Install-Package Azure.AI.FormRecognizer -Version 1.0.0-preview.4

修改MainWindow.xaml

<Window x:Class="FormRecognizer.MainWindow"
        xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
        xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
        xmlns:d="http://schemas.microsoft.com/expression/blend/2008"
        xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006"
        xmlns:local="clr-namespace:FormRecognizer"
        mc:Ignorable="d"
        Title="MainWindow" Height="450" Width="800">
    <Grid>
        <TextBox x:Name="tbxContent" HorizontalAlignment="Left" Height="344" Margin="10,10,0" TextWrapping="Wrap" Text="TextBox" VerticalAlignment="Top" Width="772"/>
        <Button Content="选择文件" HorizontalAlignment="Left" Margin="10,373,0" VerticalAlignment="Top" Width="75" Click="SelectFile_Click"/>

    </Grid>
</Window>

修改MainWindow.xaml，在界面上放置一个按钮来选择文件，放置一个文本框显示内容。界面如下：

选择识别文件

   private async void SelectFile_Click(object sender,RoutedEventArgs e)
        {
            var openFileDialog = new OpenFileDialog();
            openFileDialog.ShowDialog();
            var file = openFileDialog.FileName;
            this.tbxContent.Text = "正在识别";
            var result = await StartRecognize(file);

            foreach (var page in result.Value)
            {
                this.tbxContent.Text += $"第{page.PageNumber}页" + "\r\n";
                for (int tableIndex = 0; tableIndex < page.Tables.Count; tableIndex++)
                {
                    this.tbxContent.Text += $"表{tableIndex + 1}" + "\r\n";
                    var table = page.Tables[tableIndex];
                    foreach (var cell in table.Cells)
                    {
                        this.tbxContent.Text += $"行：{cell.RowIndex} 列：{cell.ColumnIndex} 内容：{cell.Text}" + "\r\n";
                    }
                }
            }

        }

选择一个文件，然后调用StartRecognize方法进行识别，对识别的结果进行显示。识别的PDF文件如下：

使用SDK进行识别

        private async Task<Response<FormPageCollection>> StartRecognize(string file)
        {
            string endpoint = "https://xxxx.cognitiveservices.azure.com/";
            string apiKey = "xxxx";
            var credential = new AzureKeyCredential(apiKey);
            var recognizerClient = new FormRecognizerClient(new Uri(endpoint),credential);

            Response<FormPageCollection> formPages = await recognizerClient
            .StartRecognizeContentAsync(File.OpenRead(file))
            .WaitForCompletionAsync();

            return formPages;
        }

直接调用StartRecognizeContentAsync进行识别，等待一会就会有结果。