搭建腾讯云通用文字识别General OCR项目及代码部署图文教程

又双叒叕开始折腾新项目啦,今天研究什么呢?搭建一个图片文字识别,项目所需,都知道微信的扫一扫可以识别很多东西,之前搭建的扫码演示源代码直接拿过来使用识别,发现不行,,,只能扫码,其余的都不行,好吧,参考腾讯云文字识别搭建一个小小的demo,采用腾讯云开发者工具套件(SDK)3.0,SDK3.0是云 API3.0 平台的配套工具。目前已经支持cvm、vpc、cbs等产品,后续所有的云服务产品都会接入进来。新版SDK实现了统一化,具有各个语言版本的SDK使用方法相同,接口调用方式相同,统一的错误码和返回包格式这些优点。 为方便 PHP 开发者调试和接入腾讯云产品 API,这里向您介绍适用于 PHP 的腾讯云开发工具包,并提供首次使用开发工具包的简单示例。让您快速获取腾讯云 PHP SDK 并开始调用。本教程以测试“卡证文字识别-不动产权证识别”为例。

搭建腾讯云通用文字识别General OCR项目及代码部署图文教程 第1张

依赖环境

  • PHP 5.6.0 版本及以上
  • 从腾讯云控制台 开通相应产品
  • 获取 SecretID、SecretKey 以及调用地址(endpoint),endpoint 一般形式为*.tencentcloudapi.com,如CVM 的调用地址为 cvm.tencentcloudapi.com,具体参考各产品说明。

获取安装

安装 PHP SDK 前,先获取安全凭证。在第一次使用云API之前,用户首先需要在腾讯云控制台上申请安全凭证,安全凭证包括 SecretID 和 SecretKey, SecretID 是用于标识 API 调用者的身份,SecretKey是用于加密签名字符串和服务器端验证签名字符串的密钥。SecretKey 必须严格保管,避免泄露。

通过 Composer 安装

通过 Composer 获取安装是使用 PHP SDK 的推荐方法,Composer 是 PHP 的依赖管理工具,支持您项目所需的依赖项,并将其安装到项目中。关于 Composer 详细可参考 Composer 官网 。

安装Composer: windows环境请访问Composer官网下载安装包安装。

unix环境在命令行中执行以下命令安装。

代码语言:javascript
复制
curl -sS https://getcomposer.org/installer | php
sudo mv composer.phar /usr/local/bin/composer

建议中国大陆地区的用户设置腾讯云镜像源:composer config -g repos.packagist composer https://mirrors.tencent.com/composer/

执行命令 composer require tencentcloud/tencentcloud-sdk-php 添加依赖。如果只想安装某个产品的,可以使用composer require tencentcloud/产品名,例如composer require tencentcloud/cvm。

搭建腾讯云通用文字识别General OCR项目及代码部署图文教程 第2张

在代码中添加以下引用代码。注意:如下仅为示例,composer 会在项目根目录下生成 vendor 目录,如果是在当前目录执行,可以省略绝对路径,当然如果是宝塔的话,那么直接建议在站点配置中修改,选择参数和名称,然后设置执行目录,会在目录下自动生成“vendor ”如图:

搭建腾讯云通用文字识别General OCR项目及代码部署图文教程 第3张

待命令执行完成后,查看对应目录,如图

搭建腾讯云通用文字识别General OCR项目及代码部署图文教程 第4张

至此基本需要都已经完成,我们接下来搭建源代码。

示例

推荐使用 API 3.0 Explorer,提供在线调用、签名验证、SDK 代码生成和快速检索接口等能力,能显著降低使用云 API 3.0 和 SDK 的难度。还可以参考 SDK 仓库中 examples 目录中的示例,展示了更多的用法。

下面以查询实例接口DescribeInstances为例:

文件目录下文件文件,名称自拟,例如本站ocr.php,复制如下代码:

代码语言:javascript
复制
<?php
require_once 'vendor/autoload.php';//生成的目录文件
use TencentCloud\Common\Credential;
use TencentCloud\Common\Profile\ClientProfile;
use TencentCloud\Common\Profile\HttpProfile;
use TencentCloud\Common\Exception\TencentCloudSDKException;
use TencentCloud\Ocr\V20181119\OcrClient;
use TencentCloud\Ocr\V20181119\Models\EstateCertOCRRequest;
try {

    $cred = new Credential("你的SecretId", "你的SecretKey");
    $httpProfile = new HttpProfile();
    $httpProfile->setEndpoint("ocr.tencentcloudapi.com");
      
    $clientProfile = new ClientProfile();
    clientProfile-&gt;setHttpProfile(httpProfile);
    client = new OcrClient(cred, "ap-beijing", $clientProfile);

    $req = new EstateCertOCRRequest();
    
    $params = array(
        "ImageUrl" => "需要识别的图片地址"
    );
    req-&gt;fromJsonString(json_encode(params));

    resp = client->EstateCertOCR($req);

    print_r($resp->toJsonString());
}
catch(TencentCloudSDKException $e) {
    echo $e;
}

代码中需要修改三处,

第一:“vendor/autoload.php”目录路径,如果按照教程操作默认即可。

第二:SecretId和SecretKey,自己在腾讯申请,然后添加进去,否则不能识别。

第三:就是需要识别的图片地址,直接添加图片网址即可。

访问链接,查看效果,如图:因涉及部分隐私,打码:

搭建腾讯云通用文字识别General OCR项目及代码部署图文教程 第5张

常见问题

代理

如果是有代理的环境下,需要设置系统环境变量 https_proxy ,否则可能无法正常调用,抛出连接超时的异常。

或者使用 GuzzleHttp 代理配置:

代码语言:javascript
复制
$cred = new Credential("secretId", "secretKey");

$httpProfile = new HttpProfile();
$httpProfile->setProxy('https://ip:port');

$clientProfile = new ClientProfile();
clientProfile-&gt;setHttpProfile(httpProfile);

client = new OcrClient(cred, 'ap-beijing', $this->clientProfile);

证书问题

如果你的 PHP 环境证书有问题,可能会遇到报错,类似于 cURL error 60: See http://curl.haxx.se/libcurl/c/libcurl-errors.html,请尝试按如下步骤解决:

  1. 到 https://curl.haxx.se/ca/cacert.pem 下载证书文件 cacert.pem,将其保存到 PHP 安装路径下。
  2. 编辑 php.ini 文件,删除 curl.cainfo 配置项前的分号注释符(;),值设置为保存的证书文件 cacert.pem 的绝对路径。
  3. 重启依赖 PHP 的服务。
php_curl 扩展

此 SDK 依赖的 GuzzleHttp 需要开启 php_curl 扩展,查看环境上的 php.ini 环境确认是否已启用,例如在 Linux 环境下,PHP 7.1 版本,托管在 apache 下的服务,可以打开 /etc/php/7.1/apache2/php.ini 中查看 extension=php_curl.dll 配置项是否已被注释,请删除此项配置前的注释符并重启 apache。

Web 访问异常

命令行下执行正常,但是放在 Web 服务器执行则报错:

cURL error 0: The cURL request was retried 3 times and did not succeed. The most likely reason for the failure is that cURL was unable to rewind the body of the request and subsequent retries resulted in the same error. Turn on the debug option to see what went wrong. See https://bugs.php.net/bug.php?id=47204 for more information. (see http://curl.haxx.se/libcurl/c/libcurl-errors.html)

此问题出现情况不一。可以运行 php -r "echo sys_get_temp_dir();" 打印系统默认临时目录绝对路径,然后在 php.ini 配置 sys_temp_dir 为这个值尝试是否能解决。

源码安装问题

为了支持部分源码安装的需要,我们将依赖的包文件放在 vendor 目录中,又考虑到不能造成对 composer 的不兼容,github 不得不设置禁止导出 vendor 目录,造成必须使用 git clone 命令才能拿到 vendor 目录的情况,对一些不熟悉 github 的用户造成了困扰。从 3.0.188 版本开始,我们暂时移除了源码安装,必须使用 composer 安装 SDK 和依赖的包。

关键字冲突问题

目前已知在 PHP 7.x 版本中,由于关键字冲突,弹性伸缩产品对应的 As 模块可能无法使用。可以考虑升级到 SDK 3.0.362 版本,使用 Autoscaling 模块。或者升级到 PHP 8 版本。

旧版SDK

新版SDK兼容旧版SDK。旧版本的SDK存放于QcloudApi目录,但不再维护更新,推荐使用新版SDK。

PS:附上程序源代码,其他Github已经有了,放在网盘一份,地址:https://pan.baidu.com/s/1yeA_njzJ4dvJc1RBsWJGLQ?pwd=t65s