tencent cloud

数据万象

动态与公告
产品动态
产品公告
产品简介
产品概述
产品优势
应用场景
功能概览
地域与域名
使用限制
产品计费
计费概述
计费方式
计费项
免费额度
欠费说明
查看消费明细
常见问题
快速入门
注册与登录
绑定存储桶
上传和处理文件
下载和删除文件
解绑存储桶
通过 COS 使用数据万象
能力地图
图片处理
媒体处理
内容审核
AI 内容识别
文档处理
智能语音
文件处理
用户指南
概览
存储桶管理
智能工具箱
任务与工作流
数据监控
用量统计
实践教程
版权保护解决方案
图片处理实践
API 授权策略使用指引
工作流实践
API 文档
API 概览
结构体
公共请求头部
公共响应头部
开通万象服务
图片处理
AI 内容识别
智能语音
媒体处理
内容审核
文档处理
文件处理
任务与工作流
云查毒
错误码
请求签名
SDK 文档
SDK 概览
图片处理 Android SDK
图片处理 iOS SDK
COS Android SDK
C SDK
C++ SDK
.NET(C#) SDK
Go SDK
COS iOS SDK
Java SDK
JavaScript SDK
Node.js SDK
PHP SDK
Python SDK
小程序 SDK
SDK 产品个人信息保护规则
安全与合规
权限管理
常见问题
基础设置
文档处理
媒体处理
内容识别
智能语音
服务协议
Service Level Agreement
联系我们
词汇表

文档处理

PDF
聚焦模式
字号
最后更新时间: 2024-11-22 10:46:56

简介

针对文档类文件,数据万象提供文档预览、隐私合规保护功能。

文档预览

文档预览支持对多种文件类型生成图片格式预览,可以解决文档内容的页面展示问题,满足 PC、App 等多个用户端的文档在线浏览需求,适用于在线教育、企业 OA、网站转码等业务场景。目前数据万象文档预览服务支持下载时实时预览异步创建文档预览任务
说明:
目前支持的输入文件类型包含如下格式: 演示文件:pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm。 文字文件:doc、dot、wps、wpt、docx、dotx、docm、dotm。 表格文件:xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets。 其他格式文件: pdf、 lrc、 c、 cpp、 h、 asm、 s、 java、 asp、 bat、 bas、 prg、 cmd、 rtf、 txt、 log、 xml、 htm、 html。
输入文件大小限制在200MB之内。
输入文件页数限制在5000页之内。

操作步骤

控制台文档预览界面提供文档预览相关服务,包括开通/关闭文档预览功能、创建文档预览任务、开启/关闭文档处理队列、设置回调。

开通服务

1. 登录 数据万象控制台 ,单击存储桶管理,进入存储桶管理页面。
2. 存储桶管理页面选择并单击需操作的存储桶,进入相应存储桶管理页面。
3. 单击左侧导航栏文档处理页签,然后选择文档预览配置项。
4. 单击文档预览编辑,将状态修改为开启,单击保存,即可开通文档预览服务。
5. 开通服务后,使用相应的文档预览接口即可实现 下载时实时预览;同时支持 异步创建文档预览任务




创建任务

1. 单击任务管理模块创建任务填写任务相关参数,然后按照如下配置项说明进行配置。
文件路径:文件路径以 / 开头,以 / 分隔文件夹,例如 /doc/example.dox
预览设置:您可选择预览整个文档或预览指定页码文档,目前单次任务支持最大页码数为5000页,若您选择处理的页数超过5000,则只对前5000页进行转化。
队列:当您开通文档预览服务时,系统默认为您开启 queue-doc-process-1 队列,您可在队列版块手动关闭。若您有更多队列需求,请 提交工单
输出存储桶:您可选择同地域下开通了文档预览服务的存储桶作为输出存储桶。
输出图片格式:目前支持 JPG 和 PNG 两种输出图片格式。
输出路径:选填,若未填写则输出路径与输入文件路径保持一致。
输出文件名:文档预览服务将原文档的每一页转化输出为一张图片,因此需要在输出文件名中需添加占位符对输出的图片进行编码。您可选择 ${Number}${Page} 作为占位符,输出编码序号与文档页码序号一致。如您选择对页数为3的文档进行预览,并指定输出文件名为 output${Number}.jpg,则最终将会输出名为 output1.jpg、output2.jpg 和 output3.jpg 三张图片。



2. 单击确认,即可完成文档预览任务创建。

任务管理

您可在任务管理版块筛选查看文档预览任务。您可按照时间、任务 ID、任务状态进行任务筛选。除页面展示的信息外,单击操作栏查看,可查看更多任务信息。




队列设置

当您开通文档预览服务时,系统默认为您开启 queue-doc-process-1 队列,您可在队列模块操作栏暂停队列。




回调设置

1. 单击队列,进入队列页面。
2. 单击操作栏回调规则,弹出回调设置界面。
3. 单击编辑,开启回调状态,输入回调 URL 地址,单击确认,完成回调设置。文档预览任务完成后会发送任务的执行情况至回调地址,便于您进行后续操作。
注意:
回调 URL 地址需默认返回 HTTP 200状态码方可使用,预计配置5分钟后生效。



说明:
文档预览为付费功能,具体费用请参见 计费与定价
数据万象在每个账户在首次产生文档预览转图片用量后,将发放一个用量为6000页,有效期为2个月的文档预览转图片免费额度资源包,超出用量或资源包到期后将正常计费。

隐私合规保护

数据万象隐私合规保护功能可实现筛查文档类文件中的身份证号、纳税人识别号、工商注册号、军官证、电子邮箱、车牌号、手机号类型的敏感数据,防止信息泄露。目前隐私合规保护功能仅支持数据上传自动触发扫描。
说明
当前支持的隐私合规保护文件类型如下:
Office 文件:doc,docx,ppt,pptx,xls,xlsx,rtf。
WPS 文件:wps,dps,et。
PDF 文件:pdf。
纯文本文件:txt,xml,slk。
网络文件:html,msg。
邮件:eml,pst。

操作步骤

1. 登录 数据万象控制台 ,单击存储桶管理,进入存储桶管理页面。
2. 存储桶管理页面选择并单击需操作的存储桶,进入相应存储桶管理页面。
3. 单击左侧导航栏文档处理页签,然后选择隐私合规保护配置项。
4. 单击编辑,将状态修改为开启,然后按照如下配置项说明进行配置:
文件类型:支持自动触发隐私合规保护的文件类型,可多选。
审核类型:隐私合规保护进行筛查的敏感数据种类,可多选。
回调设置:开启回调设置后,您可输入回调 URL 以接受隐私合规保护的筛查结果。注意,回调 URL 地址须默认返回 HTTP 200状态码方可使用,预计配置5分钟后生效。



5. 开启隐私合规处理后,您可在页面下方查看隐私敏感数据详情。您可选择查看指定时间、指定违规类型、指定敏感级别、指定审核类型的审核结果。



说明:
违规类型包括 GDPR、等保合规、网络安全法。根据审核结果,文档将被判定为高、中、低三种敏感级别。


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈