AV中文字幕人妻免费,色99999

序言：我們在讀一些PDF版書籍的時候，如果PDF中不是圖片，做起讀書筆記的還好；如果PDF中的是圖片的話，根本無法編輯，做起筆記來，還是很痛苦的。我是遇到過了。我們搞技術(shù)的，當(dāng)然得自己學(xué)著解決現(xiàn)在的痛點。

一. 現(xiàn)狀

為了不重復(fù)造輪子，當(dāng)然得看看現(xiàn)在市面上是否有已經(jīng)實現(xiàn)過的，如果有，那自然是拿來即用。

首先，說說一些在線版的PDF圖片轉(zhuǎn)文字，對文件大小有限制為2M(似乎有很多的文件處理都是限制在這個數(shù))，超過了便要收費了。

第二，那就是WPS的PDF圖片轉(zhuǎn)文字了。別說大小限制了，直接是收費。

二. 方案實現(xiàn)

2.1 百度AI平臺獲取AppID, API Key, Secret Key

image.png

該平臺限制調(diào)用次數(shù)，作為個人開發(fā)者來說，基本上是夠用了。

Java SDK文檔使用說明: https://ai.baidu.com/docs#/OCR-Java-SDK/top

不清楚的，可以去看文檔。

2.2 代碼實現(xiàn)

邏輯思路：讀取PDF文件，然后讀取PDF中包含的圖片，將圖片傳給百度AI平臺去進行識別，返回結(jié)果解析。

第一步：新建一個Demo的Maven工程

省略....（相信大家都會哈）????

第二步：引入POM

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.example</groupId>
    <artifactId>demo</artifactId>
    <version>0.0.1-SNAPSHOT</version>
    <name>demo</name>
    <description>
        Demo project for pdf圖片轉(zhuǎn)換文字
        喜歡的微信關(guān)注公眾號：Java技術(shù)干貨
    </description>

    <properties>
        <java.version>1.8</java.version>
    </properties>

    <dependencies>
        <dependency><!--百度AI SDK-->
            <groupId>com.baidu.aip</groupId>
            <artifactId>java-sdk</artifactId>
            <version>4.8.0</version>
        </dependency>
        <dependency><!--PDF操作工具包-->
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox-app</artifactId>
            <version>2.0.16</version>
        </dependency>
    </dependencies>
</project>

第三步：新建一個帶有main方法的類

package com.example.demo;

import com.baidu.aip.ocr.AipOcr;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import org.json.JSONObject;


import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.nio.ByteBuffer;
import java.text.SimpleDateFormat;
import java.util.*;
import java.util.concurrent.atomic.AtomicInteger;

public class DemoApplication {
    //設(shè)置APPID/AK/SK
    public static final String APP_ID = "你的APP_ID";
    public static final String API_KEY = "你的API_KEY";
    public static final String SECRET_KEY = "你的SECRET_KEY ";
    public static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss";
    
    /**
     * 解析pdf文檔信息
     *
     * @param pdfPath pdf文檔路徑
     * @throws Exception
     */
    public static void pdfParse(String pdfPath) throws Exception {
        InputStream input = null;
        File pdfFile = new File(pdfPath);
        PDDocument document = null;
        try {
            input = new FileInputStream(pdfFile);
            //加載 pdf 文檔
            document = PDDocument.load(input);

            /** 文檔屬性信息 **/
            PDDocumentInformation info = document.getDocumentInformation();
            System.out.println("標(biāo)題:" + info.getTitle());
            System.out.println("主題:" + info.getSubject());
            System.out.println("作者:" + info.getAuthor());
            System.out.println("關(guān)鍵字:" + info.getKeywords());

            System.out.println("應(yīng)用程序:" + info.getCreator());
            System.out.println("pdf 制作程序:" + info.getProducer());

            System.out.println("作者:" + info.getTrapped());

            System.out.println("創(chuàng)建時間:" + dateFormat(info.getCreationDate()));
            System.out.println("修改時間:" + dateFormat(info.getModificationDate()));


            //獲取內(nèi)容信息
            PDFTextStripper pts = new PDFTextStripper();
            String content = pts.getText(document);
            System.out.println("內(nèi)容:" + content);


            /** 文檔頁面信息 **/
            PDDocumentCatalog cata = document.getDocumentCatalog();
            PDPageTree pages = cata.getPages();
            System.out.println(pages.getCount());
            int count = 1;

            // 初始化一個AipOcr
            AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);

            // 可選：設(shè)置網(wǎng)絡(luò)連接參數(shù)
            client.setConnectionTimeoutInMillis(2000);
            client.setSocketTimeoutInMillis(60000);

            for (int i = 0; i < pages.getCount(); i++) {
                PDPage page = (PDPage) pages.get(i);
                if (null != page) {
                    PDResources res = page.getResources();
                    Iterable xobjects = res.getXObjectNames();
                    if(xobjects != null){
                        Iterator imageIter = xobjects.iterator();
                        while(imageIter.hasNext()){
                            COSName key = (COSName) imageIter.next();
                            if (res.isImageXObject(key)) {
                                try {
                                    PDImageXObject image = (PDImageXObject) res.getXObject(key);
                                    BufferedImage bimage = image.getImage();
                                     // 將BufferImage轉(zhuǎn)換成字節(jié)數(shù)組
                                    ByteArrayOutputStream out =new ByteArrayOutputStream();
                                    ImageIO.write(bimage,"png",out);//png 為要保存的圖片格式
                                    byte[] barray = out.toByteArray();
                                    out.close();
                                     // 發(fā)送圖片識別請求 
                                    JSONObject json = client.basicGeneral(barray, new HashMap<String, String>());
                                    System.out.println(json.toString(2));
                                    count++;
                                    System.out.println(count);
                                } catch (Exception e) {
                                }
                            }
                        }
                    }
                }
            }
        } catch (Exception e) {
            throw e;
        } finally {
            if (null != input)
                input.close();
            if (null != document)
                document.close();
        }
    }

    /**
     * 獲取格式化后的時間信息
     *
     * @param dar 時間信息
     * @return
     * @throws Exception
     */
    public static String dateFormat(Calendar calendar) throws Exception {
        if (null == calendar)
            return null;
        String date = null;
        try {
            String pattern = DATE_FORMAT;
            SimpleDateFormat format = new SimpleDateFormat(pattern);
            date = format.format(calendar.getTime());
        } catch (Exception e) {
            throw e;
        }
        return date == null ? "" : date;
    }

    public static void main(String[] args) throws Exception {

        // 讀取pdf文件
        String path = "C:\\Users\\fl\\Desktop\\a.pdf";
        pdfParse(path);

    }

}

第四步：識別結(jié)果對比

樣例1：封面識別

識別前：

image.png

識別后：

image.png

樣例2：正文識別

識別前：

image.png

識別后：

三. 總結(jié)

花一兩個小時，把這一塊兒的功能熟悉了一下，看了一下結(jié)果還是很滿意的，雖然缺少了一些格式。但是能夠把文字識別出來，就避免了手動再去敲一次。提高了讀書做筆記的效率。

喜歡的朋友們可以點個關(guān)注或喜歡??

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

利用百度AI OCR圖片識別，Java實現(xiàn)PDF中的圖片轉(zhuǎn)換成文字(不限制大小)

利用百度AI OCR圖片識別，Java實現(xiàn)PDF中的圖片轉(zhuǎn)換成文字(不限制大小)

一. 現(xiàn)狀

二. 方案實現(xiàn)

2.1 百度AI平臺獲取AppID, API Key, Secret Key

2.2 代碼實現(xiàn)

第一步：新建一個Demo的Maven工程

第二步：引入POM

第三步：新建一個帶有main方法的類

第四步：識別結(jié)果對比

樣例1：封面識別

樣例2：正文識別

三. 總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

利用百度AI OCR圖片識別，Java實現(xiàn)PDF中的圖片轉(zhuǎn)換成文字(不限制大小)

一. 現(xiàn)狀

二. 方案實現(xiàn)

2.1 百度AI平臺 獲取AppID, API Key, Secret Key

2.2 代碼實現(xiàn)

第一步：新建一個Demo的Maven工程

第二步：引入POM

第三步：新建一個帶有main方法的類

第四步：識別結(jié)果對比

樣例1：封面識別

樣例2：正文識別

三. 總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

利用百度AI OCR圖片識別，Java實現(xiàn)PDF中的圖片轉(zhuǎn)換成文字(不限制大小)

2.1 百度AI平臺獲取AppID, API Key, Secret Key