在看財報的時候,很多公司的pdf檔都只是文件掃描的圖檔,每次要看的時候都無法快速的尋找想要的關鍵資料,都要一頁一頁看,這真的要花費很多時間去整理,如果看的公司數量一多,整個工作效率就會嚴重的降低。所以就在思考如果可以把圖片中的文字辨識出來,從圖片變成文字檔,那就可以快速找到想要的資料了。這種問題一定是有工具存在這個世界上,只是還沒有被我們找到。所以在找工具前,一定要先確定需求,明白自己要的是什麼。我所設定的重點是: 能將PDF裡的圖檔,辨識出文字,以便能快速尋找到關鍵資訊。
這部分就要透過OCR(光學字元辨識)工具來處理轉檔,像Adobe的Adobe acrobat DC就有付費功能,因為是每個月都要付費,感覺長期付下來會有點貴,所以就沒有採用,後來終於找到適合的OCR工具”FineReader OCR Pro”(MAC用),而且還是一次性買斷式的費用,不用長期持續付費。
OCR的中文辨識,其實不論任何軟體都無法非常完整的辨識出來,還有包括格式跑掉的問題會產生,不過幸好我們的要求只要把原本年報裡,公司將所有文字報表存成圖片的部份轉換成文字,讓我們能做到用關鍵字搜尋即可,所以不用要求100分的辨識結果。如果不需要做文字編輯,那其實這些OCR軟體都可以符合要求了。下圖左側為PDF檔,右側為輸出後的Word檔,可明顯看到格式跑掉的問題。
這個軟體的辨識及存檔邏輯是,將文字辨識完成後,會將文字用圖層的概念,藏在圖片下層再進行存檔,所以讓使用者搜尋及編輯。
但由於中文辨識不準確,如果在PDF軟體搜尋相關文字,可能會因為辨識錯誤而找不到內容,有編輯需求的朋友還是建議匯出成Word檔。第一張圖為還沒OCR之前,原始的PDF檔都是圖片組成,所以在搜尋框輸入關鍵字是找不到任何資料。
第二張圖為OCR之後,只要打入關鍵字,就能將文件裡所有結果都呈現出來。
另外一個讓我覺得很神奇的功能,這套軟體還可以把辨識內容匯出成Excel檔案,尤其是財報裡有很多財務數據都會自行另外整理及建檔,現在只要透過軟體自動辨識,就可以很快地抓取相關數據自行整理,不用再看財報比對及手工建檔,這套軟體根本是年報整理神器。尤其是以前也有花錢去買過其他影像”表格”辨識軟體,只能說使用起來,是FineReader OCR Pro大勝。
提升工作效率重點在於方法及工具,找對好的工具,效率就先贏別人一半了。由於找到這個好工具太過強大,所以用此文來紀錄分享。如果各位有找到不錯的工具,也多多交流,大家一起成長進步哦!
Duncan Teng 大大非常感謝教學