投資心得

必用的財報整理工具-FineReader OCR Pro

由

2020-03-24

1457

在看財報的時候，很多公司的pdf檔都只是文件掃描的圖檔，每次要看的時候都無法快速的尋找想要的關鍵資料，都要一頁一頁看，這真的要花費很多時間去整理，如果看的公司數量一多，整個工作效率就會嚴重的降低。所以就在思考如果可以把圖片中的文字辨識出來，從圖片變成文字檔，那就可以快速找到想要的資料了。這種問題一定是有工具存在這個世界上，只是還沒有被我們找到。所以在找工具前，一定要先確定需求，明白自己要的是什麼。我所設定的重點是：能將PDF裡的圖檔，辨識出文字，以便能快速尋找到關鍵資訊。

這部分就要透過OCR(光學字元辨識)工具來處理轉檔，像Adobe的Adobe acrobat DC就有付費功能，因為是每個月都要付費，感覺長期付下來會有點貴，所以就沒有採用，後來終於找到適合的OCR工具”FineReader OCR Pro”(MAC用)，而且還是一次性買斷式的費用，不用長期持續付費。

OCR的中文辨識，其實不論任何軟體都無法非常完整的辨識出來，還有包括格式跑掉的問題會產生，不過幸好我們的要求只要把原本年報裡，公司將所有文字報表存成圖片的部份轉換成文字，讓我們能做到用關鍵字搜尋即可，所以不用要求100分的辨識結果。如果不需要做文字編輯，那其實這些OCR軟體都可以符合要求了。下圖左側為PDF檔，右側為輸出後的Word檔，可明顯看到格式跑掉的問題。

這個軟體的辨識及存檔邏輯是，將文字辨識完成後，會將文字用圖層的概念，藏在圖片下層再進行存檔，所以讓使用者搜尋及編輯。

但由於中文辨識不準確，如果在PDF軟體搜尋相關文字，可能會因為辨識錯誤而找不到內容，有編輯需求的朋友還是建議匯出成Word檔。第一張圖為還沒OCR之前，原始的PDF檔都是圖片組成，所以在搜尋框輸入關鍵字是找不到任何資料。

第二張圖為OCR之後，只要打入關鍵字，就能將文件裡所有結果都呈現出來。

另外一個讓我覺得很神奇的功能，這套軟體還可以把辨識內容匯出成Excel檔案，尤其是財報裡有很多財務數據都會自行另外整理及建檔，現在只要透過軟體自動辨識，就可以很快地抓取相關數據自行整理，不用再看財報比對及手工建檔，這套軟體根本是年報整理神器。尤其是以前也有花錢去買過其他影像”表格”辨識軟體，只能說使用起來，是FineReader OCR Pro大勝。

提升工作效率重點在於方法及工具，找對好的工具，效率就先贏別人一半了。由於找到這個好工具太過強大，所以用此文來紀錄分享。如果各位有找到不錯的工具，也多多交流，大家一起成長進步哦！

必用的財報整理工具-FineReader OCR Pro

1條評論

留下一個答复取消回复

1條評論

留下一個答复 取消回复

留下一個答复取消回复