每日企業收到信息,不少都會輸入系統處理或者保存,例如傳真、單據、訂單、生產單、報價,以人手分類和輸入,才能供系統化處理交易,以至作為紀錄。
文件數碼化之後,才能產生更大價值,例如產生準確報表,或日後快速翻查。問題是,每家企業有本身文件格式,交換方法各異。以往,不少文件先經人手輸入和校正,再進入不同系統。
愈來愈多企業認識到,系統管理業務可帶來不少優點。業務數碼化,可建立自動化流程,提高營運效率,也可避免出錯。類似SAP、Oracle、Microsoft Dynamics等解決方案,在加速業務成長,優化營運,分析業務協助決策,效果愈來愈明顯。但輸入資料和數碼化資料,工作亦愈見繁重。
不少企業也加入「企業內容管理」(Enterprise Content Management,ECM)系統;以儲存、分類、並加快資料檢索。內容管理有助改善知識管理,員工更快搜尋內容和回應要求,亦可應付愈來愈高的法規遵從要求。
數碼化關鍵技術
毋論是企業系統,抑或是ECM要運作暢順,前題是須有精確和快速的數據輸入,系統的結論才具意義。所有的業務系統,又均以「關聯資料庫」(Relational Database Management System,縮寫為RDBMS)儲存資料,也就是「結構式數據」(Structured Data);數據有固定格式,精確定義。資料皆有固定欄位、格式、甚至是順序和佔用儲存大小,輸入必須準確無誤。
ECM儲存大量非結構資料;例如客戶申請表、建議書、個人資料、產品內容等。雖然ECM以處理非結構式數據為主,文件歸檔、分類和搜尋,卻靠建立元數據(MetaData),以描述文件性質和屬性,供分類和檢索之用。精確的元數據 有助建立管理文件的內容,供未來採用。
OpenText是全球最大內容管理軟件公司,助企業管理大量內容。而擷取和數碼化不同內容,又正是數碼化企業不可或缺的工具。
OpenText亞洲區銷售總監曾家寶說,企業從不同渠道,接收不少非結構式的數據;例如傳真、影印、書信、單據、以往靠人手閱讀和分類,再轉化為結構式數據。以往,企業間和客戶的信息交換,仍大量靠人手輸入;除了沒有效率,也有出錯的機會。故此,不少機構轉用了OpenText Capture Center(OCC);訓練系統辨認不同的文件格式,甚至學習識別全新的文件,自動數碼化資料,發揮系統最大效益。
OCC自動內容識別方案,可自動閱讀各類文件,擷取內容作分類;例如從非結構性文件抽取和建立MetaData,或從單據內擷取關鍵資料;分類後上載至資料庫。
曾家寶說,採用OCC方案用戶,主要分兩大範疇;其一乃針對特定企業應用,例如可處理申請、訂單、發票等。OCC配合後台應用,自動填寫資料到資料庫欄位;直接支援SAP及Oracle方案,收到文件後加快處理,減少人手錯誤。
OCC亦可助個人用戶歸檔文件,銷售人員可能處理大量的非結構式資料的文件,包括了報價單、建議、產品說明等;分類和歸檔花上不少時間。OCC可自動掃描文件,自行分類後上載,自動開立資料夾歸檔至文件管理系統,並抽出重要內容,產生描述文件內容的元數據(MetaData),供檢索和翻查之用。
具自我學習能力
OCC可自動分辨和學習內容,再自動歸類,以不同流程處理。「OCC具備自我學習能力,系統不斷處理同一格式文件,準確度愈來愈高,甚至毋須人手協助,亦能資確擷取資料歸檔。」曾家寶說:「OCC從文件格式,已可猜中文件的類別,找尋可能出現相關內容;有點像人工智能;即使發現格式不能分類,又會自行學習,建立新格式。」
OCC擷取內容的經驗豐富,已經可以辨認全球四千多種常用商業發票(Commercial Invoice),可預先輸入資料庫,可辨認絕大部分的發票內容。
「一般設置系統,只要先教OCC閱讀常用文件,系統就可自行操作。前期的教導工作,也毋須專業的程式人員。」OCC優點是通過不斷學習,累積經驗後,工多藝熟,分辨能力就愈來愈高。雖然說,OCC有時還須人手教導,或糾正錯誤,但下一次就會自行分辨。系統一旦發現內容異常,亦會發出警告,避免錯誤輸入。
曾家寶說:OCC與SAP企業應用有緊密整合,擷取數據可即時自動輸入系統;其他系統也有相應的連接器。此外,OCC擁有本身OCR文字識別技術,分辨多國語文和格式,擷取內容的準確程度,可說無出其右。