淺談OCR技術(shù)在檔案信息化應(yīng)用的價(jià)值
一、OCR簡(jiǎn)介
OCR即Optical Character Recognition(光學(xué)字符識(shí)別)的簡(jiǎn)稱,是通過(guò)掃描等光學(xué)輸入方式將各種票據(jù)、報(bào)刊、書(shū)籍、文稿及其它印刷品的文字轉(zhuǎn)化為圖像信息,再利用文字識(shí)別技術(shù)將圖像信息轉(zhuǎn)化為可以使用的計(jì)算機(jī)輸入技術(shù)。此概念最早由德國(guó)科學(xué)家Tausheck于1929年提出,而在國(guó)內(nèi)上世紀(jì)70年代末才開(kāi)始進(jìn)行相關(guān)的研究,雖然起步較晚,但總體來(lái)說(shuō)進(jìn)步很快,尤其是針對(duì)漢字識(shí)別方面已經(jīng)取得了相當(dāng)大的成功,目前多數(shù)OCR相關(guān)產(chǎn)品的漢字識(shí)別率都在95%以上,其識(shí)別正確率也在逐步上升。
二、OCR在檔案著錄工作的具體應(yīng)用
隨著OCR技術(shù)不斷的發(fā)展與完善,越來(lái)越多的檔案信息化領(lǐng)域的技術(shù)人員對(duì)其在檔案管理軟件實(shí)際應(yīng)用中的重要性有了較高認(rèn)識(shí),并逐漸開(kāi)始在檔案軟件中取得應(yīng)用。以紫光檔案為例,經(jīng)過(guò)技術(shù)部門(mén)對(duì)OCR技術(shù)的不斷探索與應(yīng)用實(shí)踐,幾年前就已成功將OCR技術(shù)應(yīng)用在當(dāng)時(shí)的檔案管理軟件中,并取得階段性成果,真正實(shí)現(xiàn)了從數(shù)據(jù)掃描到信息提取,最后到檔案校對(duì)、整編、歸檔全過(guò)程的自動(dòng)化。
附件: 您所在的用戶組無(wú)法下載或查看附件
具體來(lái)講,利用OCR技術(shù)可以實(shí)現(xiàn)以下幾方面內(nèi)容:
(一)圖像處理
利用圖像處理技術(shù)在掃描的過(guò)程中對(duì)圖像自動(dòng)進(jìn)行去污、糾偏、去黑邊的處理,既提高了掃描圖像的質(zhì)量,又為下一步OCR識(shí)別提供保障。
( 二)OCR識(shí)別
發(fā)展至今OCR識(shí)別技術(shù)已經(jīng)非常成熟,市場(chǎng)上主流的OCR技術(shù)提供商所宣傳的識(shí)別率都在95%以上,而且還支持漢字和英文混排、日文和英文混排、韓文和英文混排的識(shí)別。而應(yīng)用于檔案行業(yè)需要技術(shù)考慮的主要問(wèn)題是原稿本身的“質(zhì)量”對(duì)識(shí)別效果的影響,檔案本身的“質(zhì)量”和形成年份有關(guān),2000年以后形成的文件已經(jīng)非常規(guī)范、字跡清晰完整,識(shí)別后的準(zhǔn)確率很高,可以滿足識(shí)別。
(三)信息自動(dòng)提取
檔案信息自動(dòng)提取的過(guò)程中需要對(duì)文件的版面進(jìn)行分析,現(xiàn)行檔案中需要提取的信息的位置相對(duì)來(lái)說(shuō)比較固定的,比如:文件題名在紅頭下邊,再往下是文號(hào),文件日期及主題詞在尾頁(yè)的末位,其它信息如責(zé)任者、擬稿人、主送、抄送也會(huì)有明確的標(biāo)識(shí),可以針對(duì)文檔的特點(diǎn)建立模板庫(kù),隨著模板庫(kù)的增加提取的信息也會(huì)更加準(zhǔn)確。
(四)內(nèi)容校對(duì)
批量掃描后檔案管理員需要對(duì)識(shí)別的信息進(jìn)行校對(duì),可以利用自動(dòng)掛接的電子文件與記錄進(jìn)行對(duì)比校對(duì),對(duì)錯(cuò)誤的信息進(jìn)行糾正,軟件系統(tǒng)中應(yīng)設(shè)計(jì)批量校對(duì)的方法或工具來(lái)提高校對(duì)的效率。
附件: 您所在的用戶組無(wú)法下載或查看附件
三、OCR技術(shù)在檔案著錄的巨大潛力
在OCR技術(shù)應(yīng)用的整個(gè)過(guò)程中,信息的自動(dòng)提取是關(guān)鍵,提取的效果決定著整體著錄的效果,從筆者所掌握的情況來(lái)看,目前檔案管理軟件供應(yīng)商中能夠提供高水準(zhǔn)OCR技術(shù)應(yīng)用的不是很多,未來(lái)還有很大的發(fā)展空間。隨著此方面技術(shù)的不斷完善,必定會(huì)給著錄工作帶來(lái)質(zhì)的飛躍。那么,未來(lái)檔案管理軟件中OCR的全面應(yīng)用到底能夠給檔案工作帶來(lái)哪些便利?
一方面,節(jié)約檔案著錄工作的時(shí)間。根據(jù)測(cè)試得到的數(shù)據(jù),現(xiàn)在利用OCR技術(shù)后,檔案管理人員人均每天能夠完成400~500頁(yè)的掃描著錄工作,待OCR技術(shù)在檔案領(lǐng)域應(yīng)用進(jìn)一步成熟后,著錄工作效率將提升30%左右,從過(guò)去的繁瑣著錄到未來(lái)的便捷著錄僅僅是時(shí)間問(wèn)題。
另一方面,著錄準(zhǔn)確率將大幅上升。現(xiàn)階段應(yīng)用OCR后著錄準(zhǔn)確率并不樂(lè)觀,在原始檔案質(zhì)量好的情況下,準(zhǔn)確率能達(dá)到90%以上,如果原始檔案質(zhì)量不好,準(zhǔn)確率大致在70%~80%之間,而且后期大量的校對(duì)工作也會(huì)給檔案工作帶來(lái)不少的麻煩,未來(lái)將重點(diǎn)提升著錄準(zhǔn)確率,使著錄出錯(cuò)率控制在2%以內(nèi)。
第三方面,工作流程更加合理高效。進(jìn)一步減少著錄及后期校對(duì)所需的時(shí)間,使檔案著錄工作流程更加緊湊合理,由于以往檔案工作者在著錄等基礎(chǔ)工作上花費(fèi)了太多的時(shí)間,從而忽視了檔案的利用工作,而整個(gè)工作流程改善后,就可以在檔案利用上下大工夫,增強(qiáng)檔案信息服務(wù)的價(jià)值。
要實(shí)現(xiàn)OCR技術(shù)在檔案管理軟件中的完美應(yīng)用,作為技術(shù)部門(mén)最為關(guān)鍵的便是要掌握客戶的需求,從客戶的角度出發(fā),是否能夠滿足客戶需求才是衡量技術(shù)好壞的唯一標(biāo)準(zhǔn)。其次要明確目標(biāo),任何一種技術(shù)的成熟都離不開(kāi)對(duì)目標(biāo)孜孜以求的熱情與決心,如果一味的滿足現(xiàn)狀,那么技術(shù)就談不上發(fā)展。以我個(gè)人而言,希望在此方面有所突破,并已經(jīng)開(kāi)始著手準(zhǔn)備。最后,要有持之以恒的耐力,這如同企業(yè)的發(fā)展一樣,缺少耐力和韌性的公司是走不了太久的,技術(shù)更是如此,黑夜之后就是黎明,只有堅(jiān)持才能看到光明。
在檔案領(lǐng)域里,利用OCR技術(shù)輔助著錄只是檔案系統(tǒng)中集成新技術(shù)的一個(gè)實(shí)例,計(jì)算機(jī)信息技術(shù)發(fā)展到現(xiàn)在有各種各樣成熟的技術(shù)可供我們來(lái)借鑒與參考比如:語(yǔ)音輸入、手寫(xiě)板輸入等,甚至將來(lái)會(huì)出現(xiàn)專門(mén)應(yīng)用于檔案著錄的輸入法也不是沒(méi)有可能,信息技術(shù)永無(wú)止境的發(fā)展未來(lái)一定會(huì)有更多更好的新興技術(shù)服務(wù)于檔案事業(yè)。