為深入開展大數(shù)據(jù)技術(shù)分析研究,提升青年教師科學(xué)研究能力,9月13日,工學(xué)院組織大數(shù)據(jù)文本分析課題組在信工樓會(huì)議室召開了專項(xiàng)技術(shù)研討會(huì)。本次研討會(huì)由楊文博士主持,田恒義院長(zhǎng)、曹飛飛、趙雪利、胡娟娟、王婷等老師一同參加。會(huì)議針對(duì)PDF表格數(shù)據(jù)識(shí)別提取技術(shù)的階段性成果進(jìn)行展示,與會(huì)者圍繞此次內(nèi)容,就相關(guān)的技術(shù)問題展開了深入的討論。

田院長(zhǎng)表示,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)的有效性和準(zhǔn)確性越來越重要。而從PDF文件中提取表格數(shù)據(jù),尤其是在大批量表格的情況下,如何選擇相關(guān)技術(shù)手段,實(shí)現(xiàn)對(duì)PDF文件中的表格數(shù)據(jù)進(jìn)行快速、準(zhǔn)確的識(shí)別提取來保證效率和準(zhǔn)確性是一大挑戰(zhàn)。

楊文博士詳細(xì)介紹了團(tuán)隊(duì)研究成果。此課題使用的是基于深度學(xué)習(xí)的OCR(光學(xué)字符識(shí)別)技術(shù),實(shí)現(xiàn)對(duì)PDF文件的表格進(jìn)行快速、準(zhǔn)確的識(shí)別。同時(shí)也進(jìn)行了項(xiàng)目成果展示,識(shí)別結(jié)果顯示出了OCR技術(shù)在處理大批量PDF表格數(shù)據(jù)時(shí)的優(yōu)越性。隨后,團(tuán)隊(duì)成員與楊文博士進(jìn)行了深入的討論交流。楊文博士針對(duì)目前項(xiàng)目存在的問題和困難給出了建設(shè)性的意見和指導(dǎo),并對(duì)一些具體的技術(shù)細(xì)節(jié)進(jìn)行了探討,例如如何提高OCR技術(shù)的識(shí)別率、如何處理復(fù)雜的PDF文件格式等。
田院長(zhǎng)指出,盡管現(xiàn)有的技術(shù)已經(jīng)取得了一些成果,但仍然有很多工作要持續(xù)推進(jìn)。他鼓勵(lì)大家繼續(xù)深入研究,并期待看到更多的突破性成果,同時(shí)希望通過這樣的項(xiàng)目實(shí)踐,培養(yǎng)出更多具備創(chuàng)新精神和實(shí)際應(yīng)用能力的師生。