經過了多次數據審核校驗和修改的考驗,
深圳市審核通過率和核算完成率持續走在廣東省前列。在數據審核和核算工作基本完成的基礎上,深圳市普查辦組織全市11個區普查骨干開展污染源普查數據集中交叉會審會議,進一步提高普查數據的整體質量。
第二次全國污染源普查指標多達1700余項,對數據的完整性、邏輯性和準確性有極高要求。為此,深圳市利用大數據技術,打通數據審核“最后一公里”,確保普查數據真實準確,這一“深圳特色”也獲得生態環境部普查辦的肯定。
預測填報,夯實數據基礎
作為全國經濟發展領頭羊之一,深圳市擁有大量工業企業,污染源頭復雜多樣。據介紹,深圳市需要開展入戶調查的工業污染源達9.4萬家,占全國工業源總數的3%以上。數量如此龐大,普查員該如何保證數據填報精準無誤?
深圳市普查辦工作人員介紹,普查員在上門填報時,對于普查企業的基礎信息掌握有限,一般僅知道企業名稱、地址、聯系人和聯系電話。對于企業是否存在行業特征污染物、是否使用普查所關注的原材料、是否生產涉污產品等指標僅有一個模糊的概念。
因此,深圳市普查辦立刻啟動大數據預填報項目,通過搭建部門監管數據與互聯網公開數據之間的關系網,在已有部門監管數據源的基礎上,使用大數據技術獲取普查對象在互聯網公開的原輔料、產品等信息,并通過機器學習算法建立一套“深圳市工業企業原輔料-產品-排放污染物”的概化模型,極大地豐富了普查對象的基礎數據,來解決普查員在普查過程中調取數據缺乏指向性的
問題。
利用該模型的預測功能,普查人員能夠大體了解企業的原料、水氣電資源消耗量、產品產量、產排污指標和產排污數量范圍,做到填報過程中“眼中有數,心中有譜”,能更有針對性地填準報表并核實存疑數據,大大提高了入戶效率;減少了普查數據在錄入過程中出現誤填誤報的情況,為數據審核工作打下良好基礎。
智能校驗,強化查漏補缺
為確保普查對象的應查盡查,在按照國家要求對第四次全國經濟普查清查名錄、用電數據清單、信訪舉報清單和‘散亂污’企業排查清單等進行排查比對的基礎上,市普查辦還聯合南方科技大學,在人工智能自然語言處理技術的加持下,設計出相應的“數據清洗流程和排污企業實體一致性算法”。通過調取跨部門監管數據,計算企業名稱相似度,分別提取全市工業用氣量排名前3000名、用水量前10000名、環統數據、重點源監管數據的企業記錄。將外部數據與普查數據進行比對,篩查出2399家需核實疑似漏查企業名單,核實補充填報了249個污染源報表。
為確保普查報表的應填盡填,深圳市普查辦采取分析各行業涉廢水、廢氣、危廢等報表填報率的方法,從表格填報率大于50%的行業中篩選出年產值大于300萬且未填報相應表格的企業名單,形成3731家疑似漏表企業清單。經現場核實,共補充填報652家實際漏填表格企業。
為確保核算工藝環節的應算必算,深圳市普查辦通過利用建立在NoSQL數據庫上、融合了環保專家專業知識和機器學習自然語言處理的工藝環節審核工具,對填報數據的工藝環節實現自動化審核,反推工藝流程是否有缺漏,完成了20個主要行業的工藝流程審核,覆蓋企業數量45409家,形成需核實企業名單11833家。經核實,共補齊了8000多個指標。
細化審核,糾正異常數據
第二次全國污染源普查工作是一項重大的國情調查,其特殊的專業性決定了工作的復雜性。為此,深圳市發揮技術優勢,厘清復雜信息、指標,突破數據審核瓶頸,為普查數據的準確性夯實基礎。
“數據質量是普查工作的生命線?!鄙钲谑衅詹檗k負責人如是說。為進一步提升數據質量,更好滿足環境管理部門后續對數據的使用需求,深圳市普查辦強化數據審核,排除異常數據。
“原輔料是描述和刻畫企業生產活動的必要指標,在普查數據填報過程中容易漏填、錯填?!?深圳市普查辦工作人員說。
為解決這一問題,深圳市普查辦聯合南方科技大學開發了專門針對原輔料用量、固廢產生量、危廢產生量等的填報指標及填報內容審核的方法。據了解,該審核方法基于“相同行業在填報指標項和填報內容上應該具有較高的一致性”的假設,從多個維度比對“同行業、同產品、同工藝”的“三同”原則下填報企業的數量型指標的合理性,借助指標特征圖譜篩選出異常值指標。通過比對異常值內容,從而查找出漏填、錯填的企業名單。從20個行業中篩查得出了790條異常值信息,經核實糾正了266條數據。
與此同時,深圳市普查辦聯合南方科技大學使用人工智能比對技術,分別提取外部監管數據中全市工業用氣量排名前3000名、用水量前10000名的企業記錄,與普查系統中填報的用水量和用氣量數據進行偏離度分析。共篩查出664條偏離度較高的記錄,核實糾正203條數據。
值得一提的是,深圳市普查辦大數據項目組聯合市督導組開發了“深圳市審核軟件”,作為對國家、廣東省審核規則的補充,直接對國家軟件系統導出的表格進行審核,并且規則可動態更新。