一级aa毛片-中文字幕乱码亚洲影视-亚洲欧洲无码专区av-奇米91-蜜乳av网站-日日夜夜免费-欧美精品色-亚洲成av人片在线观l看福利1-欧美在线观看免费专区-国产日比视频-色悠久久久久综合网伊人-亚洲人成伊人成综合网小说-欧美 日韩 人妻 高清 中文-欧美偷拍一区二区-国产中的精品suv

清研智談 | 經(jīng)濟普查數(shù)據(jù)挖掘可視化分析探究與實現(xiàn)

清研智談 | 經(jīng)濟普查數(shù)據(jù)挖掘可視化分析探究與實現(xiàn)

經(jīng)濟普查與人口普查、農(nóng)業(yè)普查組成三大周期性全國普查項目。經(jīng)濟普查每五年進行一次,分別在逢3、逢8的年份實施,我國已在2004年、2008年、2013年、2018年開展了四次全國經(jīng)濟普查。今年開展的是第五次全國經(jīng)濟普查。

經(jīng)濟普查是國家為掌握國民經(jīng)濟第二產(chǎn)業(yè)和第三產(chǎn)業(yè)的發(fā)展規(guī)模及布局,了解我國產(chǎn)業(yè)組織、產(chǎn)業(yè)結(jié)構(gòu)、產(chǎn)業(yè)技術(shù)的現(xiàn)狀以及各生產(chǎn)要素的構(gòu)成,摸清我國各類企業(yè)和單位能源消耗的基本情況,建立健全覆蓋國民經(jīng)濟各行業(yè)的基本單位名錄庫、基礎(chǔ)信息數(shù)據(jù)庫和統(tǒng)計電子地理信息系統(tǒng),為研究和制定國民經(jīng)濟和社會發(fā)展規(guī)劃,提高決策和管理水平而進行的一項大型國情國力調(diào)查。

我國經(jīng)濟普查數(shù)據(jù)研究的現(xiàn)狀

我國對經(jīng)濟普查數(shù)據(jù)質(zhì)量的控制和評估貫穿于普查工作的全過程,從事前清查、事中登記錄入?yún)R總到事后抽查,都制訂了相應(yīng)的數(shù)據(jù)質(zhì)量控制和評估辦法。但現(xiàn)階段,我國統(tǒng)計機構(gòu)對經(jīng)濟普查數(shù)據(jù)的研究與國外存在較大的差距。歐美等大部分發(fā)達國家對經(jīng)濟普查數(shù)據(jù)的研究已經(jīng)進入到 Web應(yīng)用、數(shù)據(jù)倉庫應(yīng)用以及智能數(shù)據(jù)分析技術(shù)應(yīng)用階段,我國統(tǒng)計機構(gòu)還未能將智能數(shù)據(jù)分析技術(shù)真正應(yīng)用到經(jīng)濟普查數(shù)據(jù)中,仍較多的使用網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)來獲得一些結(jié)果。在我國經(jīng)濟不斷發(fā)展、普查過程中調(diào)整數(shù)量不斷增加的形勢下工作量變得不堪重負,且過多的人工操作環(huán)節(jié)存在較多的失誤機率,并會引起工作的滯后性。因此,普查工作需要依靠更高的科技進行網(wǎng)絡(luò)數(shù)據(jù)傳輸、科學(xué)利用智能數(shù)據(jù)分析方法或數(shù)據(jù)挖掘方法研究普查數(shù)據(jù)結(jié)果的輔助。

清研智談 | 經(jīng)濟普查數(shù)據(jù)挖掘可視化分析探究與實現(xiàn)

我國經(jīng)濟普查數(shù)據(jù)挖掘需求分析

經(jīng)濟普查是全國重大的大型國情、國力調(diào)查,涉及全部的法人單位、產(chǎn)業(yè)活動單位和個體經(jīng)營戶。根據(jù)調(diào)查對象的不同,其調(diào)查內(nèi)容也不盡相同。而經(jīng)濟普查數(shù)據(jù)挖掘可視化分析歸根結(jié)底還是數(shù)據(jù)處理,這就離不開數(shù)據(jù)存儲的管理。

數(shù)據(jù)存儲的管理即針對經(jīng)濟普查數(shù)據(jù)處理業(yè)務(wù)的需求,以數(shù)據(jù)錄入存儲和數(shù)據(jù)分析處理為兩個主要功能環(huán)節(jié),通過數(shù)據(jù)庫存儲技術(shù)滿足其錄入需求,數(shù)據(jù)庫腳本語言技術(shù)滿足其數(shù)據(jù)表處理需求,基于此思想完成數(shù)據(jù)儲存的需求分析,并通過需求分析的逐步深入,確定用戶管理、數(shù)據(jù)錄入、數(shù)據(jù)查詢和匯總、系統(tǒng)導(dǎo)航幫助以及系統(tǒng)安全管理等功能點。

智能數(shù)據(jù)分析則是在數(shù)據(jù)采集、統(tǒng)計和匯總的基礎(chǔ)上,利用智能化的分析的模型挖掘和發(fā)現(xiàn)普查數(shù)據(jù)關(guān)系、經(jīng)濟發(fā)展問題、經(jīng)濟水平地域劃分、經(jīng)濟指標等級狀況以及基于經(jīng)濟指標的全國經(jīng)濟發(fā)展布局對策建議。智能數(shù)據(jù)分析需要滿足對現(xiàn)有數(shù)據(jù)庫技術(shù)無法統(tǒng)計出的數(shù)據(jù)報表進行有效統(tǒng)計和聚類、需要協(xié)助數(shù)據(jù)庫技術(shù)以期更全面地發(fā)現(xiàn)問題從而更全面地掌握全局、需要為經(jīng)濟發(fā)展的下一步規(guī)劃做好基礎(chǔ)分析工作和預(yù)測建議。

清研智談 | 經(jīng)濟普查數(shù)據(jù)挖掘可視化分析探究與實現(xiàn)

經(jīng)濟普查數(shù)據(jù)挖掘需求分析匯總

經(jīng)濟普查智能數(shù)據(jù)分析方法與實現(xiàn)

普查數(shù)據(jù)質(zhì)量是普查工作的生命線,針對我國“五經(jīng)普”調(diào)查對象數(shù)量大幅增加、查準查實普查單位難度空前加大、首次統(tǒng)籌開展投入產(chǎn)出調(diào)查等新特點,經(jīng)濟普查智能數(shù)據(jù)分析方法至關(guān)重要。首先,我們對原始數(shù)據(jù)進行預(yù)處理,包括數(shù)據(jù)清洗、缺失值處理等。然后,我們利用聚類分析對產(chǎn)業(yè)進行分類,并利用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)了不同產(chǎn)業(yè)之間的關(guān)聯(lián)關(guān)系。最后,我們利用柱狀圖、折線圖等可視化方法展示不同產(chǎn)業(yè)的產(chǎn)值、就業(yè)人數(shù)等信息,以及經(jīng)濟增長、就業(yè)等隨時間變化的趨勢。

常規(guī)的智能數(shù)據(jù)分析種類繁多,比如粗糙模糊集、概率粗糙集、遺傳算法、基于決策樹的分類、貝葉斯分類、層次聚類、貝葉斯網(wǎng)、馬爾科夫網(wǎng)、影響圖決策以及增強學(xué)習(xí)型算法和數(shù)據(jù)融合分析等。結(jié)合經(jīng)濟普查特點,可重點運用分類和聚類的各種方法實現(xiàn)對經(jīng)濟普查的智能化分析,主要包括模糊聚類算法、MMD算法(又稱最大最小距離算法)、K-均值聚類法、FCM算法(又稱模糊的c-均值聚類法),這四類的基本原理、算法過程以及其于經(jīng)濟普查數(shù)據(jù)分析的實踐運用于經(jīng)濟普查數(shù)據(jù)分析效果良好,能很好地解決經(jīng)濟普查數(shù)據(jù)分析中的問題。

模糊聚類算法

模糊聚類算法是一種廣泛應(yīng)用的模糊數(shù)學(xué)方法,它根據(jù)研究對象本身的屬性來構(gòu)造模糊矩陣,并模糊聚類算法是一種廣泛應(yīng)用的模糊數(shù)學(xué)方法,它根據(jù)研究對象本身的屬性來構(gòu)造模糊矩陣,并在此基礎(chǔ)上根據(jù)一定的隸屬度來確定聚類關(guān)系。聚類是無監(jiān)督學(xué)習(xí)的一種重要方法,旨在將相似的樣本聚集在同一個類中,使得它們之間的距離或相似度較高,而非相似的樣本則分散在不同的類中。

模糊聚類算法通常用一個向量來表示一個數(shù)據(jù)點的歸屬,向量中哪個維度的數(shù)值更大,意味著該數(shù)據(jù)點距離該維度對應(yīng)簇更近,即歸屬于該簇的概率越大。在模糊聚類分析中,每個樣本點對各個簇的隸屬度是不同的,而不僅僅是屬于某一類或不屬于某一類。

MMD(Maximum Mean Discrepancy)算法

MMD(Maximum Mean Discrepancy)算法是一種度量兩個分布之間差異的方法,尤其在遷移MMD(Maximum Mean Discrepancy)算法是一種度量兩個分布之間差異的方法,尤其在遷移學(xué)習(xí)中被廣泛用作損失函數(shù)。它是基于高斯核函數(shù)來計算兩個不同分布的樣本的均值和差值的度量方法,可以有效地判斷兩個分布的相似程度。

MMD的優(yōu)勢在于其不需要借助額外的參數(shù),而是直接利用數(shù)據(jù)本身的分布特性進行計算。此外,MMD也被視為一種基于歐式距離的模式識別算法,能夠避免聚類種子過于臨近的問題,從而具有更好的性能。

K-均值聚類法

K-均值聚類法是一種非監(jiān)督學(xué)習(xí)算法,其主要目標是將數(shù)據(jù)分為K個組,使得K-均值聚類法是一種非監(jiān)督學(xué)習(xí)算法,其主要目標是將數(shù)據(jù)分為K個組,使得每個組內(nèi)的數(shù)據(jù)點之間的相似度盡可能高,而不同組之間的數(shù)據(jù)點的相似度盡可能低。它的基本思想是通過迭代尋找K個聚類中心,然后將每個數(shù)據(jù)點分配給最近的聚類中心,形成K個簇。

模糊聚類算法與K均值聚類算法(Kmeans)有著密切的關(guān)系。Kmeans算法是根據(jù)樣本之間的歐氏距離來進行聚類的,而模糊聚類則是基于樣本之間的相似性度量來進行聚類的。因此,在進行模糊聚類分析時,可以借鑒Kmeans算法的一些思想。

FCM算法

FCM算法,全稱為模糊C均值聚類算法,是一種基于隸屬度的軟聚類方法。它可以將數(shù)據(jù)集劃分為K個類,每個樣本都有屬于每個類的隸屬度,并且所有隸屬度之和為1。

FCM算法的目標是通過優(yōu)化目標函數(shù)來確定聚類中心和隸屬度矩陣。目標函數(shù)如下:J_m(U, v)=∑_{i=1}^c ∑_{k=1}^n x_{ik}^m ‖x_k-v_i‖^2,其中v = (v1, v2,…, vc),m > 1為模糊參數(shù),該參數(shù)決定了聚類的模糊度,也就是數(shù)據(jù)點可以成為多個類的程度,大多數(shù)情況下m=2。

經(jīng)濟普查智能數(shù)據(jù)挖掘可視化分析展望

伴隨大數(shù)據(jù)時代、物聯(lián)網(wǎng)、人工智能等技術(shù)的到來,經(jīng)濟發(fā)展形勢更加復(fù)雜,我國政府既關(guān)注發(fā)展速度,又關(guān)注發(fā)展質(zhì)量,這也是衡量國家綜合實力的重要體現(xiàn),做好第五次經(jīng)濟普查,加強數(shù)據(jù)挖掘技術(shù)和方法研究,對提高經(jīng)濟普查數(shù)據(jù)利用價值具有重要的意義。經(jīng)濟普查智能數(shù)據(jù)挖掘可視化分析結(jié)合經(jīng)濟普查的重點、難點,必將具備以下特點:

涵蓋經(jīng)濟普查的全過程

經(jīng)濟普查從數(shù)據(jù)采集到錄入數(shù)據(jù)庫系統(tǒng),到對數(shù)據(jù)進行有效分析,最后產(chǎn)生數(shù)據(jù)報表和呈現(xiàn)數(shù)據(jù)分析結(jié)果,經(jīng)濟普查智能數(shù)據(jù)挖掘的可視化需具備以上所有過程中涵蓋的各項功能的完整性。

數(shù)據(jù)存儲系統(tǒng)保障普查數(shù)據(jù)的時效性和共享性

以往的數(shù)據(jù)普查通過普查人員走訪、人工錄入電子設(shè)備,現(xiàn)有系統(tǒng)能滿足普查單位直接網(wǎng)上錄入,普查人員實時查看審核,時效性強;同時,普查數(shù)據(jù)網(wǎng)絡(luò)化能讓從上到下的各級單位 對數(shù)據(jù)進行查看和操作,避免了上級需要下級進行漫長的數(shù)據(jù)報送后才能了解數(shù)據(jù)情況的問題,系統(tǒng)實現(xiàn)了數(shù)據(jù)的共享。

智能數(shù)據(jù)分析系統(tǒng)應(yīng)用目前熱門的數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息出現(xiàn)“大爆炸”現(xiàn)象但知識貧乏的背景下而生,目的是能從海量信息中發(fā)現(xiàn)潛在的規(guī)律和有效的“知識”,全國經(jīng)濟普查數(shù)據(jù)滿足大而多的特點,雖然具備一些潛在規(guī)律,但依然避免不了存在很多內(nèi)在的難以發(fā)現(xiàn)的問題,高效的可視化數(shù)據(jù)挖掘技術(shù)需有效地彌補這一缺陷。

MatLab繪圖呈現(xiàn)結(jié)果精準化、全面化

MatLab是一個應(yīng)用非常成熟的數(shù)學(xué)軟件,其繪圖功能能夠?qū)崿F(xiàn)各種圖形的繪制,將其運用于經(jīng)濟普查數(shù)據(jù)分析結(jié)果的呈現(xiàn),保障繪圖數(shù)據(jù)的精準化。同時,MatLab能相對容易地進行三維圖的 繪制,對經(jīng)濟普查數(shù)據(jù)走勢的繪圖將更直觀、更全面,這是目前一般統(tǒng)計類軟件所不具備的功能或擁有該功能但繪圖效果沒有那么明顯。

清研智談 | 經(jīng)濟普查數(shù)據(jù)挖掘可視化分析探究與實現(xiàn)

總之,經(jīng)濟普查數(shù)據(jù)的挖掘與可視化分析是大數(shù)據(jù)時代背景下的一項重要任務(wù)。通過對經(jīng)濟普查數(shù)據(jù)的挖掘與可視化分析,我們可以更好地了解國民經(jīng)濟的運行狀況,為政府制定宏觀經(jīng)濟政策提供有力的支持。在未來的研究中,我們將繼續(xù)探索更加高效、準確的經(jīng)濟普查數(shù)據(jù)挖掘與可視化分析方法,為我國經(jīng)濟發(fā)展做出更大的貢獻。

撰稿 | 王秋慧 清研集團智能數(shù)據(jù)挖掘研究部研究員

編輯 | 陳澤璽

圖片 | 網(wǎng)絡(luò)

相關(guān)文章