公司名稱:西安金訊通軟件技術(shù)有限公司
地址:西安市高新區(qū)科技二路軟件園示范區(qū)西岳閣602室
客服電話:400-8888-531
辦公電話:029-88892077
029-88240958
傳真:029-88888933
網(wǎng)址:www.shariefjohnson.com
12345熱線在日常運(yùn)營中不斷產(chǎn)生著各類運(yùn)營數(shù)據(jù),這些數(shù)據(jù)日積月累形成了數(shù)以十萬計、百萬計甚至千萬計的數(shù)據(jù)信息,這些信息代表著最準(zhǔn)確最直接的民生訴求、體現(xiàn)著各級政府部門最真實的執(zhí)政績效、蘊(yùn)涵著社情民意熱點(diǎn)和民生態(tài)勢,可以說是支撐政府科學(xué)決策是推動社會治理科學(xué)化的數(shù)據(jù)寶礦,近年來這些數(shù)據(jù)越來越被各地政府重視,那么12345熱線到底有那些數(shù)據(jù)?有什么樣的分析方法?最終能呈現(xiàn)出什么樣的價值? 我們不妨抽絲剝繭,一一分析。
第一篇 備菜:12345數(shù)據(jù)源分析與探索
第二篇 做菜:12345數(shù)據(jù)分析方法論
第三篇 上菜:12345數(shù)據(jù)分析需求與成果
第二篇:12345數(shù)據(jù)分析方法論
上一篇我們對12345熱線數(shù)據(jù)源進(jìn)行研究分析探討,數(shù)據(jù)源是數(shù)據(jù)分析的基礎(chǔ),但是如果沒有好的分析方法,數(shù)據(jù)源只能是沉睡的“寶礦”毫無價值,因此數(shù)據(jù)的分析挖掘才是12345大數(shù)據(jù)分析的最為關(guān)鍵的環(huán)節(jié),同樣的菜可以做出美味佳肴,也可以做出家常小菜,也有可能做的味同嚼蠟。數(shù)據(jù)分析如做菜一樣,需要方法更需要不斷探索。
當(dāng)然數(shù)據(jù)分析方法本身是一個非常大的命題,涉及到統(tǒng)計學(xué)、管理學(xué)及軟件即數(shù)據(jù)庫技術(shù)領(lǐng)域的知識,作者知識功底有限,只是根據(jù)自己工作實踐進(jìn)行的整理與思考,純屬野路子,下文所述希望能夠拋磚引玉,吸引大家一起思考討論。文章篇幅所限只能做概括性介紹,如需要深入了解希望有機(jī)會以論壇、會議的形式詳細(xì)溝通交流。
一、12345數(shù)據(jù)分析流程
上篇我們將12345數(shù)據(jù)源分為靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、輔助數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù), 整個分析方法(做菜過程)實際上就是對這些數(shù)據(jù)的加工處理并產(chǎn)生相應(yīng)結(jié)果的過程,用以下流程圖示意:
根據(jù)數(shù)據(jù)源的不同將數(shù)據(jù)分析方法分為兩條主線,結(jié)構(gòu)化數(shù)據(jù)分析線和非結(jié)構(gòu)化數(shù)據(jù)分析線, 結(jié)構(gòu)化數(shù)據(jù)是關(guān)鍵核心,非結(jié)構(gòu)化數(shù)據(jù)分析是補(bǔ)充。
與此同時在分析中需要參考基礎(chǔ)數(shù)據(jù),特別是工單分類、熱點(diǎn)分類等標(biāo)準(zhǔn)化數(shù)據(jù),同時如果有相關(guān)的輔助數(shù)據(jù)如人口法人信息、城市GIS地理信息、交通物業(yè)等信息庫,那對大數(shù)據(jù)分析更是錦上添花,更有助于數(shù)據(jù)分析的準(zhǔn)確性和專業(yè)性。
數(shù)據(jù)分析流程如同流水線一樣,沿著數(shù)據(jù)來源、初步分析、初步結(jié)果、核心分析、中間結(jié)果的操作流程執(zhí)行,最后再通過對中間結(jié)果的研讀、分析、總結(jié),最終形成數(shù)據(jù)專報。
二、12345結(jié)構(gòu)化數(shù)據(jù)分析方法總結(jié)
根據(jù)數(shù)據(jù)分析操作實踐,將數(shù)據(jù)分析方法總結(jié)為:三目標(biāo)、三要素、五方向和三步驟。
1、三目標(biāo):指大數(shù)據(jù)分析的三個境界和三個層次, 分別是:
呈現(xiàn)問題
反映問題規(guī)律和趨勢
分析重點(diǎn)問題、苗頭性問題并提出預(yù)警(以防減治、未訴先辦)
2、三要素:數(shù)據(jù)源、數(shù)據(jù)分析維度、數(shù)據(jù)圖表
1)數(shù)據(jù)源: 數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)源,數(shù)據(jù)源的核心是數(shù)據(jù)標(biāo)準(zhǔn)制定和基礎(chǔ)數(shù)據(jù)的質(zhì)量,如工單類型標(biāo)準(zhǔn)、熱點(diǎn)內(nèi)容標(biāo)準(zhǔn),地理信息數(shù)據(jù),行政組織數(shù)據(jù)等;
2)數(shù)據(jù)分析維度:大數(shù)據(jù)分析專報分析的關(guān)鍵是數(shù)據(jù)分析維度,12345結(jié)構(gòu)化數(shù)據(jù)通常包括人、地、 時、事四個維度:
人:訴求主體的群眾或企業(yè)
地:問題位置與所屬區(qū)域(區(qū)縣,街辦鄉(xiāng)鎮(zhèn)、社區(qū)村)
時:問題反映、分派、處理、完成、回訪時間
事:反映的事及辦理過程,包括工單內(nèi)容,類型內(nèi)容分類、辦理過程信息等,是數(shù)據(jù)分析的最核心維度...
3)數(shù)據(jù)圖表:數(shù)據(jù)圖表是數(shù)據(jù)分析的重要成果,也是數(shù)據(jù)專報的內(nèi)容核心,數(shù)據(jù)圖表是根據(jù)數(shù)據(jù)源通過不同的維度的分析產(chǎn)生的。
3、五方向:從數(shù)據(jù)分析的需求和維度出發(fā),從五個基本方向進(jìn)行分析:
總體情況及趨勢分析
各維度專項分析(人,地,時,事)
各維度重點(diǎn)項分析(二八法則,TOP20%的重點(diǎn)項可能占了80%的業(yè)務(wù)總量)
多維度交叉分析(人+事+地)
各維度“深鉆分析”(熱點(diǎn)一級到二級三級,區(qū)域:區(qū)縣到鄉(xiāng)鎮(zhèn)到社區(qū))
當(dāng)然數(shù)據(jù)分析的方向方法不僅限于以上內(nèi)容,應(yīng)該是百花齊放,百家爭鳴,以上所述只是常規(guī)的思路和方向;
4. 三步驟:指數(shù)據(jù)分析工作三個主要階段
1)打好基礎(chǔ) 做好數(shù)據(jù)源的規(guī)范,特別是分類標(biāo)準(zhǔn)和信息基礎(chǔ)
2)用好工具 使用SQL、EXCEL、GIS熱點(diǎn)及標(biāo)注、熱詞云圖分析等專業(yè)工具。
3)做好圖表 數(shù)據(jù)分析報告的基礎(chǔ)是數(shù)據(jù)圖表,圖表包括多維度的趨勢需求分析、圖表分析,作為素材可以靈活的生成不同方向,滿足不同關(guān)注點(diǎn)的數(shù)據(jù)報告需求。
三、12345非結(jié)構(gòu)化數(shù)據(jù)分析方法
非結(jié)構(gòu)化數(shù)據(jù)主要包括錄音數(shù)據(jù)及工單處理中產(chǎn)生的圖片、音頻、視頻數(shù)據(jù),這塊數(shù)據(jù)容易被忽視,其中最有價值的就是錄音數(shù)據(jù),錄音數(shù)據(jù)能夠真實的再現(xiàn)群眾與座席溝通中的所有內(nèi)容,而座席工單記錄文字只是錄音數(shù)據(jù)中重點(diǎn)問題的提練和總結(jié),因此并不能完全代表錄音數(shù)據(jù)中所包含的全部信息,如群眾與座席溝通十分鐘,談及了很多問題,主要反饋的事情被座席以文字形式記錄下來,但是談話內(nèi)容中大部分信息并未記錄,而這些信息中蘊(yùn)涵著社情民意與輿情,這些信息是結(jié)構(gòu)化數(shù)據(jù)的補(bǔ)充,也許蘊(yùn)藏著最容易被忽視的輿情、民意信息。
非結(jié)構(gòu)化數(shù)據(jù)分析最大的障礙是方言問題,目前即使國內(nèi)最先進(jìn)的ASR語音識別技術(shù)也不能保障對各地方言的準(zhǔn)確翻譯,建議12345熱線建設(shè)中呼叫中心系統(tǒng)實行雙軌錄音,即將群眾錄音和座席錄音分開,如果群眾方言較重可以只采納座席錄音。座席與群眾交談中免不了有溝通引導(dǎo)和復(fù)述的動作,因此座席語音同樣很有價值。
非結(jié)構(gòu)化分析的兩個核心工具包括ASR語音識別和文本語義分析。
1、ASR語音識別 目前科大訊飛、阿里都提供類似的技術(shù)接口,而且對于普遍話的識別效率很高。
2、文本語義分析 主要指對識別出的文字進(jìn)行熱詞、高頻詞分析,并可以生成熱詞云圖和高頻詞列表,再加上時間因素就可以產(chǎn)生熱詞趨勢分析、新詞趨勢分析、高頻詞趨勢分析,一方面反映輿情民意,一方面反映熱點(diǎn)及苗頭性問題,如集中出現(xiàn)的某個小區(qū)某個企業(yè),最近出現(xiàn)的新詞如網(wǎng)貸、供熱等。
當(dāng)然文本語義分析不僅適用于非結(jié)果構(gòu)數(shù)據(jù),對于結(jié)構(gòu)化數(shù)據(jù)中的工單標(biāo)題、內(nèi)容、部門辦理情況記錄等均適用。可以說是12345大數(shù)據(jù)分析的利器。
四、常用數(shù)據(jù)分析工具
1、SQL 對于結(jié)構(gòu)化數(shù)據(jù)最快捷、最高效的分析方式就是對數(shù)據(jù)庫通過SQL語句進(jìn)行分析,當(dāng)然最有價值的是可以將常用的分析用SQL寫為程序,變成工具,這對于大數(shù)據(jù)分析更加的事半功倍;
2、EXCEL 如果說SQL及編程相對太過專業(yè)不好掌握,EXCEL直就是最簡單易用的分析工具了,分類、求和、計算并自動生成豐富多樣的圖表,可以說是數(shù)據(jù)分析工作者最物美價廉的工具了;
3、文本語義分析 主要用于熱詞、新詞、高頻詞的分析;上章已做詳細(xì)描述;
4、GIS地理平臺 基于地圖可以進(jìn)行事件位置標(biāo)注、熱點(diǎn)標(biāo)注、區(qū)縣標(biāo)注等,可以形象直觀的展現(xiàn)問題;
5、專業(yè)可視化數(shù)據(jù)分析平臺 很多公司有自己專業(yè)的數(shù)據(jù)分析平臺工具,如阿里、美林都提供了可見即可得的專業(yè)數(shù)據(jù)分析工具,可以高效的進(jìn)行數(shù)據(jù)分析;
......
五、常用數(shù)據(jù)分析方法
數(shù)據(jù)的分析方法,簡單分為兩大類:
應(yīng)用簡單的數(shù)據(jù)分析工具(如Excel)就可以完成的分析方法,如對比分析法、分組分析法、交叉分析法、下鉆分析法、漏斗分析法、矩陣分析法、平均分析、結(jié)構(gòu)分析法等
需要借助外力或使用spss等高級工具才能分析的方法:A/B測試、對應(yīng)分析、聚類分析、相關(guān)分析、因子分析、回歸分析等
常用的分析算法簡介如下:
1)對比分析法
通過這種方法可以很直觀的看到不同產(chǎn)品的核心指標(biāo),或同一個產(chǎn)品在不同階段的變化。
對比分析分為兩類:
橫向分析(靜態(tài)比較):在同一時間條件下對不同總體指標(biāo)的比較
縱向分析(動態(tài)比較):在同一總體條件下對不同時期指標(biāo)數(shù)值的比較
本質(zhì)在于:
多數(shù)據(jù)維度對比:研究同一目標(biāo)群體在不同數(shù)據(jù)維度的表現(xiàn),以觀察其自身的個性特征
多用戶對比:研究不同目標(biāo)群體在同一數(shù)據(jù)維度的表現(xiàn),以觀察不同群體間的差異
交叉分析法通常用于分析兩個變量之間的關(guān)系,即同時將兩個有一定聯(lián)系的變量及其值交叉排列在一張表格內(nèi),使各個變量值成為不同變量的交叉結(jié)點(diǎn),形成交叉表,從而分析交叉表中變量之間的關(guān)系
主要應(yīng)用場景有:
對用戶進(jìn)行分組,細(xì)分觀察各分組之間的特征
觀察競爭對手的用戶與本產(chǎn)品用戶的重合度、差異化運(yùn)營、或進(jìn)行用戶資源拉取
觀察本產(chǎn)品的活躍用戶與公司內(nèi)其他產(chǎn)品活躍用戶的重合度,進(jìn)行聯(lián)合運(yùn)營
觀察本產(chǎn)品流失用戶與公司其他產(chǎn)品活躍用戶之間的重合,借力其他產(chǎn)品進(jìn)行本產(chǎn)品的用戶挽留等
下鉆分析法通常用于對某數(shù)據(jù)的不斷細(xì)分,以分析在各種細(xì)分情況下的數(shù)據(jù)關(guān)系,找出影響該數(shù)據(jù)的根本原因
根據(jù)數(shù)據(jù)本身結(jié)構(gòu)特征對數(shù)據(jù)進(jìn)行分類的方法即聚類分析法
通過聚類分析,可以把數(shù)據(jù)分成若干個類別,使得類別內(nèi)部的差異盡可能的小,類別外部差異盡可能大,以便于針對某類用戶的特征進(jìn)行針對性分析
......
綜上所述,數(shù)據(jù)分析是一個專業(yè)復(fù)雜又非常有趣的工作,如同做菜一樣,同樣的食材在不同廚師的手里可以做出豐富多樣、花樣繁多的菜品,這個過程值得我們大家不斷的探討和學(xué)習(xí)。