《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于主題提取模型的交通違法行為文本數據的挖掘
基于主題提取模型的交通違法行為文本數據的挖掘
2019年電子技術應用第6期
曾祥坤1,張俊輝2,3,石 拓1,邵可佳4
1.北京警察學院,北京102202; 2.北京交通大學 綜合交通運輸大數據應用技術交通運輸行業重點實驗室,北京100044; 3.北京市公安局公安交通管理局,北京100037;4.馬上消費金融股份有限公司,北京100102
摘要: 長期以來,各類交通事故嚴重影響了人們生命財產安全和社會經濟發展。交通事故分析是對交通事故資料進行調查研究,發現事故動向和各種影響因素對事故總體的作用和相互關系,以便定量地認識事故現象的本質和內在規律。通過對交通事故中記錄駕駛員違法行為的文本數據進行分析,提出了一種文本主題提取模型和技術,來挖掘交通事故中駕駛員風險駕駛因素,解決以往交通事故統計中交通違法行為難以挖掘的問題,計算出影響交通事故的最大支配因素。最后以北京地區一般程序處理的交通事故為例,結合北京市交通管理專家經驗,驗證該模型可應用于交通事故中違法行為的主題提取,結論與長期治理經驗相吻合。
中圖分類號: TP399
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190159
中文引用格式: 曾祥坤,張俊輝,石拓,等. 基于主題提取模型的交通違法行為文本數據的挖掘[J].電子技術應用,2019,45(6):41-45.
英文引用格式: Zeng Xiangkun,Zhang Junhui,Shi Tuo,et al. Text data of traffic illegal acts mining based on latent dirichlet allocation model[J]. Application of Electronic Technique,2019,45(6):41-45.
Text data of traffic illegal acts mining based on latent dirichlet allocation model
Zeng Xiangkun1,Zhang Junhui2,3,Shi Tuo1,Shao Kejia4
1.Beijing Police College,Beijing 102202,China; 2.Key Laboratory of Transport Industry of Big Data Application Technologies for Comprehensive Transport,Ministry of Transport, Beijing Jiaotong University,Beijing 100044,China; 3.Beijing Traffic Management Bureau,Beijing 100037,China;4.MaShang Consumer Finance Co.,Ltd.,Beijing 100102,China
Abstract: For a long time, all kinds of traffic accidents have seriously affected people′s life,property safety and social and economic development. Traffic accident analysis is the investigation and study of traffic accident data. It finds out the pattern of accident trends and various influencing factors on the overall accidents and researches the relationship between them, so as to quantitatively understand the nature and internal law of accident phenomena. Based on the analysis of the text data recorded in traffic accidents, this paper proposes a text topic extraction model and technology to find drivers′ risk factors in traffic accidents,in order to solve the problem that traffic violations are difficult to excavate in the past, and to calculate the most dominant factors that affecting traffic accidents. Finally, taking the traffic accidents in Beijing as an example, combining with the experience of traffic management experts, the effectiveness of the proposed model is verified. It turns out that the model is valid, and the conclusion with using it is consistent with the long-term management experience.
Key words : traffic accident;driving risk;text mining;factor analysis

0 引言

    目前全球每年有近130萬人死于交通事故,另有2 000~5 000萬人因交通事故而導致傷殘[1]。面對嚴峻的交通安全形勢,對交通事故數據分析挖掘,尋找隱含其中的影響因素,對改善城市交通環境、減少交通事故的發生具有重要意義。

    歐美等發達國家早在20世紀70年代已建立了交通事故信息系統,其規范的數據記錄模式及配套的數據分析處理技術己達到了較為成熟的水平。我國的交通事故信息系統在數據的規范化及信息挖掘利用方面尚處于起步階段,公安部交通管理局的交通事故數據庫為提高數據的分析和處理效率,多以提供標準化編碼的數據為主。針對記錄事故發生過程的文本類數據雖然包含大量有用的信息,但由于缺乏有效的挖掘和分析手段,得不到充分的利用。同時,由于受交通民警語言表達差異影響,同一類型交通事故成因描述也不盡相同,只達到語義相同,導致對交通事故規律的研究還停留在定性分析或組成比較的層面上,嚴重影響了交通事故統計分析的客觀性和科學性。己有的研究表明,對文本數據的分析可以挖掘出更多的潛在信息,可用來修正結構化數據分析所得結果的客觀性,從而達到更好地服務于事故分析的效果[2-8]。此外,FRANKS B[9]的研究表明,在數據挖掘過程中,70%~80%的時間用于數據的結構化整理,而用來分析數據的時間僅僅占到20%~30%。

    本文研究的目的在于更好地挖掘文本數據中的潛在信息,在提高信息識別精度的同時節省信息處理的時間。

1 交通事故文本數據描述

    文本預處理是文本挖掘的第一步,也是文本挖掘較為重要且費時的一步。漢語文本的預處理技術主要包括中文分詞、特征提取和特征表示。建立一個相對完整的標準化信息描述語義集合是進行文本數據挖掘前的關鍵[2],本文依據《道路交通事故信息代碼》(GA16-2010)[10]標準中提取道路交通事故時間、傷亡人數、事故形態、事故認定原因、交通違法行為等7個屬性項目,以驗證該語義集合的有效性及可行性,構建了一套綜合描述道路交通事故基本信息的標準化語義集合,參見表1。

rgzn2-b1.gif

2 LDA主題模型

    隨著計算機網絡的日益普及,文本數據呈現爆炸式增長,在海量數據中對文本進行分類,成為快速了解輿論信息的一個重要手段,并且被廣泛應用到許多領域,包括:數字圖書館、網頁分類、垃圾電子郵件過濾等[1]。文本聚類(Text clustering)作為一種無監督的機器學習方法[11],已經成為對文本信息進行有效的組織、摘要和導航的重要手段。其中LDA(Latent Dirichlet Allocation)模型對主題和主題對應的特征詞加上了先驗分布,是一種無監督的概率主題模型。每個主題下都分布著出現概率較高的詞語,這些詞都與這個主題有很強的相關性,利用這種相關性能在一定程度上解決一詞多義、同義詞等問題[2],可以用來識別大規模文本集或語料庫中潛藏的主題信息,其效果優于混合主題模型(multinomial mixture)[12-13]等其他主題劃分方法。近兩年來,國外學者開始將LDA模型用于文獻計量領域主題研究并取得了較好的效果[14-18]。同時研究發現,LDA模型在新興領域潛在主題分析上更能顯現優勢[15],更加適用于交通事故中所體現的主題分析。因此,本文提出了一種基于LDA主題模型的文本聚類和聚簇描述方法,運用gensim主題建模工具,建立交通事故規律LDA分析模型,挖掘隱藏在交通事故定責統計文本內的不同主題與影響因素之間的關系。

2.1 LDA模型數據處理原理

    概率主題模型:隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)由BIEI D M、NG A Y和JORDAN M I于2003年提出,是一種主題模型,它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題(分布)出來后,便可以根據主題(分布)進行主題聚類或文本分類。它是一種典型的詞袋模型,即一篇文檔是由一組詞構成的,詞與詞之間沒有先后順序的關系。本文以國家交通事故信息采集規范為依據,以北京市一般程序處理的交通事故數據作為研究對象進行文本數據分析。在LDA模型中,一篇文檔生成的過程為:

    (1)從狄利克雷分布中取樣生成文檔m的主題分布,即為第m條交通事故記錄的關鍵詞組列表,首先會對主題的分布做一個先驗假設(如正態分布或均勻分布),根據假設與取樣的契合度,最終找到一個最大似然的分布α。

    (2)從主題的多項式分布θm中取樣生成文檔m第n個詞的主題zm,n,用于對似然的分布做驗證。

    (3)從狄利克雷分布β中取樣生成主題zm,n對應的詞語分布rgzn2-b1-x1.gif,k∈[1,K],不斷去嘗試和逼近真實的分布。

    (4)從詞語的多項式分布rgzn2-b1-x1.gif中采樣最終生成詞語wm,n,m∈[1,M],n∈[1,N],最終得到了更客觀的關鍵詞分列表。

    綜上所述:LDA采用了變分法的原理找到一個近似真實分布的分布,是一個生成統計模型,即:生成分布->統計->再生成分布->再統計……,如圖1所示。

rgzn2-t1.gif

2.2 應用LDA模型處理數據結果

    Gensim是一款開源的第三方Python工具包,用于從原始的非結構化的文本中,無監督地學習到文本隱層的主題向量表達。它支持包括TF-IDF、LSA、LDA和Word2vec在內的多種主題模型算法,支持流式訓練,并提供了諸如相似度計算、信息檢索等一些常用任務的API接口。因此,可根據主題建模的思想,建立車輛交通事故影響因素主題分析模型,根據車輛交通事故影響因素之間的關聯度,確定交通事故因素主題,并確定各因素的重要程度,實現對車輛交通事故規律的客觀公正評價。使用jieba分詞建立開放文本的Word2vec模型,即使用爬蟲技術收集互聯網上公開的新聞文章文本,以這些文本為依據建立詞向量模型,然后刪除現有樣本數據中的停止詞(使用頻率較高且對文本主題分析沒有幫助的詞語)。

    本文選用2012年~2018年2月期間北京市一般程序處理交通事故數據中記錄駕駛員風險駕駛違法行為(一個交通事故可包含多項駕駛員違法行為)的2萬余條文本數據為對象,經過工具包處理后,得到有效樣本14 299個,使用Word2vec模型對其進行分詞,建立事故因素語料庫reason corpus,在reason corpus中記錄了詞向量的索引編號和出現頻次,如圖2所示。

rgzn2-t2.gif

    使用reason corpus語料庫建立LDA 模型,將關鍵字分布轉換為主題分布,即可得到道路交通事故影響因素主題列表。

    由于LDA模型是以概率分布的方式建立起的主題模型,因此DA每次運行產生的結果都會略有不同,在樣本量較小的情況下,這個問題尤為突出,可以通過增大對樣本數據的迭代次數,讓模型結果盡可能地客觀。通過實驗發現,在目前14 299個樣本數據的條件下,迭代次數超過100次時,迭代出的結果就不會有太大變化,這里將迭代100次后的主題作為分析結果,如圖3所示,圖中所表示的主題格式為“相關系數*關鍵字”。

rgzn2-t3.gif

    圖3中分析得到的主圖結果的排列順序為:具備更高LDA意義得分的結果更靠前[10]。從結果集中可以通過篩選出相關系數大于0.1的關鍵字,歸納出如下重要權重關鍵字:

    (1)駕駛、駕駛證、機動車;

    (2)變更、車道、行駛、機動車;

    (3)車型道、分界線;

    (4)超過、中型、汽車;

    (5)逆向行駛、機動車;

    (6)妨礙、駕車、時有、駕駛;

    (7)行駛、非機動車、道路;

    (8)20%、未達、10%、載貨;

    (9)機動車、營運、駕駛;

    (10)發生、機動車、故障、事故、按規定、標志。

    一共自動生成100個主題模型,這里限于篇幅,僅截取前10個。

2.3 模型評估

    Gensim推薦使用Coherence Model用于對主題模型進行評價,該模型評價主題一致性度測量值常用指標有4個:u_mass、c_v、c_uci、c_npmi,這里選用u_mass,因其運行效率高,測試結果如表2所示。在選擇25個主題時,u_mass出現極小值,所以聚類出的合理主題約為25個,符合評估條件。

rgzn2-b2.gif

3 交通事故文本數據處理結果分析

    提高車輛交通事故預防水平,必須緊緊抓住影響車輛交通事故的優先支配因素,探索行之有效的防范對策。從上述計算結果可以看出,北京地區的車輛交通事故影響因素主要涉及以下方面:是否取得駕駛證、正確變更車道線、逆向行駛和超速等違規駕駛,其中無證駕駛、超速、逆向行駛是目前公安機關重點打擊的重要違法行為,分析結果基本與實際相符,具體分析如下。

    (1)交通事故主要和駕駛及駕駛證有關(見第1組重要權重關鍵字)。在交通事故責任認定時主要指無駕駛證、酒后或者醉酒、吸毒駕駛機動車車輛上道路行駛,這類駕駛員缺少正規培訓或者思路不清晰,發生交通事故往往伴隨超速行為,目前交通事故定責中很少精確測量事故發生時的瞬間車速,常用較保守的利用路面摩擦力方法計算車速。管理部門可以結合實際,監管這類危險駕駛和駕駛證相關的信息,在交通執法過程中對無證駕駛的問題需重點關注。

    (2)交通事故主要和變更車道有關(見第2組、3組重要權重關鍵字)。正確變更車道線是目前造成交通事故的又一主要原因,主要指駕駛員在道路上行駛隨意變更車道,由于北京地區交通狀況復雜,車道標識成為制約交通安全的一個重點和難點問題,深層次體現在車道標志標線不完善、不清晰導致駕駛員選擇道路時產生失誤,表象是駕駛員過錯,目前交通事故定責中應該直接體現出來,交通事故責任認定書也應該不斷完善,增添道路因素責任選項。

    (3)交通事故主要與超車有關、逆向行駛、妨礙駕駛有關(見第4組、第5組、第6組重要權重關鍵字)。主要指不同車輛不遵守交通標線指示,借道行駛或跨越車道行駛,導致交通事故頻發,部分深層次原因是一些公交車道時段或者標線設置不合理,部分原因是駕駛員懷有僥幸違法心理風險駕駛。在交通執法的過程中,可以進一步追蹤導致駕駛員風險駕駛的更進一步原因,進而從源頭上預防交通事故發生。交通事故受時間的影響較大,還可以積累更多的數據,以時間維度分割后,再向下鉆取時間維度內的事故影響因素。

    后面影響因素在這里就不再繼續歸納總結。

4 結論

    交通事故統計數據少、事故成因復雜,本文使用文本挖掘理論,借助主題建模工具,建立交通事故LDA模型,分析交通事故統計信息中駕駛員違法駕駛的文本數據,從而得到以下結論:

    (1)通過對原有文本信息的文本處理分析,結果表明交通事故信息采集規范中規定的交通違法行為用文本信息表述,可以進一步歸類主題,可以對其信息的結構進行優化處理,為進一步的數據挖掘搭建更好的信息處理平臺。

    (2)對事故系統中文本信息挖掘分析,發現道路設計因素和路面標志標線在交通事故中占有重要的位置,但是事故統計選項內容側重于駕駛員違法統計,可以對國家交通事故統計的信息予以補充。

    (3)構建的一套含有駕駛員識別道路交通標志標線規則、交通事故發生時車速、駕駛員違法心理需求的交通事故信息語義庫可作為一個橋梁連接不同的數據庫,使交通事故數據庫的非結構化的文本信息更加直觀和真實,從而提高信息的綜合利用價值,為捕捉交通事故特征及研究事故發生機理創造有利的條件。

    (4)由于文本信息表達不統一、特征屬性不易清楚定義和界定,計算機根據標準語義庫來自動識別文本信息時仍會出現遺漏現象,因此在標準語義庫的基礎上構建同義詞詞庫是增加數據庫查詢精度的重要手段。未來還可構建使用在線版的主題提取模型,不斷完善和豐富詞向量空間,使得分詞會越來越準確。

參考文獻

[1] 宗強.基于數量化理論的道路交通事故預測研究[D].蘭州:蘭州交通大學,2015.

[2] STIGLIANI I,RAVASI D.Organizing thoughts and connecting brains:Material practices and the transition from individual to group-level prospective sensemaking[J].Academy of Management Journal,2012,55(5):1232-1259.

[3] TILCSIK A, MARQUIS C.Punctuated generosity:how megaevents and natural disasters affect corporate philanthropy in U.S.communities[J].Administrative Science Quarterly,2013,58(1):111-148.

[4] 傅貴.安全管理學——事故預防的行為控制方法[M].北京:科學出版社,2013.

[5] 陳國權,趙慧群,蔣璐.團隊心理安全、團隊學習能力與團隊績效關系的實證研究[J].科學學研究,2008,26(6):1283-1292.

[6] 鐘開斌.從災難中學習:教訓比經驗更寶貴[J].行政管理改革,2013(6):35-39.

[7] 胡劍波,鄭磊.航空維修安全監察的安全性分層監督控制模型與分析[J].安全與環境工程,2016,23(6):135-142.

[8] 馬阿瑾.高速公路交通事故持續時間和影響范圍研究[D].西安:長安大學,2013.

[9] FRANKS B.Taming the big data tidal wave:finding opportunities in huge data streams with advanced analytics[M].Hoboken,NJ:Wiley Publishing,2012.

[10] 中華人民共和國公安部.GA 16--2010道路交通事故信息代碼[S].北京:中國標準出版社,2010.

[11] 王鵬,高鋮,陳曉美.基于LDA模型的文本聚類研究[J].情報科學,2015,33(1):63-68.

[12] 苗蕊,劉魯.科學家合作網絡中的社區發現[J].情報學報,2011,30(12):1312-1318.

[13] MISRA H,YVON F,CAPP?魪 O,et al.Text segmentation:a topic modeling perspective[J].Information Processing & Management,2011,47(4):528-544.

[14] DING Y.Topic-based page rank on author cocitation networks[J].Journal of the American Society for Information Science and Technology,2011,62(3):449-466.

[15] SUGIMOTO C R,LI D,RUSSELL T G,et al.The shifting sands of disciplinary development:Analyzing north american library and information science dissertations using latent dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.

[16] GRIFFITHS T L,STEYVERS M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl 1):5228-5235.

[17] LI S,LI J,PAN R.Tag-weighted topic model for mining semis tructured documents[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.AAAIPress,2013:2855-2861.

[18] ROSEN-ZVI M,CHEMUDUGUNTA C,GRIFFITHS T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),2010,28(1):4.



作者信息:

曾祥坤1,張俊輝2,3,石  拓1,邵可佳4

(1.北京警察學院,北京102202;

2.北京交通大學 綜合交通運輸大數據應用技術交通運輸行業重點實驗室,北京100044;

3.北京市公安局公安交通管理局,北京100037;4.馬上消費金融股份有限公司,北京100102)

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 日韩影线 | a毛片免费全部在线播放毛 a毛片免费全部播放毛 | 午夜精品久视频在线观看 | 亚洲欧美日韩综合精品网 | 天天摸天天做天天爽 | 国产69精品久久久久777 | 欧美深夜福利 | 欧美videosex娇小hd | 51自拍视频 | 欧美日韩一二区 | 久久精品视频3 | 免费特黄一级欧美大片在线看 | 国产麻豆剧看黄在线观看 | 亚州 色 图 综合 | 天天干天天综合 | 日本欧美成人免费观看 | 夜间福利影院 | 国产清纯91天堂在线观看 | 黄网站免费在线 | 毛片在线免费观看网站 | 欧美一区精品 | 插综合网 | 91精品啪在线观看国产线免费 | 激情黄视频 | 久久这里精品青草免费 | 宅男在线午夜影院 | 美女黄免费网站 | 飘花国产午夜精品不卡 | 日本三级高清 | 黄色在线视频免费 | 最近中文字幕完整国语 | 大又大又黄又爽免费毛片 | 日日a.v拍夜夜添久久免费 | 国产在线播放一区二区 | 日韩影院久久 | 色综合成人 | 亚洲成人一级 | 777国产精品永久免费观看 | 精品无人区一区二区三区a 精品午夜国产在线观看不卡 | 午夜免费r级伦理片 | 三级黄色片日韩 |