欧美三级日本三级少妇99_黄片毛片一级_毛片免费在线观看_日本一区视频在线播放_欧美黄色视屏_亚洲视频高清

期刊 科普 SCI期刊 投稿技巧 學術 出書 購物車

首頁 > 優秀范文 > 社交媒體文本分析

社交媒體文本分析樣例十一篇

時間:2024-03-28 11:07:29

序論:速發表網結合其深厚的文秘經驗,特別為您篩選了11篇社交媒體文本分析范文。如果您需要更多原創資料,歡迎隨時與我們的客服老師聯系,希望您能從中汲取靈感和知識!

社交媒體文本分析

篇1

中圖分類號: G206.2

文獻標志碼: A

文章編號: 10012435(2017)02022306

Key words: Gender Language;topic;corpus;text classification;priority sequence

Abstract:

The priority sequence of topic selection between genders is variable.The previous researches mainly focus on the change of priority sequence in the daily conversation context,instead of the network virtual context.The thesis classifies 500,000 pieces of Chinese blog texts written by two genders respectively,which are gathered from the corpus of Network Media Language Branch in National Language Resources Monitoring Research Center(CNLR).Based on this largescale data,it investigates the priority sequence of topics and the intergroup differences between genders.It finds out that the priority sequences of topic selection between genders in new media context and daily conversation context are distinctively different.Also,highfrequency topics between genders in the new media context have similarities,while significant differences of the sequences,as well as topic amount exist between groups.“Rapporttalk” always dominates females both in daily chats and new media contexts,consequently the priority sequence is relatively stable.However,the mode of discourse by men is transforming from “Reporttalk” to “Rapporttalk” in the new media context,thus the priority sequence is less stable.

性e語言研究是社會語言學的研究熱點,同時也是心理學、社會學、人類學等多個學科領域共同關注的課題。近年來,性別語言研究的重點逐漸轉向交際中的話語模式。話語模式的性別差異主要表現在話題選擇、話語量、話輪控制和交際策略方面(Wardhaugh 2010)[1]。其中,話題選擇的性別差異一直受到國內外學者的重視。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[17]等考察了工人階級、中產階級等不同社會階層,以及美國猶太社區等不同社會族群的日常言談話題,發現男性之間的話題焦點圍繞政治、經濟、體育、商業等,通常不涉及個人情感;女性之間的話題焦點傾向于感情、家庭、孩子、夫妻關系等。許力生(1997)、李經緯(1998)、趙蓉暉(2003)、崔艷英(2012)[811]等國內學者也對此進行過探討,但以介紹和綜述國外研究為主,缺少以漢語為語料的實證研究。

話題選擇優先序列會因語境、地域、種族、文化等差異而產生變化,以往針對家庭和公共社交場合的調查研究,說話人在話題選擇時容易受到交際對象、交際目的、交際場景等諸多因素的影響,雖然結論真實,但并不具有普遍性。而網絡虛擬語境下,交際場合由現實的語言生活轉變為虛擬的網絡空間,交際對象由特定受話人轉變為網絡中的預設受話人,外界環境因素對作者話題選擇的影響降低。尤其是新媒體中的博客,因其具有個性化、開放性、交互性、共享性等特征,文章更接近于單向獨白式語體,不同于以往研究的雙向會話式語體。文章更能體現的博主對話題喜好,能更真實地反映兩性的話題選擇傾向。同時,相比以往針對日常言談語境的小樣本調查,基于新媒體語料的大規模統計分析在數據處理上占有獨特的優勢,避免了因小樣本和個案研究帶來的偏差。再者,由于中外語言文化的差異,國外的研究結論并不一定符合漢語的性別語言特征,而且重視漢語語料、加強本土化研究符合當代語言性別差異研究的多元化、動態化、微觀化和本土化的發展趨勢。因此,本文基于大規模新媒體博客語料庫,在文本分類處理的基礎上對漢語博客中兩性話題選擇的優先序列所進行的實證研究和探索,可以開拓漢語性別研究的新前景,拓展新媒體下語言研究的新視野,展現性別語言差異在時代變動中的新發展,對于新媒體語言研究和監測具有理論和實踐上的啟示作用。

一、兩性話題的文本分類過程

(一)實驗文本的甄別與篩選

國家語言資源監測與研究中心的網絡媒體監測分中心從2005年開始對網絡新聞、網絡論壇、網絡文學,以及博客、微博、微信等新媒體進行動態監測,并建有網絡媒體監測語料庫。其中,博客語料來源于新浪博客(blogsinacomcn)、搜狐博客(blogsohucom)、中國博客(wwwblogcncom)、博客網(bokeecom)、和訊博客(bloghexuncom)、博客大巴(wwwblogbuscom)等境內著名博客網站。本文選取其中的博客語料,主要基于兩個方面的因素:首先,文章作者元信息的提取原因。博客、微博、論壇的作者在社交平臺上注冊時會提供包括性別在內的作者身份信息,因此可以在語料爬取過程中對作者身份信息進行元數據標注,進而便于提取出有性別信息的作者。其次,文本分類的技術原因。微博和微信都比較短小,計算機對其進行文本自動分類處理時效度不高,難度較大。而博客文本相對較長,分類效果較好。因此,博客文本比微博、微信等其他新媒體語料更能有效地進行話題分類研究。

兩性博客語料的篩選步驟如下:第一步,甄別身份信息真實的作者,以篩選出有效的兩性博客文本。博客文本在抓取的過程中對作者身份等元數據信息進行了采集和標注,根據元數據信息篩選出標注了性別的作者及其博文。由于少數作者雖然在博客平臺登記了性別等身份信息,但信息并不一定真實,如果這些不確定的文本被用于統計分析,將會影響統計結果的可靠性與可信度,因此必須抽取作者身份相對真實的博文用于統計分析。為篩選身份可信度高的文本,本文依據博客作者的“博客等級”和“博客積分”高低、“博客訪問量”和“博客關注量”大小,以及是否為“加V博客認證”等標準進行甄別,篩選出博客等級和積分較高,訪問量和關注量較大,同時為加V認證的作者。這類作者的博客活躍度較高,作者身份信息較為真實可信。第二步,將篩選出的作者所有博客建立語料庫,編寫小型程序隨機抽取了博客文本共計1 008 755篇,其中男性500 889篇,女性507 866篇為了有效的進行文本分類,本文在隨機抽取博客文本時,剔除了文本詞匯量小于100詞的文本。〖ZW)〗。第三步,將篩選出來的語料建設成兩性博客語料庫,用于下一步的文本分類處理。

(二)文本分類步驟與統計結果

本文針對博客文本所特有的話題類別,進行了計算機文本分類處理,具體步驟如下:第一步,對所有博客文本進行繁簡轉化,剔除表情符號、圖片等非文字符號;第二步,采用中科院自動化所的自動分詞工具對文本進行自動分詞和詞性標注;第三步,用正則表達式和停用詞表過濾已分好詞的博客;第四步,參考新浪博客、中國博客網(博尚網)、網易博客、趙蓉暉(2003)[10]的主題類別,同時在文本抽樣的基礎上,確定了博客文本分類的27個話題類別。第五步,從語料庫中人工篩選出用于機器學習的訓練語料和測試語料。在這一過程中,人工篩選和機器學習兩個方法交替進行,最后一共收集了26個話題(不包括雜談)的文本訓練語料各約500篇,測試語料各約500篇,將52組話題的約26 000篇文本用于機器學習,統計得到26個話題類別的詞頻表;第六步,對26個話題的詞頻表進行組間差異比較,篩選出各話題的高頻獨用詞,以及詞頻、頻序組間差異較大的詞。由于這類詞與話題內容關系較為密切,因此利用專家的領域知識,通過人工干預加強這類詞匯的權重;第七步,按照樸素貝葉斯算法判斷每篇博客的后驗概率,取后驗概率最大的類別作為分類結果。第八步,檢驗文本識別的效度,并調整識別方法,優化統計結果。表1為文本分類后各話題的文本數量及其差值。

二、兩性話題選擇的優先序列

兩性話題選擇的優先序列是建立在文本分類和數據統計基礎上的定量分析,是指將不同的話題類別按照其使用頻率的高低進行分級或有序的排位,并對形成的優先序列做出合理的解釋說明。下面將分別考察兩性話題選擇的優先序列,并剖析兩性高序位話題的特征及其形成原因。

(一)男性話題的優先序列

在博客本文分類時,某些博客文本由于主題不明確而無法根據其后驗效率將其有效歸類,這些無法有效歸類的文本,本文統一將其另列為“雜談類”。“雜談類”文章的平均文本長度最短,僅為561個字符,但其文本數量最大,約占男性文本總量的3025%,其位序居27類話題之首。其次是“家庭生活”話題,它是計算機自動識別所得到的文本數量最多的話題,約占男性博客文本總量的2528%,平均文本長度為793個字符,話語量高于“雜談類”。位序居前列的“雜談、家庭生活、感情婚姻、電子數碼,體育運動,電視電影”等6類話題占據總文本數的8615%,而其他21類話題的文本量僅占文本總量的1385%,位序最低的“兩性生理”的文本僅占文本總數的0025%。

各話題文本量的分布特征與Zipf定律中的詞匯分布特征相似,呈現出典型的冪律分布特征,即只有少數的話題被經常使用,而大多數話題很少被使用。將各話題按照文本數量大小排列,得到男性博客話題的優先序列,見圖1。

將男性博客話題的優先序列與日常言談時的話題選擇傾向比較后發現,兩者的高位序話題存在較大差異。趙蓉暉(2003)[10]曾用雙向橫坐標描繪了兩性的話題選擇傾向,男性話題的優先序列依次是“政治、軍事、性、金錢、體育、科技、自然”,本文與之對應的話題分別為“政治體制、軍事戰爭、兩性生理、經濟金融、w育運動、科學技術”。從文本量上看,這6類話題所占比例非常小,僅占全部話題總量的745%,除“體育運動”比例達到573%以外,其他話題均未達到百分之一;從話題的位序上看,除“體育運動”的位序相對靠前以外,其他話題位序都較為靠后,其中政治體制第23位、軍事戰爭第21位、兩性生理第27位、經濟金融第14位、科學技術第19位。可見,男性博客語境下的話題優先序列明顯異于日常言談時的話題傾向,日常言談時的高頻話題在網絡博客虛擬環境下并非為優先話題。

(二)女性話題的優先序列

女性博客話題中,文本量最多的是“家庭生活”,占女性文本總數的4114%,然后依次為“雜談、感情婚姻、娛樂追星”,所占比例分別為2283%、156%、355%,這四類位序居前的話題占女性文本總數的8312%,其他23個話題所占比例僅為1688%,位序最后的話題和男性相同,均為“兩性生理”。從女性各類話題的文本量分布情況看,女性話題的文本量分布也呈冪律分布特征,但高頻話題比男性更集中。將各話題按照文本數量大小排列,得到女性博客話題的優先序列,見圖2。

女性博客話題優先序列中的高序話題與其日常言談時的話題選擇傾向比較相似。趙蓉暉(2003)[10]認為女性最感興趣的話題依次為“時尚、感情、家務、家庭、兒童”等,本文與之對應的話題依次為“時尚消費、娛樂追星、情感婚姻、家庭生活”,這些話題位序都較為靠前,分別為第16、第4、第3、第1位。可見,日常言談時的高頻話題在網絡博客虛擬環境同樣是優先話題,主要圍繞家庭生活與感情婚姻展開。

(三)高位序話題的穩定與變化

通過以上考察發現,雖然學界一致認為現實語言生活中的兩性高頻話題存在明顯差異,“家庭、感情、婚姻、時尚”等為典型的女性話題,“政治、體育、經濟、軍事”等則為典型的男性話題,但是這一規律并不適用于虛擬網絡環境下的新媒體語言生活。網絡博客中的兩性高頻話題已經變得趨同,兩性話題優先序列中的高位序話題都是“家庭生活”和“感情婚姻”。

通過比較現實語言生活的兩性高頻話題和網絡新媒體語言生活的高位序話題后發現,女性的話題選擇傾向具有穩定性,高位序話題沒有明顯變化,最熱衷的話題始終以家庭婚姻與情感生活展開;男性的話題選擇傾向具有較大變動性,男性在日常言談語境下“政治”“經濟”等高頻話題成為博客文本中的低位序話題,這兩類話題總數僅占男性博客文本總數的097%,而“家庭”“情感”等話題卻成為高位序話題,這兩類話題總數占男性博客文本總數的39%。男性的高位序話題會因語境的改變而產生變化。

(四)穩定的機制及變化的動因

Tannen(1991)[7]將談話分為關系式談話(rapporttalk)和報告式談話(reporttalk)兩大類。前者以感情交流為主,其目的是通過交談建立關系、維系感情;后者則是以信息交流為主,其目的是交流對事物的看法和意見,提出某一問題的解決辦法等。在日常言談中,女性談話以關系式為主,傾向于通過談論涉及個人生活的內容,以交流情感的方式來建立社交關系;男性通常以報告式為主,信息交流量較大、目標明確、針對性強;在日常言談和網絡博客中,女性的話語方式始終以“關系式談話”為主,因此高頻話題比較穩定;男性在網絡虛擬環境下“報告式”動力相對減弱,“關系式”動力增強,話語方式的轉變導致高頻話題產生變化。

在公共社交場合,由于男性比女性更注重掌控話語權,以說教、演講等報告式的話語姿態展現自身能力,通過較為正式的話語風貌獲得社會認同和大眾賞識,這種動力驅使男性在言談時會優先選擇擅長的優勢領域,如政治、軍事、經濟、體育等。但是在非正式場合,尤其是在網絡社交媒體平臺中,兩性的話語交際目的都是以建立和維系社交關系為主,通過博客、微博、微信等自媒體平_抒感、記錄生活。因此,博客中的兩性話語方式都以“關系式”為主。在網絡虛擬語境下,由于作者身份信息相對隱匿,話語身份構建和凸顯的動力減弱,因而男性傾向于選擇輕松的生活話題。

男性“報告式”動力減弱是多種動因共同作用的結果。首先,交際場合由公共社交場合轉變為自媒體環境下的非正式場合;其次,交際場景由現實語言生活轉變為虛擬網絡語言生活;第三,交際媒介變為網絡自媒體平臺;第四,交際“對象”由現實語言生活的特定受話人轉變為網絡語境中的預設受話人,雖然博客文本的受眾具有不確定性,但是作者在撰寫博文時會帶著認知關聯假設信息,以吸引讀者、構建虛擬關系為目的。Yus(2011)[12]也認為作者對文章的受眾和交際對象存在一種預設或假定。第五,交際目的由自我展示型向社交關系型轉變;第六,交際身份由公共突顯型向虛擬隱匿型轉變,男性在正式和非正式場合下對性別話語身份凸顯程度的改變對話題選擇產生影響。以上因素促使社交媒體的話語方式以關系式為主,因此,女性的高位序話題保持不變,男性則發生改變。“家庭生活”“感情婚姻”等男性日常聊天較少談及的話題,成為男性博客文本中的高位序話題。

三、兩性話題選擇的組間差異

雖然兩性的高位序話題相似,但是話題優先序列的組間差異仍然存在,主要表現在話題位序的組間序差和話題量分布的組間差異兩個方面。

(一)話題序差比較

由于同一話題在男性話題中的位序與其在女性話題中的位序存在一定差距,其組間序差反映了該話題在兩性話題序列中的地位差別,計算其組間序差可以用于比較兩性對該話題的偏好程度。序差越大,偏好差距越大,反之則小。例如“家庭生活”在男性話題序列中的位序為2,在女性話題序列中的位序為1,其組間序差為1,說明女性比男性更傾向于優先選擇“家庭生活”,但差距較小;“游戲網游”在男性話題序列中位序為8,在女性話題序列中的位序為19,其組間序差為11,說明男性比女性更傾向于優先選擇“游戲網游”,且差距較大。將全部話題的組間序差有序排列,構成話題“序差序列”。“序差序列”能將話題的“地位差別”集中并有序地表現出來。為較為直觀反映兩性對不同話題的選擇偏好,將升序排列的序差序列繪制散點圖,得到序差分布圖,見圖3。

從分布圖可以看出,除了“情感婚姻”“兩性生理”為零以外,其他話題均存在組間序差。男性比女性更優先選擇的話題依次為:游戲網游、法律法規、體育運動、歷史文化、經濟金融、、軍事國防、科學技術等;女性較男性更優選選擇的話題依次為:美容護膚、時尚消費、星座占卜、美食佳肴、醫療衛生、教育培訓、汽車房產、工作求職、娛樂明星等。

(二)話題量的組間差異顯著性檢驗

為了進一步考察兩性話題傾向的組間差異,下面以話題文本量為依據進行差異顯著性檢驗。由于27個話題分類為非定距數據,因此采用非參數檢驗。非參數檢驗是不依賴總體分布的統計分析方法,指在總體不服從正態分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。本文采用卡方驗證中的獨立性驗證,借助統計軟件SPSS(220)得到卡方驗證的結果,見表2。

通過表2中“Pearson ChiSquare”一欄對應的Value值和AsympSig值可以查到,x2值為86702647,P值為0000。當P值小于005,說明兩者之間存在顯著性差異。假若P值大于005,說明兩者之間沒有顯著性差異。由于獨立性驗證中的自由度df=(r1)*(K1),即行的數目減1乘以列的數目減1,df=(271)*(31)=52。查卡方分布表,對應的自由度df=52,a=005的x2的臨界值為6750,檢驗統計值x2為86702647,遠遠大于臨界值,同時P值為0000,小于005。因此通過檢驗統計值X2和P值的所在范圍可以判定:在博客文本中,兩性話題量的組間差異存在顯著性,具有統計學意義。

四、結語

通過以上研究發現,兩性在言語交際中的話題優先序列組間差異客觀存在,不同語境下的兩性話題差異不盡相同。日常言談等現實語言生活中的兩性高位序話題完全不同,男性話題以政治、軍事、體育、經濟等男性擅長的優勢領域為主,女性話題則以情感、家庭、婚姻、生活等方面為主。但是在博客等虛擬網絡空間中,兩性的高位序話題變得趨同,話題優先序列中的前三位話題都是家庭生活、感情婚姻、雜談。雖然高位序話題相同,但是優先序列中話題的組間序差明顯,且話題量的差異具有顯著性。

造成兩性話題差異的原因有很多,諸如兩性固有的生理和心理基礎、受教育程度、身份角色以及社會交往方式等,但根本原因源于傳統社會文化下逐漸形成的性別文化、性別心理和性別角色的差異。男性由于更多地參與社會經濟活動,表現在話題上更多地涉及政治、經濟等方面內容,而負責執掌家庭內務的女性們則更多地關注家庭生活等方面的話題,話題差異是兩性社會分工不同的必然結果。但是兩性的話題優先序列不是絕對的,往往會因場合、交際對象、個人文化程度、年齡等因素而變化,并隨著社會、環境、文化的發展而相應發展。

參考文獻:

[1]Wardhaugh,Ronald An introduction to sociolinguistics[M] 6th Edition Blackwell Publishing 2010

[2]Klein,J The family in “traditional” workingclass England[C] In M Anderson(ed) Sociology of the Family,Baltimore,Penguin 1971

[3]Kramer,CWishywashy mommy talk [J] Psychology Today,1974(8): 8285

[4]Aries,E 1976 Interaction patterns and themes of male,female,and mixed groups[J]Small Group Behaviour 7(1):718

[5]Aries,E 1982 Verbal and nonverbal behavior in singlesex and mixsex groups[J] Psychological Reports 51,12734

[6]Tannen,D You just don't understand:Women and men in conversations[M] New York: William Morrow 1991

[7]Meyerhoff,Miriam Introducing Sociolinguistics[M] New York,NY: Routledge,2006

[8]S力生話語風格上的性別差異研究[J]外國語,1997(1):4348

[9]李經偉語言性別差異及其原因解釋[J]山東外語教學,1998(3):1216

篇2

在針對金融學領域進行實證研究時,傳統研究方法通常選擇結構化數據作為研究依據,常見類型如股票市場數據、財務報表等。大數據技術發展后,計算機技術逐漸成熟,在實證研究中可獲取更加多樣化的數據,非結構化文本大數據得到應用,例如:P2P網絡借貸文本、財經媒體報道、網絡搜索指數、上市公司披露文本、社交網絡文本等。本文探討了相關文本可讀性、相似性、語氣語調與語義特征等。

1.在金融學研究中文本大數據的挖掘方法

傳統研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數量龐大、信息構成復雜,人工識別效率較低,而且信息識別質量不穩定,信息識別效果受到閱讀者專業素養、理解能力等多方面因素影響。計算機技術發展后逐漸被應用于分析文本大數據,利用計算機技術獲取語料,對文本資料進行預處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數據時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數據,獲得文本分詞,標注詞性,將其中停用詞清除。(2)構建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關聯性。(4)監督機器學習、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲取;(2)利用網絡工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網絡抓取的可行性相對較高[3]。網絡抓取方法可有效應對大量文本量,在一定程度上降低文本大數據獲取難度。在網絡抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數據。采用此種語料獲取模式具有兩方面顯著優勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內容和規范形式,為后續文本分析工作奠定基礎[4]。

1.2預處理環節

獲取目標語料后,前期需要預處理文本,解析、定位文本,清洗數據,標注分詞與詞性,最后去除停用詞。金融市場通常要求企業采用PDF格式作為信息披露文檔格式,文本預處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數據環節中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內容結構外,還包括超文本標記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內容,需要刪除和清洗相關信息,從文本中篩選有價值的核心內容[6]。文本分詞處理與文本語言密切相關。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據中文語言習慣,詞語為最小語言單位,可獨立使用。基于此種背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業績說明會以及企業財務報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學直接影響分詞精準度。分詞處理新詞時,需要用戶在相應模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關鍵依據是詞性等語法特征,詞語切分后標記詞語詞性操作被稱為詞性標注。詞性標注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結構進行有效識別,從而促進計算機順利進行語義分析。詞性標注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據主要為語法、語義等。簡言之,英文詞性識別標記注重形式,漢語詞性標記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結構完整性而言非常重要的詞語。停用詞導致文本數據具有更繁瑣維度,導致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復雜,必須結合語言習慣分析停用詞,不僅需要處理特殊符號、標點符號,還需要處理連詞、俚語。除此之外,應根據具體研究內容確定停用詞。在進行文本情緒研究時,特定標點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準確分析。

1.3文檔表示環節

文本數據為高維度數據,具有稀疏特點,使用計算機處理文本數據時難度較高,預處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術具有可視化特點,是文本大數據技術之一。所謂本文可視化,即使用視覺符號顯示復雜內容,展示文本規律。根據生物特性,人們習慣于通過視覺獲取文本信息,實現文本可視化可提高信息提取效率。使用詞云技術可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構建基礎是無嚴格語序要求的文字詞組存在[9],以此種假設為前提,文本相當于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現頻率。在詞袋模型中含有兩種構建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應用優勢是可行性較高,操作難度較低。例如:現有如下兩個文檔:(1)文檔一:“經濟學中文本大數據使用”;(2)文檔二:“金融學中文本大數據使用”。以文檔一、文檔二為基礎建設詞表,根據詞序實施詞袋化處理,確定詞袋向量。對于出現的詞,以“1”表示,未出現的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現頻率存在差異,通常文本中高頻詞數量較少,許多詞匯使用頻率較低。為體現文檔中不同詞語的作用,對單詞詞語賦予權重。TF-IDF是計算文檔定詞語權重的有效方法。含有詞語i文檔數描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內詞語數量描述為aj,第i個文檔內詞語i權重描述為tf-idfi,j,則公式應表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權重。在賦予其權重的基本方法時文本中該詞匯出現頻率越高,其重要性越高,與此同時語料庫中該詞匯出現頻率越高,則其重要性相應降低。詞嵌入處理中,主要是在低緯度連續向量空間嵌入指定高維空間,該高維空間維數包括全部詞數量。在金融學領域中進行文本研究時,詞嵌入技術通常采用Word2vec技術,該技術中主要使用CBOW技術與Skip-Gram神經網絡模型,針對神經網絡進行訓練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應用頻率較高的是LDA模型,應用此種模型進行文本分析屬于無監督機器學習法,通過此種方法才能夠大量集中語料中提取主題信息。在應用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應主題,從這些主題中抽取一個主題,然后假定文檔具有對應詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優勢是,與手動編碼相比,該模型性能更完善,可有效分類大規模文檔。該模型做出的文本主題分類支持復制,準確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關鍵詞、規則設定。LDA模型的缺點是在主題預設個數時,受到研究者主觀因素影響,選擇主題個數的數量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關聯性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產生積極影響。有研究者在文本分析中使用迷霧指數,該類研究認為,迷霧指數與年報可讀性呈負相關。年報文本字數、電子文檔規格也是影響年報可讀性的重要因素。在使用迷霧指數評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導致文本難以理解,然而正常文本和經過隨機排序處理的文本在分析計算時,顯示相同迷霧指數。不僅如此,在進行商業文本測量時采用迷霧指數作為依據具有顯著缺陷,例如,當對企業披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業實際復雜性。基于此種背景,在針對年報文本可讀性進行評價時,需要結合企業業務復雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監督機器學習法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復制。不僅如此,建設詞典時還需要融合大量金融學專業知識,從而使詞典與金融文本分析需求一致。使用現有多種類詞典、文獻等分析媒體報道情緒,針對財務報告進行語氣語調分析,以及進行電話會議等進行語氣語調分析等。中文大數據分析時,通常是以英文詞典、詞庫等為模板,構建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風險高低。在詞典法應用中需要結合加權法進行文本情緒分析[12]。有監督機器學習法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環節在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監督機器學習法的缺點是必須人工編碼設置訓練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復制。其優點是分類精確度較好。

2.文本大數據分析

大數據分析主要是進行財務報告等公司披露文本信息、搜索指數、社交網絡文本以及財經媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調等,然后分析股票市場行為與文本特征等相關性。分析披露文本信息時,主要是利用文本信息對企業財務、經營、管理層長效經營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數理論認為,財務報告具有較高可讀性的企業通常具有更長久的利潤。此外,有研究者提出,財務報告可讀性直接影響盈余預測離散性和可靠性。財務報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務報告可讀性可對投資者行為做出影響[13]。在針對企業發展情況和股票市場發展趨勢進行分析時,披露文本語氣語調具有重要參考價值。相關研究認為,MD&A語氣內含有增量信息,該類信息為企業長效經營能力進行預測,同時可根據該類信息分析企業破產風險。管理者情緒狀態可表現在電話會議語氣中,此種語氣分散情況與經營決策具有相關性,同時語氣對投資者感知、分析師評價產生影響。分析財經媒體報道時,主要關注媒體情緒,分析媒體報道著眼點,針對經濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網絡文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數研究方面,主要通過搜索指數了解投資者關注度。

篇3

引言

隨著web2.0的快速發展,社交網絡逐漸從各個方面影響著中國網民。微博成為了社交網絡中社交工具的典型代表。網民使用微博在互聯網上的活動主要是獲取信息與信息,的信息含有自己對某事物的看法、觀點、感知等個人情感。

它們主要以文字,表情符號(新浪微博默認表情及標點符號)形式出現。通過用戶之間的互動傳播(一個微博用戶具有雙重角色,即博主與粉絲),這種社交網絡媒體具有傳播速度快,傳播范圍廣等特點。因此對微博情感識別與分類就顯得尤為重要。

對微博文本的情感進行識別與分類,不僅能讓企業及時了解客戶需求尋找到潛在的客戶群體,通過實時、準確地評估其情感。能夠獲得客戶市場反饋信息及客戶的消費習慣,幫助企業進行有效的需求管理及企業戰略調整,從而快速應對市場變化,提高企業競爭力。還能幫助政府部門實時監控民眾情緒,對負面情緒及時采取措施,防止不法分子企圖通過微博平臺傳播謠言,以此保證社會的和諧穩定,政府了解民意,為制訂國家政策提供參考。

同時也能協助醫生分析心理障礙者,及時掌握患者情緒波動,準確對患者病情進行有效的對癥下藥。避免了患者不能準確描述病情,而帶來的不相關治療。

因此對微博情感進行研究具有重要的理論與實踐意義。文章意在為政府或企業等利用到微博情感分析數據的領域提供基礎。

鑒于自主采用Java語言開發的新浪微博的情感識別與分類系統,對中文微博的情感進行識別與分類研究。系統使用爬蟲技術[1],抓取微博的文本內容,然后進行分詞,去停用詞,文本規范等預處理操作,再抽取情感特征,對文本情感識別與分類,最終輸出分類結果。

一、相關工作

1.1文本獲取及預處理

對微博數據資源的獲取有兩種形式,一種是用戶以普通文本形式直接在系統前臺相應位置輸入待分析的文本,系統可以自動進行情感識別與分類;另一種是用戶以微博文本URL形式輸入,系統對用戶輸入URL連接采用網絡爬蟲技術抓取微博正文內容。

網絡爬蟲結構先將用戶輸入URL作為爬蟲起點,通過web協議(主要是HTTP協議)采集頁面,使用多線程或并列技術獲取網頁數據信息,網絡爬蟲結構也提供了鏈接過濾模塊(過濾掉不符合URL規范的鏈接),頁面數據庫模板(存儲已經爬取到本地的原始頁面數據,以備預處理階段建立索引使用)。

為了提高分類的準確率,減少獲取文本內容不必要干擾,對文本進行預處理操作十分必要。系統的預處理操作主要包括:

1.文本規范化處理,判斷待處理的文本是否含有由兩個#組成的話題標簽,若有則刪除兩個#及它們之間的文字內容。

2.使用正則表達式判斷微博文本是否含有以下三種含@微博標簽,若有將它們刪除①以@開頭,以:結尾②以@開頭,以空格結尾③以回復@開頭以:結尾。

3.判斷英文詞語是否含有感彩,刪除不必要的英文詞語。

4.用中文描述替代含有感情的“?”和“!”去除一些標點符號。

5.使用得到普遍認可的支持Java開發語言的ICTCLAS分詞工具分詞,去除停用詞。

1.2文本特征抽取

文本特征抽取[2-3]是從文本中選取一部分能夠反應其內容信息的特征詞匯并計算其特征權重。特征抽取的主要目的是為了降低向量空間的維度,消除無關特征的噪音,通過選擇可區分性強的少量特征來提高分類器的分類精度和效率。常用的特征選取方法有: 文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4](Document Frequency )一種簡單的特征約減技術,常用自動特征選擇,通過設置目標特征的文檔頻率閾值來進行特征的抽取。DF是含有該目標特征的文檔數與所有文檔數的比值,可表示為

信息增益法[5]是指文本包含該特征項與不包含該特征項時的信息熵的差值,根據所獲信息增益的多少篩選有效特征,已成為機器學習領域應用較為廣泛的特征選擇方法。信息增益法計算公式可以表示為:

由于當特征數目較少時,使用該方法得到的數據稀疏,分類結果會不理想,因此本文首先對預處理后待分析的文本里出現的每個詞計算其信息增益,設置一個閾值,抽取特征詞,按照信息增益值降序選擇特征項組成特征向量。

期望交叉熵[6](Expected Cross Entropy)反應了文本類別的概率分布與在出現了某個詞條的情況下文本類別的概率分布之間的距離。

詞條的交叉熵越大,對文本類別分布影響也就越大。所以選CE最大的K個詞條作為最終的特征項。

期望交叉熵計算公式:

為了提供特征詞抽取的時間效率,針對微博的數據量很大的特點,使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。

1.3文本情感識別與分類

采用基于樸素貝葉斯主客觀句識別方法[7]和支持向量機的分類方法[8-11]對文本分類。樸素貝葉斯方法是一種基于事件概率簡單而誤差率較小的分類方法。基本原理是:在事件相對獨立的條件下,事件A在事件B發生的條件下的概率且與事件B在事件A發生的條件下概率是不相同的。及文檔A屬于B i類概率表示為

系統應用思想:對有已知類別集合S(x1,x2,…,xn),求在待分類項出現的條件下,集合中各個類別出現的概率,哪個類別的概率值大,就認為待分類項屬于那一類別。并將對每個特征項主客觀句的條件概率計算結果輸出,作為支持向量機分類器的輸入值。

系統的工作流程圖如圖1所示。

二、實驗分析

使用第二屆自然語言處理與中文計算機會議所提供包含4000條已經標注是否含有情感色彩的中文微博語料,含有13252個句子,且主觀句中又表明了所屬具體情感類。情感類別分為7個類別,分別是:喜好、安樂、驚奇、厭惡、悲哀、憤恨和恐懼。

選擇這些數據作為系統測評數據主要是與系統測試結果進行比較,核實評價實驗結果的召回率(R),準確率(P),性能評價指標F值。求解公式如下所示:

系統將實驗測評數據首先進行預處理,對其進行規范化、分詞去除停用詞、抽取情感特征,然后采用樸素貝葉斯方法,使用其公式計算結果來識別主觀句,支持向量機方法先將抽取的特征詞轉換成向量形式,再將向量化后的文本放到向量機的模型中,最終輸出分類結果。通過計算支持向量機的情感分類方法召回率達到74.4%,準確率高達63.76%,F值達到0.6534.

實驗中采用準確率,召回率,F值測評指標,對常見的情感特征抽取方法[16]實驗結果進行了對比,見表1,通過對比樸素貝葉斯和支持向量分類方法對主客觀句的識別結果,得出結論:本實驗中對主客觀句的識別樸素貝葉斯方法比支持向量機方法的實驗結果更好。因為支持向量機方法準確率雖更高,但召回率較低。

實驗結果見表2。對已識別的主客觀句,我們采用支持向量機的一對一的多步分類方法及一對其余的一次分類方法進行情感分類。

實驗結果見表3。實驗結果表明:一對一多步情感分類方法效果優于一對其余一次分類。因為一對其余分類方法可能出現重疊現象或因不可分類現象而引起數據集的抖動。因此實驗最終選擇支持向量機的一對一多步分類方法。

三、結語

微博作為網民在互聯網主要活動之一,逐漸從各個方面影響著人們,網民帶有情感的言論對各行各業都有著不可估量的使用價值。因而對微博文本的數據分析研究有一定的社會意義。

通過查閱文獻發現基于樸素貝葉斯識別主客觀句的方法及基于機器學習支持向量的方法有較高的精度。而由于針對中文微博的研究大部分是理論性的研究,因此本文通過構建系統,將基于樸素貝葉斯的識別主客觀句個方法及支持向量機的方法的研究思路實踐化。實驗結果對企業、政府及廣大網民均有重要的社會意義。

展望:

1.后期會打破僅在初步解決微博文本的情感識別和分類問題的研究,接下來會投入對用戶的圖片信息,鏈接的視頻聲音信息進行研究。

2.本文去除英文詞語,采用的是人工標注方法。鑒于部分國人傾向于有使用英文的習慣,所以會不斷的完善系統情感庫,或設計系統能自動翻譯,以此減少人工工作量。

參 考 文 獻

[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.

[2] 張彪.基于關聯分析的文本分類特征選擇算法[J].計算機工程.2010(22):184-186.

[3]謝麗星,周明,孫茂松.基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報,2011,26(1):73-83.

[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.

[5] 李海瑞.基于信息增益和信息熵的特征詞權重計算研究[D].重慶大學,2012.

[6] 廖一星.文本分類及其特征降維研究[D].浙江大學.2012

[7] 蔣良孝.樸素貝葉斯分類器及其改進算法研究[D].中國地質大學,2009

[8]楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法 [J].計算機應用研究,2010,27(10):3737-3739

[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.

[10]趙暉.支持向量機分類方法及其在文本分類中的應用研究[D].大連理工大學,2006.

[11]張博.基于SVM的中文觀點句抽取.[D].北京.北京郵電大學,2011

[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.

[13] 韓忠明,張玉莎,張慧,等.有效的中文微博短文本傾向性分類算法[J].計算機應用與軟件,2012,29(10):89-93.

篇4

中圖分類號:F820 文獻標識碼:A 文章編號:1003-9031(2014)02-0054-05 DOI:10.3969/j.issn.1003-9031.2014.02.12

一、引言

截至2013年6月末,我國網民規模達到5.91億,互聯網普及率為44.1%。其中微博網民規模為3.31億,網民中的微博使用率達到了56.0%①。目前微博已經成為網民獲取信息的重要途徑之一,由于微博具有龐大的用戶群體以及其開放性、互動性和低成本等特點,越來越多的企業開始挖掘微博潛在的商業價值并開設企業官方微博。就汽車行業來說,自新浪微博2009年推出企業微博應用,此后汽車品牌以每5天開設一個新官方微博的速度平穩增長,于2011年8月份基本達到飽和,說明汽車企業對微博營銷的重視,但是51.7%的汽車品牌官方微博粉絲數都在7萬左右,相對于我國8839萬私人汽車保有量來說,汽車品牌官方微博還是有很大的粉絲增長空間②。總的來說,微博的發展以及其優質的傳播特性為企業營銷提供了一個新的平臺,也為企業實現品牌推廣、提高品牌價值提供了新的機遇。

但是,許多企業使用微博營銷效果與其品牌不能匹配,實施效果并不理想,存在諸如戰略與資金的匹配、營銷策略的制定和執行等問題,使得企業在微博中的營銷效果往往會向兩極發展,要么通過持續運作贏得更多粉絲關注和響應,要么不溫不火,直到消失(Court,2009; Shandwick,2009; Passant,2010; Xu,2010)[1-4]。

綜合以上考慮,企業如何通過官方微博提高微博營銷效果成為了研究的重點,長期的微博營銷效果是由短期效果的疊加形成的,而短期微博營銷效果是由每條微博文本內容的價值等體現的。企業微博的目的是希望其具有盡可能廣的傳播范圍,而微博文本內容是影響其傳播的重要因素之一。微博與文本分析的結合是近年來理論和實務界研究的熱點,本文以沃爾沃汽車官方微博為案例,將其的微博文本分為公共類、有獎活動類、產品宣傳類、品牌事件類,研究不同類型的微博對總轉發量的影響;與此同時,將微博的時間分為空閑時間和非空閑時間,研究不同時間段微博對總轉發量是否有影響,從而為沃爾沃汽車微博平臺管理提供指導意見,提高其微博營銷效果。

二、文獻回顧和問題提出

(一)微博營銷效果的評估

傳統營銷效果的度量指標有很多,如產品的銷售額、所占的市場份額、營銷的回報率等,這些指標的數據獲取相對容易,但運用到社會化媒體(如微博)的營銷效果評估存在一定的局限性。國內外對社會化媒體的營銷效果研究至今仍沒有一個公認的評估模式,比較有代表性如下幾個:Chris(2009)總結了具有一定普適性的社會化媒體營銷效果度量標準框架,其中包括定性的評估指標(用戶評論的觀點和討論的主題等)以及定量的評估指標(評論量、粉絲數、產品手冊的下載量等)[5];Richard(2010)將社會化媒體影響用戶的過程劃分為四個階段(Awareness-Appreciation-Action-Advocacy),根據4As不同階段定義核心指標[6],但該模型的構建表現為單方向遞進,針對企業微博營銷互動反饋的特性,具有一定的局限性;Yamaguchi(2010)等將提出TURank ( Twitter User Rank) 來計算用戶影響力排名[7];Park等(2011)通過TAM模型實證分析了企業微博用戶的知名度、互動性、信任度對Twitter上的企業微博營銷有顯著影響[8]。上述研究的重點在于整個企業微博營銷效果的評估,對博文營銷效果進行評價的研究尚不多見。

國內微博起步較晚,API開放性較低,數據獲取相對困難,也導致了國內以企業微博營銷為研究對象的學術文章相對較少。金永生等(2011)指出對企業微博營銷效果的測量主要針對短期效果,用“被微博用戶轉發的含有有獎營銷信息標簽的企業微博的總數”作為衡量企業微博營銷短期效果的評價指標[9],但是筆者在咨詢新浪微博客服后發現,微博搜索引擎會將相同結果合并,所以該評價指標的可靠性值得商榷。趙愛琴(2012)借鑒了Murdough 的研究框架,結合國內企業微博運營現狀,提出企業微博營銷效果的評估模型AESAR(Awareness 注意-Engagement參與-Sentiment 態度-Action 行動-Retention保留) 與評估指標[10],但模型沒有給出各個指標相對于營銷效果的重要程度,也沒有實證數據的支持。陳曉明(2012)給出了微博營銷的投資回報率(ROI)的計算公式[11],但沒有用于實證分析,因為公式中的微博營銷總收益難以衡量。畢凌燕(2013)根據微博傳播信息流,運用PageRank算法思想和用戶行為權值,提出一種評價企業微博博文營銷效果的量化方案[12]。由于新浪對企業微博數據進行了保護,這種方法的數據抓取有一定的難度。

本文擬以單條微博的總轉發量作為博文營銷效果的評價指標,該做法的意義及理由如下:一是研究博文的營銷效果對企業管理微博平臺具有更強的可操作性;二是從2012年3月起,新浪微博等實施實名認證,沒有通過認證的用戶只能瀏覽微博內容,而不能進行評論、轉發等相關操作,這對打擊“僵尸粉”、保證傳播效果的真實性起到了一定的作用,也使得用“總轉發量”作為評價指標具有一定的可靠性;三是畢凌燕(2013)的研究指出博文被評論和轉發的次數(而不是粉絲數),更能確切反應其微博被用戶關注的程度和營銷效果;四是程雪芬(2012)研究得出企業微博營銷效果與真實粉絲數和平均轉發量正相關[13],本文假設短期內企業微博真實粉絲數保持不變,故“總轉發量”一定程度上可以用于衡量企業微博營銷效果。

(二)微博文本分析

微博平臺與文本挖掘技術的相結合是近年來理論與實務界研究的熱點,但其研究成果還處于初級階段。陳致中(2012)以騰訊微博為例,采用問卷調查法探討什么樣的文本組合最能起到改變受眾態度的效果,結果發現廣告類信息的態度改變效果不明顯,而非廣告類的信息能夠有效改變受眾對企業微博的態度[14],由于其采用的是問卷調查法,而非真實的微博數據,其可靠性有待檢驗。程雪芬(2012)把微博文本內容分為工具型和情感型,結果得出工具型微博對粉絲數和平均轉發量都有顯著的正向影響,情感型微博對二者幾乎沒有影響。

本文選取“沃爾沃汽車中國”官方微博為案例,將其微博文本分為公共類、有獎活動類、產品宣傳類和品牌事件類,根據前人的研究以及經驗提出如下假設:

H1:公共類微博對總轉發量有正影響;

H2:有獎活動類微博對總轉發量有正影響;

H3:產品宣傳類微博對總轉發量有負影響;

H4:品牌事件類微博對總轉發量有正影響。

(三)微博時間

學術界目前尚未有探究微博時間對企業微博短期營銷效果的影響,這也是本文最大的創新點所在。前人與微博時間相關的研究有:Schneider等(2009)通過對Facebook, LinkedIn, Hi5, StudiVZ等四種社交網站上同樣賬號的屬性、特點、動態變化等進行跟蹤分析,得出用戶喜歡在不同社交網站做相同的事情,用戶總上網時間有限,在某個社交網站停留時間越多,會明顯擠占在其它社交網站的停留時間[15],這從側面反映了企業微博需要迎合用戶的興趣及使用時間;新浪的《2012企業微博白皮書》顯示,企業微博集中在周一到周五,從24小時分布情況看,早上9點至10點是企業發博的最高峰。筆者在前期研究江淮乘用車官方微博時發現,可能是由于企業聘用專職員工管理微博平臺,其微博的時間集中在周一至周五的上班時間;而個人發博時間(也可看成是個人微博活躍時間)比較均勻,而在22點到凌晨24點達到峰值(見圖1)。

本文認為,企業微博的時間與真實用戶活躍時間不一致,可能會導致微博營銷效果受到影響。在此,從個人用戶使用微博的角度來看,定義“非空閑時間”為工作日的上午8:00至下午18:00,其余時間定義為“空閑時間”,并提出如下假設:

H5a:空閑時間的微博對總轉發量有正影響;

H5b:非空閑時間的微博對總轉發量有負影響。

本文研究的創新點在于,研究單個企業微博文本的營銷效果的影響因素,對企業微博平臺管理更具有可操作性;由于文本分類的靈活性,為其他企業研究其自身微博營銷效果提供了方向;提出了微博時間對博文營銷效果可能的影響。

三、主要研究變量與數據樣本

(一)主要研究變量

1.因變量

本文以單條微博的總轉發量作為博文營銷效果的評價指標,由于總轉發量的數字不僅包括一級轉發,還包括以后的各級轉發(即:A發表原創微博a,B轉發該條微博a;C再轉發B轉發的a,D再轉發C轉發的a……所有的這些轉發量都體現a的轉發量中),所以總轉發量在一定程度上體現了微博文本的傳播廣度和深度,可作為博文營銷效果的評價指標。

2.主要解釋變量

前人研究的企業微博營銷影響因素主要有粉絲數量、企業品牌本身的影響力、微博數量、微博內容價值等等,本文針對單個企業短期的博文營銷效果進行研究,并假設短期內企業品牌本身的影響力和活躍粉絲數等因素保持不變,故主要解釋變量設定為微博文本內容和發博時間。

(1)微博文本內容

在對“沃爾沃汽車中國”微博文本閱讀后,本文將其微博文本內容分為公共類、有獎活動類、產品宣傳類和品牌事件類。公共類指與企業無直接關系的內容,如公共事件、時事、趣聞、祝福、實用信息等;有獎活動類指用戶參與并有機會獲得獎勵的內容,如轉發送禮品、話費充值等;產品宣傳類指與企業產品或服務有關的介紹,如車型介紹、廣告、產品設計等;品牌事件類指與企業有關的客觀事件的報道,如企業新聞、品牌活動等。

為分析不同類型文本對總轉發量的影響,引入虛擬變量sort1、sort2、sort3,其中:

sort1=1 公共類0 有獎活動類、產品宣傳類或品牌事件類

sort2=1 有獎活動類0 產品宣傳類或品牌事件類

sort3=1 產品宣傳類0 品牌事件類

(2)發博時間

考慮到2013年9~10月期間中秋節和國慶節的放假安排,將所有法定工作日的8:00~18:00定義為“非空閑時間”,其余時間為“空閑時間”,引入虛擬變量time,并定義:

time=1 空閑時間0 非空閑時間

(二)數據樣本

本文記錄了“沃爾沃汽車中國”官方微博2013年9月1日至10月24日的所有341條微博作為基本研究對象,對其微博文本進行了人工分類,公共類、有獎活動類、產品宣傳類和品牌事件類的微博占比分別為41.9%、1.2%、49.0%和7.9%,說明沃爾沃主要利用微博平臺進行產品的宣傳。發博時間方面,空閑時間與非空閑時間占比分別為42.5%和57.5%,此處空閑時間的樣本量占比并不低,可能是9~10月中秋和國慶長假的原因(微博平臺在假期有專人維護)。

四、實證分析

考慮到空閑時間與非空閑時間企業微博的內容可能存在差異,故將類型虛擬變量與時間變量的乘積作為模型的交叉項,構建計量模型(見表1)。

以上所有自變量及交叉項均通過檢驗,R2值較高,F統計量也在1%水平下通過檢驗。總體來看,有獎活動類微博最能夠刺激轉發,其次是品牌事件類,公共類和產品宣傳類促進轉發效果較差,假設H2、H3、H4得到驗證;空閑時間相比于非空閑時間更能夠促進轉發,假設H5a、H5b得到驗證。具體到各類微博內容的分析,相關數據見表2。

由表2可知,公共類微博在促進轉發方面表現最差,企業可適當減少公共類微博的,或者精選優質的公共類微博;公共類微博在空閑時間的總轉發量要高于非空閑時間,故企業可將部分公共類微博的時間調整到晚上或者周末,以迎合個人用戶的上網時間,提高微博營銷效果。

有獎活動類微博的總轉發量都比較大,但是企業不太可能增加太多該類微博的,所以如何利用好有獎活動類微博加強與用戶的互動聯系以及提高活躍粉絲數成為微博營銷的關鍵,如在實際操作中,企業可以在有獎活動類微博時設置關于品牌的相關問答題。

產品宣傳類比較特殊,其在空閑時間的總轉發量不如非空閑時間,可能的原因是,空閑時間大量微博充斥,對個人用戶而言,其興趣點可能并不在企業產品宣傳上(此結論并不一定適用于其他行業的企業)。對汽車企業來說,在空閑時間要控制產品宣傳類微博的數量,以免引起用戶的反感。

品牌事件類微博總體轉發量較好,空閑時間比非空閑時間的營銷效果更好,可能是因為品牌事件類微博比較客觀,對于傳播品牌理念和提升品牌影響力有積極的作用,企業應當增加該類微博的量。

五、結論與展望

本文的研究結果表明,有獎活動類微博最能刺激轉發,企業應充分利用有獎活動提高真實粉絲數;品牌事件類微博較公共類和產品宣傳類微博具有更好的傳播效果,企業可以對品牌事件類和公共類微博進行精選后,促進品牌價值的傳播;總體上空閑時間的微博具有更好的營銷效果,企業可根據不同類別的微博內容選擇合適的時間。

本文采用案例分析方法,其研究結論的可推廣性有待檢驗。可能進一步的研究方向是采用大數據,以前沿的文本和圖片分析技術,更細致地分析企業微博內容的價值,為提高企業微博營銷效果提供更為精確的指導建議。■

參考文獻:

[1]David C., Dave E., Susan M., Ole J.V.. The consumer decision journey[EB/OL].[2009-06].,http:///insights/marketing_sales/the_consumer_decision_journey.

[2]Shandwick W. Do for 100 companies need a vention

[EB/OL].[2009-11], http:///resources/ws/flash/Twittervention_Study.pdf.

[3]Passant A, Bojars U, Breslin J G, et al. An Overview of SMOB 2: Open, Semantic and Distributed Microblogging[C].//ICWSM.2010.303-306.

[4]Xu T, Chen Y, Fu X, et al. Twittering by cuckoo: decentralized and socio-aware online microblogging services[C].//ACM SIGCOMM Computer Communication Review. ACM, 2010, 40(4): 473-474.

[5]Murdough C. Social media measurement: it's not impossible[J]. Journal of Interactive Advertising, 2009(10):94-95.

[6]Pentin R, Senior Planner T M W. A New Framework For Measuring Social Media Activity[R]. TMW, 2010.

[7]Yamaguchi Y, Takahashi T. TURank: Twitter User

Ranking based on User-tweet Graph Analysis[C].WISE 2010:240-253.

[8]ByungHee P., JungHoon L., SoYeon P.. A study focusing the factors that influence SNS users' usage of corporate SNS sites focusing on Twitter[C].//The 11th International Conference of Decision Sciences Institute and The 16th Annual Conference of Asia-Pacific Decision Sciences Institute, Taipei: IEEE Press, 2011: 681-687.

[9]金永生,王睿,陳祥兵.企業微博營銷效果和粉絲數量的短期互動模型[J].管理科學,2011(4):71-83.

[10]趙愛琴,朱景煥.企業微博營銷效果評估研究[J].江蘇商論,2012(1):89-92.

[11]陳曉明.企業微博客營銷效果的影響因素分析[D].廣州:暨南大學,2012.

[12]畢凌燕,張鎮鵬,左文明.基于微博傳播信息流的微博效果評價模型及實證研究[J].情報雜志,2013(7):69-73.

篇5

微軟亞洲研究院網絡圖形組主管研究員劉世霞博士告訴CHIP,之所以現有的文本挖掘技術不夠用,首先是因為目前技術尚處于研究階段,精準度不夠;其次是因為技術的靈活性不足,很難滿足不同人的需求。她和同組的副研究員崔為煒以及香港科技大學屈華民教授共同主導的TextFlow項目在破解這個難題方面提出了新的思路,他們將文本挖掘技術與可視化這種交互技術結合在一起,不僅突破了傳統靜態文本挖掘技術的限制,而且能讓人利用直觀的流式圖形迅速把握海量信息的發展脈絡。在國際最頂尖的信息可視化學術會議IEEE InfoVis 2011上,TextFlow論文的引發了業內人士的關注。有評委表示,“該論文的主要貢獻是在海量文本分析中引入主題合并和分裂的理念,這是分析主題演化時面臨的最大挑戰之一,從文本挖掘和可視化兩個角度來說都意義非凡。”

有趣的是,他們在論文中以自身最熟悉的領域——可視化研究作為其中一個案例,將2001年至2010年間發表在IEEE Vis和InfoVis兩個學術會議上的933篇論文作為文本數據集合,通過TextFlow模型得出了與實際學術發展潮流相當吻合的圖表,其結論令人信服。例如,整體上看,過去10年間Vis相關主題有日漸式微的趨勢,2006年之后各個主題獨立發展;InfoVis與之相反,整體的趨勢是上升的,主題之間的合并和分割非常多,說明該領域的研究更活躍。

他們是如何做到的呢?崔為煒向我們解釋了文本可視分析的步驟(如上圖所示)。首先,主要由機器來完成海量文本的收集和預處理工作。然后,利用自然語言分析中的概率模型HDP(Hierarchical Dirichlet Process)計算出文本所屬的主題(topic)。這里假設每個主題都是由一組關鍵詞來描述的,關鍵詞以不同的概率出現在不同的主題中,每篇文章自然也會以一定的概率屬于不同的主題(注:傳統聚類方法會認為每個文本只屬于一個主題)。劉世霞強調,HDP模型的優勢是可以自動確定文本中的主題數量,但是它只能計算出一組靜態文本數據的主題,無法進一步找出主題之間的關系。2010年的時候,他們成功改進了HDP模型,將這個語言模型擴展到能處理動態的文本數據流。簡單地說,就是跟蹤比較T1和T2兩個時刻文本內容的變化情況,由此來確定主題之間是否發生了合并或者分裂。文本分析的最后一步就是利用前面得出的主題演化結果,計算出其中的關鍵事件和關鍵詞,從而更好地展示事件發展的來龍去脈。

在談到TextFlow模型對于主題合并和分割判斷的準確率時,劉世霞表示目前還沒有一個固定的樣本集可供測試,但把多個領域的分析結果拿給相關領域專家查看時,他們都認為結果比較準確,可以達到滿足應用的水平。另外,我們還了解到TextFlow模型的主要算法本身與語言是無關的,中文與英文的區別主要在于海量文本預處理階段的分詞技術,這方面已經有成熟的技術可以完成。

William Ribarsky是北卡羅萊納州大學Charlotte可視化研究中心創始董事,非常關注微軟亞洲研究院在文本可視分析方面所做的工作,他在美國召開的一次學術會議的發言中提到劉世霞所做的交互式可視文本分析,并稱“這項成果令人刮目相看”。在撲面而來的大數據時代,相信未來利用TextFlow模型可以做許多幫助企業提升生產效率的事情。崔為煒向我們演示的案例中既包括對歷史新聞事件的回放,也包括跟蹤社交媒體的數據預測即將發生的新聞事件。由此引申開來,所有之前難以度量的文本數據或許都能迎來一次重生的機會。在信息時代,誰能把握住信息的脈搏,誰就能更好地把握住時代的脈搏。

文章開頭虛構的面試題,大家找到答案了嗎?

聲音

我們應該把文本挖掘技術和可視化這種交互技術結合在一起,讓人去做人擅長的事情,機器去做機器擅長的事情。機器擅長做什么呢?機器比較擅長去存儲,做大數據量的運算,而人有分析的能力。因此,我們的工作主要就是把人的智能和機器的計算能力結合在一起。

——劉世霞

微軟亞洲研究院網絡圖形組主管研究員

篇6

1.時代背景

自21世紀以來,數據爆炸已是人類的重大挑戰,人們淹沒在數據海洋中,卻對信息,知識極其缺乏,人類分析數據的能力與獲取數據的能力相差甚遠。同時,數據的多態、高維、獲取的動態性、數據關系的異構更增加了數據使用的難度。在傳統企業占據主流地位的關系型數據庫有越來越多無法進行管理的數據。這類數據的量巨大,具有多樣性,如各類文本、圖像、視頻、傳感器信息,且數據產生和更新的頻率上升到一個新層次。總結下即為海量化(Volume),多樣化(Variety),快速化(Velocity),這三點為大數據的主要特征。人們要從海量非結構化數據中挖掘有用信息的這種推力,使大數據技術正逐步代替傳統信息管理技術。伴隨著推力巨大的互聯網,大數據時代的大幕正逐步拉起。而在這發展過程中,能有效呈現多元化數據, 便于決策的數據可視化便越來越引起關注。

2.數據可視化的作用

在信息科學與知識管理中,DIKW(Data,Information,Knowledge,Wisdom)體系作為最基礎的模型,在數據處理流程中完成從數據到智慧的轉化。人們急切的需要能展示演繹數據的工具,并且能夠傳達數據身后真正的知識與智慧的工具。在整個轉化過程中,可視化于溝通,傳遞,表達方面表現出明顯的優勢。

數據可視化運用計算機圖形學,圖像處理等技術,并以其在視覺感知與人腦認知上的優勢使美學因素融合在數據分析中。優秀的數據信息圖甚至可以達到藝術的層面,令人賞心悅目。其在數據處理流程中持續的優勢,使數據可視化交互工具市場逐步做大。

數據就是石油,傳統的各類領域中不被重視的數據重新歸納總結會釋放出巨大潛力。新聞中的數據信息可以歸納為信息圖表,再與其他新聞進行分析整合,人們往往可以從中有收獲。政府機關的數據通過有效整理并進行可視化,可以增加其透明度,民眾可以更容易獲取有效信息。企業數據可視化,可以對整個企業運營流程有很好的掌控,便于管理與盈利。網絡數據及公共資源的潛在價值也極大,各類社交網站開放的API可以供開發研究人員挖掘人們生活消費習慣,甚至可以通過文本分析并進行可視化發現流行病的爆發趨勢,購物網站對用戶已購貨物記錄進行地域偏好分析,也可獲得有價值的情報。

3.主要應用

3.1 文本可視化

將文本信息提取技術與可視化相結合的文本可視化可以輔助用戶將文本中的信息簡潔地呈現出來。原始文本經過文本信息挖掘,視圖繪制和人機交互,這便是基本的可視化流程。在諸多網站上,文本可視化的標簽云技術已越來越常見,其為基于關鍵詞的最簡單的文本可視化技術,用顏色和字體的大小體現關鍵詞于文本中的分布差異,衍生的Wordle技術改進了空間布局,提升了美學效果。在進行信息檢索時,也可以使用TileBar,Sparkler等可視化方法來提升檢索效果。除此之外,文本信息中還包含了大量的人類主觀信息,可以在RSS新聞內容,社交平臺中挖掘用戶情感傾向信息,幫助調查者從宏觀角度進行分析并為決策提供依據。

3.2 多媒體數據可視化

大數據時代,人們早已對半結構化數據及非結構化數據充滿了好奇。圖像,視頻,音頻中的數據價值推動了多媒體數據的可視化。比如社交照片中群體成員之間的關聯多使用了海賽圖方法;視頻的可視化則經常使用將圖像堆疊成立方的方法,為抽取視頻中的運動信息提供方便;音樂的可視化如今也多是媒體播放工具的一個功能。

3.3 商業智能的數據可視化

如今的大量在線商業數據具有強烈的跨媒體特征與豐富的時空地理屬性,用戶的消費日志包含了大量個人信息,這些都催生了該領域的可視化發展。當前商業智能的數據分析大多借助于OLAP的多維分析模式實現,采用可視化技術進行數據探索。從最早的柱狀圖、餅圖、網狀圖等簡單圖表,發展到呈現公司狀態與商業環境的儀表盤、子彈圖,新成長的技術能有效地傳達數據背后的知識和思想。同時隨著Tableau,Spotfire等軟件的推廣,可視化極大推動商業智能的大眾化,降低了普通人進行數據分析的門檻。

3.4 Web端可視化

Web端的可視化是通過HTML,CSS,Javas-cript技術,在網頁上實現可交互的可視化作品及時全面顯示信息。Web端的可視化可以提升用戶效率,使選擇操作更加方便,感官更加舒服。D3.js就是一套面向Web的數據可視化的Javascript庫,具有極大的設計靈活性和可移植性。國內開發的DataV.js同樣出色,可以便捷的調用且兼容各類瀏覽器。

4.數據可視化的注意點

可視化雖然是非常好的了解數據的方式,不過也很容易以錯誤的方式執行從而背離了其價值所在。為充分展示信息而不顧圖表的整體協調,想要包含更多的信息效果卻適得其反,這樣做很容易使圖表缺乏美感。有限的儀表盤空間要包含的是重要的且值得優先考慮的數據,且當圖表顯示過多的信息時,過于緊密的布局很容易顯示出錯誤的信息。而另一種錯誤則是為了追求畫面的美觀,卻使數據內容的表達不佳。所以在可視化的過程中,目標的確立是最為基本的,專注于自己的目標有助于更好地傳遞表達數據,同時與圖表的美觀之間也能達到一種平衡。

真實的數據往往需要占用大量時間進行規范化,特征選擇,維歸約等預處理操作,數據集的清洗與規范化或許是實踐中占最多時間的部分,此點不容忽視。同時,數據可視化是一種輔助分析的工具,非分析工具,正常的處理流程還要借助傳統的統計手段及其他專業的知識。總而言之,數據可視化作為一種對數據信息進行專業化處理的優秀工具,其理論與技術將在未來獲得逐步提升,最終一定會對商業社會及科研領域的發展作出重大貢獻。

參考文獻

篇7

然而,NPS模型也面臨著一個挑戰。通過反饋把客戶分成3組,然后通過計算方法{凈推薦值(NPS)=(推薦者數/總樣本數)×100%—(貶損者數/總樣本數)×100%}得到一個單一的平均分,這一方法盡管簡便,但同時也使企業也許失去了對客戶更全貌信息的寶貴見解。在當今日益以客戶為中心的市場環境中,要求客戶反饋,言下之意是你打算用收集到的信息采取后續行動。如果你不打算利用這個信息來傾聽或沒有能力積極跟進,要求客戶反饋可能會導致弊大于利。尤其是對于你企業客戶中的“貶損者”。甚至是NPS模型的支持者都同意,如果只是簡單地問一個問題,而沒有任何額外的細節或跟進是不夠的。如客戶把你的企業評價為零分,并且不告訴你為什么,那么你也就無法跟進及采取行動。而監控一個你并不知道如何提高的指標,往往非常令人沮喪。

盡管添加太多后續問題會影響簡單的一題式調查的吸引力及顯著降低客戶的響應率。但是,很多企業依然在它們的NPS調查中添加了一些問題,以試圖找出和確定高分數及低分數背后的驅動因素。另外,專注郵件、短信、微信及APP等多渠道個性化會員營銷服務的webpower中國區也在服務企業的客戶實踐中看到,一些企業也嘗試通過電話、短信或電子郵件等渠道跟進調查對象。這使得企業能夠收集更多豐富的洞察力信息,以為了解驅使客戶作出響應的動機提供見解。除此之外,還有一些企業也試圖通過建立一個服務補救與客戶挽留流程以接觸到“貶損者“,并且在某些情況下,設法使企業過去的“貶損者”轉變為新的“推薦者”。而通過邀請“推薦者”加入顧問理事會或客戶座談小組,以爭取進一步了解客戶見解,并鼓勵其成為品牌擁護者,也成為企業的策略之一。

不管企業在跟蹤、衡量及量化客戶忠誠度的過程中采用了哪些指標、策略和方法,在目前的內外部環境下,以下重點非常值得關注:

強化可操作性細節 全方位理解客戶體驗

保持客戶調查的簡短和簡單是至關重要的,因為客戶幾乎被其使用的每一個供應商的多個請求“轟炸”。這使得企業必須創建一個關于重購愿意、購買更多等客戶忠誠度的簡短調查。但是,它是否使你全面理解整個客戶生命周期旅程了呢?哪些是企業希望去影響客戶體驗的關鍵因素?

webpower中國區認為,通過加入哪怕一個開放式的問題,如“我們怎樣才能提高?”企業就可以顯著地增強搜集到的信息的可操作性細節。對于大型企業來說,最重要的是還要使該方法具有可擴展性,并且需要一個可挖掘非結構化意見的解決方案。如挖掘文本評論的文本分析,挖掘錄制語音批注的語音分析。同時,如今的消費者有太多可以發表自己意見的場所,除網站、博客等傳統渠道外,社交媒體也在成為流行的客戶意見平臺。所以,這要求不管企業愿不愿,它都必須監控社交傳媒上正在發生的事情,而有一些企業也將用戶主動張貼在社交傳媒網站上的評論納入VoC的范疇。而VoC現在也變種成任何形式的用戶反饋,包括未經請求的用戶輸入。

超越NPS調查反饋 挖掘所有客戶接觸點

篇8

一 非結構化數據處理流程

非結構化處理流程主要以網頁處理為例來闡述,包括三個階段,分別是信息采集、網頁預處理和網頁分類。

信息采集是將非結構化的信息從大量的網頁中抽取出來保存到結構化的數據庫中的過程;網頁預處理主要是進行一些數據清洗的工作,保證分類質量;網頁分類工作則是通過數據挖掘算法訓練出來的分類模型,對分類數據進行分類提煉,得出有價值的信息。

信息采集

信息采集面對的是特定的專業人群,其采集的信息只限定于特定的主題和相關的領域,出于對性能和成本的考慮其不必也不可能對整個互聯網進行遍歷,因此主題信息采集中通常需要研究以何種方式預測鏈接指向的頁面與主題的相關性,并判斷其是否值得訪問;需要研究以何種爬行策略訪問Web,以在盡可能多地采集到主題相關頁面的同時盡可能少地采集到主題無關的頁面。

信息采集的基本方法是通過預先設定的種子鏈接集,利用HTrP協議訪問并下載頁面,在用各種分析算法分析頁面與主題的相關性之后提取出待訪問的鏈接,預測鏈接指向主題相關頁面的可能性,再以各種不同的爬行策略循環迭代地訪問網頁。

信息采集根據基于主題的不同可分為以下兩類:一類是基于內容的主題信息采集:它需要建立一個針對主題的詞表。另一類是基于超鏈接的主題信息采集:它是基于網頁之間的引用關系,類似Page rank算法。

網頁預處理

網頁預處理部分本文主要介紹一下網頁去重,網頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內容的對比去重,它適用基于信息指紋的文本相似度算法。

網頁去重需要先對文檔對象的特征抽取,需要將文檔內容分解,由若干組成文檔的特征集合表示,該步驟主要是為了方便特征比較計算相似度。之后需要針對特征的壓縮編碼,主要通過哈希編碼等文本向數字串映射方式以方便后續的特征存儲以及特征比較,起到減少存儲空間,加快比較速度的作用。最后需要進行文檔的相似度計算,這一步需要根據文檔特征重合比例來確定是否重復文檔。一般是對網頁提取一個信息特征,通常是一組詞,或者是詞加權重,調用特定的算法,轉化為一組代碼,也被稱為指紋。若兩個頁面有相當數量的相同指紋,那么可以認為這兩個頁面內容重復性很高。

網頁分類

分類問題是人類所面臨的一個非常重要且具有普遍意義的問題。將事物正確地分類,有助于人們認識世界,使雜亂無章的現實世界變得有條理。自動文本分類就是對大量的自然語言文本按照一定的主題類別進行自動分類,它是自然語言處理的一個十分重要的問題。文本分類主要應用于信息檢索,機器翻譯,自動文摘,信息過濾,郵件分類等任務。文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。

在搜索引擎中,文本分類主要有以下用途:相關性排序會根據不同的網頁類型做相應的排序規則;根據網頁是索引頁面還是信息頁面,下載調度時會做不同的調度策略;在做頁面信息抽取的時候,會根據頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據用戶所點擊的URL所屬的類別來推斷檢索串的類別等等。

網頁分類方法有SVM分類方法和樸素貝葉斯方法:其中比較推薦的是SVM分類方法,Vapnik等人在多年研究統計學習理論基礎上對線性分類器提出了另一種設計最佳準則。其原理也從線性可分說起,然后擴展到線性不可分的情況。甚至擴展到使用非線性函數中去,這種分類器被稱為支持向量機(SupportVector Machine,簡稱SVM)。支持向量機的提出有很深的理論背景。支持向量機方法是在近年來提出的一種新方法。

典型的SVM分類有兩種,一種是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;另一種是基于結構風險最小化理論之上在特征空間中建構最優分割超平面,使得學習器得到全局最優化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。

典型的樸素貝葉斯分類,它可以分為模型訓練、模型分類和分類結果評估三個階段:模型訓練階段,主要計算訓練集下所有類別的先驗概率,以及所有特征詞在每一個類別下的條件概率;模型分類階段,對訓練集建立模型;對每個待分類文檔計算后驗概率,后驗概率大的類別為文檔所屬類;分類結果評估階段:對分類結果進行抽樣、人工檢驗。分別計算出每個類別分類的查準率和查全率,通過F―度量公式評估模型準確度。

二 自然語言處理的典型方法與應用

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。研究能實現人與計算機之間用自然語言進行有效通信的理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。

自然語言處理部分主要以輿情分析為例,輿情分析系統的數據來源有三個渠道,一是網絡上公開的信息,如各大交易所每日評論,社交網絡各方觀點和財經門戶網站。二是從合作方獲取的信息,如交易信息等。三是微博、人人網等社交網絡信息。

網頁信息摘要

網頁信息摘要需要將同一主題下的多個文本描述的主要信息,按壓縮比提煉出一個文本的自然語言處理技術。對于互聯網上海量的期貨分析報道,如果能從中提煉出一個覆蓋性強、形式簡潔的摘要將具有重要的意義。

如何收集企業的戰略信息?面對海量信息,一個研究員需要花費4個小時閱讀相關信息。借助語義引擎,把50篇文獻縮略成10余條概要,面對概要信息,一個研究員需要花費3分鐘閱讀相關信息,并形成思考。借助文字情緒引擎,把概要內容指數化、知識化,面對指數信息,一個研究員需要花費2秒鐘閱讀相關信息,并獲得決策支持所需的知識。

熱點事件預測

熱點事件的發現與預測的算法有很多,最行之有效的方法是做大規模的邏輯回歸。在大數據的背景下,我們拿到的數據是全量并非抽樣,這使得類似邏輯回歸等簡單算法起到事半功倍的效果。通過歷史事件傳播數據,提取向量,并做邏輯回歸出規則,就可以做很多預測。例如美國大選,疾病傳播,甚至預測死亡。

維克托?邁爾-舍恩伯格寫的《大數據時代》一書中就有這么幾個關于熱點事件預測的案例:

案例一:華爾街“德溫特資本市場”公司首席執行官保羅霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以“1”到“50”進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。他的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。這一招收效顯著――當年第一季度,霍延的公司獲得了7%的收益率。

案例二:美國一個超市將女性顧客中的孕婦視作購物的黃金消費者。為了將這部分目標人群在懷孕前就爭取過來,該超市通過調查羅列出幾十種購物偏好,當某位顧客的收銀條上集中呈現這類商品時,就會被認定為可能是孕婦或家中有孕婦,超市隨后向其發送孕婦產品廣告。一次,當有人以“家中并無孕婦卻總是收到相關產品廣告”為由控告這家超市后,卻發現原來是自己還在上高中的女兒懷孕了。

案例三:2009年甲型H1N1流感病毒出現,在沒有疫苗的情況下,公共衛生專家能做的只是減慢傳播速度,要做到這一點,專家必須先知道流感出現在哪里,這只能依靠各地醫生發現并告知疾控中心,信息肯定是滯后的。可是,Google的工程師們比疾控專家更早地判斷出流感從哪里傳播出來,他們依靠的就是Google所掌握的大數據。

歷史相似事件可使用文檔相似度比較。文檔相似度比較算法首先采用TF-IDF方法把文檔建模為詞頻向量,然后使用向量距離計算算法求得。常用的距離計算方法如:Jaccard距離、歐式距離、余弦相似度等。

情感分析

正負情感度量化統計分析一般用于分析金融機構和大眾對期貨產品的態度、情感和觀點傾向,對行情走勢往往具有十分重要的意義。通過對收集來的信息進行情感度分析后,可以統計出社會輿論對期貨未來走勢的觀點傾向度。通過計算歷史輿論觀點與走勢的相關度可以驗證情感度分析模型的有效性。

情感詞監測模塊是通過對金融期貨網站定時采集更新,對輿論話題進行連續監控,提取熱點關鍵詞,實現熱點信息的實時發現。通過搜索引擎抓取情感關鍵詞熱度,計算關鍵詞與趨勢相關性。

主題詞表的優劣在相當程度上影響了系統后續的信息采集內容和效果。首先,由領域專家給出相關領域的權威網站作為基礎語料來源,通過對權威網站網頁內容的整站抓取獲得領域語料資源。之后對語料資源進行中文切分詞和詞頻統計,獲得一張高頻詞表。再由領域專家對高頻詞表中的高頻詞匯進行整理,人工選取出與領域相關的詞語。然后,對從高頻詞表中選取出的領域主題詞進行上位詞(花是鮮花的上位詞,植物是花的上位詞)、下位詞、同義詞、近義詞擴展,去除重復詞匯,從而最終形成相關領域的主題詞表。在信息采集系統后續的采集中還將不斷收集相關領域的新詞匯,在發現領域新詞后加入到領域主題詞表中,形成系統性的反饋機制,從而不斷對主題詞表進行更新維護。

正負情感度量化統計分析是從抓取的文章中進行情感度分析打分,分數范圍為不等。負數越大表示負面觀點強度越強,正數越大表示正面觀點強度越強,0表示持有中立態度;通過情感度分析可以統計出一段時間內社會輿論對于某個話題的正負面態度,輿論壓力往往可以導致市場波動。

情感詞檢測通過對金融期貨網站定時采集更新,對輿論話題進行連續監控,提取熱點關鍵詞,出現頻率較高的詞語作為熱點信息詞,實現金融熱點的實時發現。

趨勢分析和預測

根據交易的價格曲線走勢,與綜合指數對比,使輿論指數趨勢體現與交易價格曲線的相關性和一定的前瞻性。通過構建時間序列模型,對未來走勢進行預測,如圖1所示。綜合指數包括各個相關因素的變化趨勢(天氣因素等)以及輿論指數。

三 行業應用案例

數據挖掘和自然語言處理的應用范圍廣泛,其中也不乏一些有意思的案例,它可能應用于運營商、銀行、傳統企業和券商,挑選幾個具有代表性的案例與大家分享。

電信行業

某城市電信運營商的上網日志分析系統,該系統通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統通過并行統計清洗出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;最后通過統計出每個用戶上網關注類別總數,分析出每個用戶的偏好。

金融行業

某大型股份制商業銀行供應商風險評估系統,該系統通過抓取供應商內部數據,如企業年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估。這些數據指數可以有效協助商業銀行進行供應商風險評估。

地產行業

某房地產企業的社會化品牌實時營銷系統,該系統通過社交媒體(微信、微博等)數據,進行網絡口碑監測,負面情緒被及時發現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監控同行及競爭對手的各方面資訊,量化評估競爭態勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。

篇9

一手打造網絡體育社區,一手出品足球電視節目的“歡呼吧”創始人兼CEO陳昊認為,用“足球魔方”的文本分析和數據挖掘技術,足以將各種體育現象背后的實質提煉出來。

給你好看的體育

陳昊把與查立的認識歸結為一種“緣分”。在一場起點創業營舉辦的派對中,不同于那些不斷向查立演說項目方案的創業者,陳昊更多的只是靜靜站在一邊旁聽,甚至忍不住開口幫助查立回答一些創業的基礎問題。雖然與查立之間的交流很少,但僅僅這樣的一次會面,卻讓查立記住了他,也邀請他入駐了起點創業營。

當時,陳昊正在進行一個互聯網媒體項目,欲從傳統電視媒體對于足球賽事轉播的主流中另辟蹊徑,擺脫頻道資源和轉播費用的束縛,建成一個體育新聞和數據的社交分享源和體育垂直社區(這就是后來的“歡呼吧”),以及包含全球大量比賽新聞和數據的賽前分析預測節目“足球魔方”。

在他看來,國內體育傳媒嚴重滯后于發達國家的水平。“國內體育賽事的轉播模式十分單一,而且深度、專業的體育內容不多。”也正因為存在諸多問題,才讓陳昊嗅到了商機。做國內跨媒體體育社交服務商的想法也剛好迎合了查立對于互聯網的判斷。

有激情、有夢想、執行力強、善于思考……是陳昊給記者最直觀的印象,剛好吻合了起點創業營喜愛的創業者的特征。而更為重要的,是一份破釜沉舟的決心:“為了創業,我鼓勵我們團隊全部都搬到園區附近租住,以便全心全意地實施我們的創業大計”。

讓創業不再孤獨

雖然陳昊在此之前已經從事體育產業十幾年,并追隨“溫格教授”的足跡,專赴足球經濟最發達的英國拿下了足球營銷的MBA學位,然而要落實到具體的操作層面,遇見具體的事情時,依然會有很多困惑。

畢竟,入駐起點創業營,要獲取的不僅是較為低廉的租金和辦公成本,更重要的是內在的“軟件”優勢。

“這里有一個較好的培訓機制,每周的創業公開課,會根據創業者自身需要面對的問題進行詳細的講解。”作為創業公開課的忠實聽眾,陳昊之前所學的理論知識通過梳理和實戰漸漸“落地”。在入駐“起點創業營”短短幾個月的時間里,“歡呼吧”網站以及“足球魔方”電視節目已經開始運作。

不僅如此,創業者的聚集,帶給陳昊更多的交流。“通過別人的成功和失敗來反觀自己,而且創業過程中遇到的諸多問題還可以進行深入的討論,這樣的分享非常有用。”而更為重要的,陳昊認為這消除了創業者的孤獨感。

篇10

考慮到這一點,IBM 與 Twitter建立合作,旨在管理與利用當今社交互動平臺所傳輸信息中蘊含的能量。研究團隊訪問了數十名高管與行業專家,并對兩家公司的數百個客戶互動案例進行了分析,以更好地了解各個企業如何利用社交數據參與當今數字市場的競爭。

不止于營銷部門

社交互動平臺在過去10年里的使用越來越普遍,許多企業已開始將其作為市場營銷與品牌推廣的工具,并逐漸開發出包括“傾聽”客戶在內的被動式實踐方法。與客戶間的大部分直接互動,一直局限于品牌管理、客戶服務、社交推廣、公共關系和危機干預等五大職能領域。例如,針對領先品牌的用戶名或“標簽”的推文,在過去兩年里增加了 2.5 倍。

但是,從這些社交互動平臺獲取的強大數據可能會影響更多的業務流程。Twitter、Foursquare、博客、論壇、瀏覽網站及內部協作工具等平臺,正在以前所未有的方式提供有關客戶、員工、競爭對手和市場的深刻洞察力。

目前,全球約40%的企業會收集實時事件與數據。這些企業中有些會將來自社交平臺的數據與內部和外部數據相結合,以改進業務流程并推動創新,從而打造由此類平臺的互動所支持的沉浸式體驗。在該過程中,它們逐步獲得競爭優勢并建立全新的業務模式。

互動性社交平臺的價值,源于其具有能在公共平臺上實時揭示買家、賣家和競爭對手等因素的獨特能力。借助此類平臺,企業便可了解圍繞價值鏈的各項因素,從而得到以前無法獲取的深入洞察力。從互動式社交平臺產生的信號中“獲取或學習”是真實可靠的,其影響力非常強大,甚至能創建快速捕捉全球10多億人和企業的日常生活、關注問題、愿望和需求的能力。

精通社交的企業正將從社交平臺中獲取的公開數據融入到業務流程之中,并將此類數據與已有的內部數據或其他公開數據源相結合。在此過程中,它們能夠持續辨別并發現有助于在整個業務流程中做出決策的洞察力。此外,這種綜合數據還能夠為決策者提供更好的情境、深度和執行信心。

我們已經識別了企業可通過融入社交數據改變業務流程的五大職能領域:

銷售與營銷

除了社交傾聽和推送式營銷,現在一些領先企業還將社交平臺用作“預警系統”,幫助它們了解如何、何時以及為何與客戶互動。

USAA 是一家主要服務于軍屬的全球性金融服務機構。它不僅將 Twitter 用作與其分布廣泛的會員進行互動的主要平臺,還將其作為不良運營事件和消費者事件的主要指示器。社交商務副總裁 Renee Horne發現,在社交中圍繞某一具體話題產生的討論峰值,通常預示著將發生可能具有更大下游影響的事件,因此她使用這類信息作為支持運營的預警機制。她的團隊還分析了圍繞負面消費者事件(如零售商數據泄露)發生的社交聊天內容。

研究與開發

消費者驅動型企業也利用該功能更深入地了解潛在客戶和最終客戶的愿望與需求,以便在產品使用周期內做出戰略決策。

傳奇娛樂 (Legendary Entertainment)電影公司就借助社交活動平臺鎖定具有影響力的消費者。“在為角色選演員時,你必須觀看他們之前的作品,與他們的經紀人談話并和曾與他們一起工作的人交流,從而對他們形成一定印象。”傳奇娛樂首席分析官 Matthew Marolda說道,“你為什么不通過社交媒體去了解公眾對他們的看法呢?我們會運用先進的文本分析技術全面分析他們對話中的音調與音色,然后考慮他們是否適合我們要拍攝的電影題材。”

供應鏈

企業正在運用社交數據更好地了解并滿足消費者在某些情況下的非直觀需求。一家全球零售商綜合使用包括天氣、競爭對手的促銷政策、Twitter 信息、經濟統計數據和新聞資料在內的內部與實時公開數據,識別強烈但目前屬于非直觀的需求信號。該公司開發了一套基于算法的形勢引擎,用于針對無法對其進行準確趨勢和季節性預測的特定產品提供非直觀預測。結果是,根據這些實時預測,該公司從根本上重新調整了商品輸送的大規模供應鏈。

規劃部

深入反映用戶日常生活情況的社交平臺對話,可幫助企業和研究人員更準確地了解并預測世界各地的趨勢和事件,使其更具戰略眼光。農業是利用社交數據制訂戰略規劃的領域之一,利用大數據和分析,該行業正在迅速發生著變化。

孟山都公司是一家跨國農業公司,正在尋找可以更好地預測未來消費需求的新方式。由于新產品的育種周期長達15年之久,因此該公司的全球創新與戰略團隊需要預測哪種食品的發展趨勢能夠維持10年。孟山都早在 10 年前便開始了消費趨勢的研究,但那時都是采用掃描的零售與食品服務數據。

該公司發現,在零售級數據到達峰值的前幾個月,零售食品趨勢就開始在 Twitter 等社交媒體平臺上顯示出來。孟山都非常注重了解對食品話題最熱衷且影響力最大的消費者,并與他們進行互動。

行政管理

交互式社交平臺對涵蓋從人力資源到法律合規的內部運營流程具有巨大影響。例如,一流企業使用了內部互動社交平臺,來了解并處理與員工流失、員工保留、雇主品牌推廣和勞資關系相關的問題。它們還采用開放政策所無法替代的方式,以聽取客戶和員工等人群的意見。

一家美國食品與飲料供應商曾對同店銷售額的異常波動感到困惑,因為沒有哪項常規指標能夠給出合理解釋。但是客戶在Twitter上的推文給出了解釋:一旦某商店最受客戶喜愛的員工離職,客戶總會想換一家商店買早點。基于這樣的認識,現在該公司更加注重員工保留項目,除了提供標準的培訓外,該公司還推出了助學金和職業認同等項目。

超越社交傾聽

將重點從傾聽轉移到社交商務的第一步,是找到社交平臺中尚未被開發的價值,也就是從產品開發到政策合規,以及二者之間其他職能領域在內的整個企業內可以實現的價值。

篇11

作為上海報業集團改革后問世的第一個新媒體成果,澎湃新聞自2014年推出以來,其網站、微博、微信公眾平臺及新聞客戶端等多款新媒體產品共同推進,作為傳統媒體數字化轉型的樣本,澎湃新聞的多媒體融合及數字化發展模式具有一定的研究意義。

今日頭條則是完全脫胎于互聯網環境、基于數據挖掘技術的新媒體產品,以移動客戶端為主打產品。自2012年8月上線至2015年12月以來,今日頭條已吸納用戶超過3.5億,且在2014年6月獲得1億美元的C輪融資,并仍保持每天超過3500萬的用戶增長速度。這一基于數據挖掘技術和數據算法來完成的新媒體項目,對媒介融合和新媒體的創新發展也具有可研究價值。

一、平臺:多渠道并進與專注APP的差異

(一)多渠道并進的澎湃新聞格局

媒介渠道是新聞信息流動的通路,合理有效的媒介布局是信息有效傳播的基礎。①向社交媒體平臺延伸已成為傳統媒體應對移動互聯網時代的挑戰、尋求生存渠道必不可少的轉型方式之一。具備多元化傳播渠道的澎湃新聞,不僅注重多平臺內容傳播,也重視不同平臺間的關聯性。基于網絡端與移動端的使用差異,其界面設計和部分細節功能上也有所差異,而且相較于網站或WAP網頁版的運作,澎湃新聞更重視對移動客戶端的推廣,例如其網站首頁右側頂端吸引用戶的位置展示對移動端的推廣信息,首頁右側則放置了微信二維碼提醒用戶掃碼下載客戶端。這種推廣趨勢意在表明,移動客戶端在未來將會成為澎湃新聞的主要推廣平臺,也是其未來應對移動互聯網發展進行多媒體轉型的主要渠道。但重視推廣移動客戶端的同時,與同類新聞客戶端相似,澎湃新聞也在客戶端的文章結尾處提供了微博、微信等社交媒體的分享按鈕,以期以此形成信息的多平臺、多層次傳播。

盡管如此,澎湃新聞以移動客戶端為主要新媒介傳播平臺的渠道戰略趨勢仍較為明確,例如在其新浪微博和騰訊微博的每條博文中,都附有下載移動客戶端的超鏈接,其官方微信賬號的菜單欄設置有“下載APP”的按鈕,且每篇推送文章結尾處也都提示讀者通過“閱讀原文”下載移動客戶端。值得注意的是,除了澎湃新聞的官方微信之外,其運營團隊還推出了包括“市政廳”等與其新聞客戶端的子欄目同名的微信公眾號,并分屬給各自的內容團隊運營,從而形成多平臺緊密聯系又各有專攻的渠道運作結構。

(二)以客戶端為主的今日頭條數據挖掘者

今日頭條平臺最大的特點在于它以自己的客戶端為連接點,鏈接各大新聞門戶網站的熱門新聞,使其以新聞聚合工具的身份出現在媒介市場和公眾視野。根據其對自身“基于數據挖掘的推薦引擎產品”而非新聞客戶端的定位,今日頭條得以運營、推廣和盈利的基礎是技術。如何實現網絡媒體資源的再利用和再傳播是今日頭條的關注焦點。作為新聞聚合類應用,今日頭條的算法模式與美國Prismatic公司有相似之處,即“收集網上資源并排序,這種排序建立在文本分析、用戶喜好、社交網絡普及和大數據分析的基礎之上。”②這與其公司屬性有關:雖然今日頭條是新聞類產品,但其公司六成員工為技術開發人員,使該產品可以根據算法技術對用戶偏好進行較為精準的分析與判斷,并通過智能推薦方式,根據用戶對推送設置的偏好,向用戶實時推送信息。

同時,作為一款社交媒體,今日頭條并不局限于重點打造的客戶端平臺,與澎湃新聞的多媒體關聯運作方式相似,今日頭條的客戶端也通過分享功能將其與自身的微信、微博等其他社交媒體平臺相關聯,為用戶收藏、分享或轉發新聞資訊提供可能。這一方面使用戶成為今日頭條資訊的二次傳播者;另一方面,通過用戶自發傳播的方式,今日頭條也通過其他社交媒體平臺再次推廣了自己的移動客戶端。

二、內容:側重時政與海量信息的差異

(一)專注時政與思想的澎湃新聞

澎湃新聞的定位是“專注時政與思想的互聯網平臺”,以此定位為基礎,“內容原創”成為澎湃新聞致力發展的目標和方向,同時也是其重點打造的核心競爭力。憑借上海報業集團的新聞品牌和公信力優勢,澎湃新聞采集并匯聚大量原創報道,突出內容的獨特性和不可替代性。而且澎湃新聞的采編隊伍依托其傳統媒體――《東方早報》,在內容采編觀念上與傳統媒體“內容為王”的核心理念相契合,使其能夠利用并強化基于紙媒基礎發展起來的深度報道特長,將內容集中在“時事、財經、思想、生活”四個方面,以時政新聞報道為主。同時,澎湃新聞并不拘泥于單一的新聞報道角度,而是多視角、多方面地報道同類新聞。

主站蜘蛛池模板: 日本亚洲视频 | 国产第二区 | 超碰在线久 | 久久福利一区二区 | 希岛あいり中文字幕在线 | a级片免费观看 | 久久久精品免费观看 | 久久久亚洲国产精品麻豆综合天堂 | 久久精彩| 91精品一区二区三区久久久久久 | 在线播放一区二区三区 | 久久精品视频一区 | 91精品国产综合久久福利 | 国产精品国产精品国产专区不蜜 | 天堂电影av | 黄色免费网站视频 | 亚洲精品久 | 久久国产欧美一区二区三区免费 | 最新日韩精品 | a三级黄色片 | 欧美成人在线免费 | 麻豆精品一区二区 | 天堂中文资源在线 | 国产精品久久久久久久久久东京 | 久久一二三区 | 毛片在线播放网站 | 国产精品久久久久久久妇女 | 久久久www成人免费无遮挡大片 | 只有这里有精品 | 亚洲欧美日韩中文在线 | 久久精品日 | 麻豆传媒观看 | 精品在线免费视频 | 日韩视频在线观看免费 | 国产精品视频久久 | 18视频网站在线观看 | 国内精品一区二区 | 亚洲中字幕| 99久久精约久久久久久清纯 | 欧美日韩精品一区二区三区蜜桃 | 成人在线视频网址 |