選舉大數據不似預期?

big-data-and-microtargeted-political-ads-in-election-2012-the-challenge-ahead-2

即使有白宮群英出謀獻策、荷里活巨星在社交網絡吶喊助威、各大主流傳媒亦近乎義無反悔地一片唱好,希拉莉最終仍黯然落敗,特朗普成為美國第45任總統,於是有人不禁問:「如果大數據可預測未來,為何今回美國大選的結果,不單止不似預期,而且還要相差得那麼遠?」

坊間有不少人歸咎大數據出錯,但其實這是大錯特錯,首先,大部份人著眼中的民調,只不過是抽樣調查的「小數據」,所謂的大數據分析,除了數字樣本要有一定數量和代表性,同時,還要有多個數據源作數據模型分析比較,歷史數據及即時數據變動,兩者同樣重要。主流傳媒或者是希拉莉團隊的大數據分析、數據模型未必有錯,問題可能出於,數字樣本的全面性、可靠性,以及該團隊如何演繹大數據。

現在才說當然有點事後孔明,但正所謂勝者為皇,根據Cambridge Analytica這家特朗普背後的數據軍師的說法,主流民調以外,他們更集中注意力在主要支持者及捐款人的數據分析,從而推論出其他的潛在支持者所在之處,當中的投票人口,又會否在投票日出來投票,繼而在Facebook打針對性的廣告,外間以為特朗普陣營在Facebook不及對手活躍,其實不然。

然後又有人問:「為什麼我在Facebook上看到的,都是一面倒希拉莉氣勢如虹的消息?」這是今屆美國大選的另一個有趣現象,同時亦反映了目前Facebook的一大缺點。首先,由於被民調唱好希拉莉,不少傳媒也隨著不少人的主觀願望,繼續順水推舟,發表更多相關的正面消息。同時間,Facebook背後的運算機制,亦只會把與你有共同興趣,或者是相近取向的朋友的內容推送給你,不自不覺地,你自己變成了一個偏食兒童,你還是懵然不知。

最後,網絡假新聞和社交網絡造謠,同樣是今屆美國大選值得注意的現象,選舉過後,Facebook和Google都分別發表相應的對策,譬如禁止這類不良內容打廣告,雖然,此舉說易行難矣。

大數據老早預測特朗普是贏家?

screen-shot-2016-11-14-at-10-52-56-am

(圖片來自New York Times

話說上回美國總統奧巴馬成功連任,整個競選團隊在熱烈地彈琴熱烈地唱之際,《時代》雜誌有個專題報道,讓背後的幕後功臣亮相,訴說他們的威水史,其中包括負責處理大數據的團隊。期間,「大數據」此一專業術語便急速冒起,印象中更有人指出這是首個靠大數據及社交媒體數據獲勝的總統大選;自此大數據亦成為普羅大眾閒話家常的話題。

有了成功案例借鏡,今屆美國大選,民主黨候選人希拉里相信也有循着接近的路向,甚至以相同的班底,為競選進行形勢分析與策略部署,當然還少不了社交網絡的造勢。選舉前夕,網絡提供的民調數據還在告訴大家,希拉里形勢一片大好。事實上,被這些數字影響,一同唱好的,還有不少主流媒體。

執筆之時,大選結果已塵埃落定,特朗普戲劇性地以大比數勝出,除了令全球譁然,更重要的是,一下子大家對所謂的民調、社交網絡口碑在選舉前所產生的錯覺,無可避免地打了不知多少個問號。為何網絡世界告訴我們的事實,居然會與現實相差得這麼遠?

數字不會騙人,但數字的由來、數字的代表性,其實都不能視為絕對的答案,因為說穿了,人心難測;更何況今次選舉,部分搖擺州份都沒有數據可尋,那些平日不上網不玩社交媒體的長者,亦可能是特朗普鐵票的來源。

近年大數據幾乎成為營銷及廣告行的潮語,我更聽說有廣告公司打着大數據之名,認為有數據就好辦事。數據除了可以幫助客戶預測未來,更可助他們制定成功策略,彷彿數據就是答案。最可怕的是,更聽到有創意主導的廣告公司,積極推動以大數據分析大創意,有了大數據,那些天才創作人都隨時要被淘汰。

到底單靠網絡民調,以及社交媒體的「民意」分析,這些大數據是否足以幫助總統候選人勝出?事實上,特朗普陣營其實也有聘用數據分析師,而那一方的專家也有透露,其陣營早已勝券在握,在Twitter上的支持度更有增無減。不過在主流傳媒、明星造勢方面,其聲浪始終不及希拉里陣營大。

經過這次大選,無論是政壇中人又或是主流傳媒,相信會重新衡量,大家是否都躲在象牙塔太久,而未能真正了解民情?民調及社交網絡所反映的世界,其實又是否真的是主流民意?

《原文刊登於2016年11月11日晴報,本人是此文作者》