一年一度的奧斯卡(Oacar, The Academy Awards)頒獎典禮已經近在眼前,你看過哪部提名電影呢?有否在心中猜測哪部電影會成為當晚最大贏家?
今年1月,Luminoso Technologies,一家熱衷於人工智能(artificial intelligence)和自然語言處理(natural language processing)領域的科技初創公司,就介紹了一種文本挖掘(text mining)的方法,來預測奧斯卡趨勢。

該公司分析了IMDb上2013-2015年每年前50名最受歡迎的影片的用戶影評,試圖觀測出用戶評價語言中的一些概念和該年最終的奧斯卡(Oscar)獲獎名單之間是否存在著相關性(correlation)。
Luninoso的軟件發現某些概念,例如「cinematography」(攝像藝術)、「masterpiece」(傑作)、「stunning」(驚歎的)、「visuals」(視覺)、「experience」(體驗),與受到提名的影片(nominated films)有著高相關性。
而像「narrative」(敘述)這類的概念則與提名影片低相關。一些概念,例如「CGI」(Common Gateway Interface通用網關接口)、「horror」(恐怖),則有著負相關。
Luninoso於是繼續用它建立的數學模型,挖掘了2016年許多影片的84,058個影評,得到了一個高可能的提名名單:
- Jackie
- Moonlight
- La La Land
- Fences
- Sully
- Hell or High Water
- Silence
- Snowden
- Hacksaw Ridge
- The Jungle Book
- Arrival
- Nocturnal Animals
- Manchester by the Sea
從發佈的奧斯卡提名(Oscar Nominations)名單來看,這個預測對趨勢的把握還是有一定準確度的。“Moonlight”、“La La Land”、“Manchester by the Sea”、“Jackie”等都榜上有名,機具熱度。

“Moonlight”已經獲得了金球獎(Golden Globes)的喜劇類的最佳影片,“La La Land”則獲得喜劇/音樂劇上的最佳影片。
Eric Pendleton,Luninoso的產品培訓經理,聲稱他對本公司的預測有80%的信心。該文本挖掘(text mining)的算法用於2013-2015年的電影時,只有在三部影片上失算:“Begin Again”、“The Great Gatsby”和“The Danish Girl”。
這個人工智能軟件是基於概念開發的,而不是關鍵字(keywords),也就說,它挖掘的不僅是例如“masterpiece”這個詞,而是與之內涵相似的詞彙,及與之相關的所有話題。
同時,該算法嚴格避免馬後炮的嫌疑,只分析奧斯卡提名前的影評,每年如此;也排除了“奧斯卡”相關的概念。
和解決方案工程師Dan Mitus一起做出此研究的Eric Pendleton表示, 「在開始的時候,我們並不知道我們會挖掘出什麼規律」。
這就是一個自然語言處理(natural language processing)系統和文本挖掘(text mining)模型能夠處理大量非結構化數據的案例。

當然,奧斯卡究竟花落誰家,此時此刻我們不得而知,主觀性的審美體驗難以用數據分析的方式一言概之。然而,數據分析(文本分析也是一種數據分析)依然為我們提供了一個巧妙的視角,得以對許多問題管窺一二。
(資料參考自http://variety.com/2017/digital/news/oscars-data-forecast-jackie-best-picture-1201957187/)
如果你對大數據分析有興趣,請於下方訂閱我們的博客,或者關注我們的Facebook:/bigdataism; Instagram: @bdanews,或者發送郵件至info@bigdatarchitect.com與我們預約見面時間