Return to site

如何利用文本挖掘(Text Mining)

預測奧斯卡花落誰家

一年一度的奧斯卡(Oacar, The Academy Awards)頒獎典禮已經近在眼前,你看過哪部提名電影呢?有否在心中猜測哪部電影會成為當晚最大贏家?

今年1月,Luminoso Technologies,一家熱衷於人工智能(artificial intelligence)和自然語言處理(natural language processing)領域的科技初創公司,就介紹了一種文本挖掘(text mining)的方法,來預測奧斯卡趨勢。

該公司分析了IMDb上2013-2015年每年前50名最受歡迎的影片的用戶影評,試圖觀測出用戶評價語言中的一些概念和該年最終的奧斯卡(Oscar)獲獎名單之間是否存在著相關性(correlation)

Luninoso的軟件發現某些概念,例如「cinematography」(攝像藝術)、「masterpiece」(傑作)、「stunning」(驚歎的)、「visuals」(視覺)、「experience」(體驗),與受到提名的影片(nominated films)有著高相關性

而像「narrative」(敘述)這類的概念則與提名影片低相關。一些概念,例如「CGI」(Common Gateway Interface通用網關接口)、「horror」(恐怖),則有著負相關

Luninoso於是繼續用它建立的數學模型,挖掘了2016年許多影片的84,058個影評,得到了一個高可能的提名名單:

  • Jackie
  • Moonlight
  • La La Land
  • Fences
  • Sully
  • Hell or High Water
  • Silence
  • Snowden
  • Hacksaw Ridge
  • The Jungle Book
  • Arrival
  • Nocturnal Animals
  • Manchester by the Sea

從發佈的奧斯卡提名(Oscar Nominations)名單來看,這個預測對趨勢的把握還是有一定準確度的。“Moonlight”、“La La Land”、“Manchester by the Sea”、“Jackie”等都榜上有名,機具熱度。

“Moonlight”已經獲得了金球獎(Golden Globes)的喜劇類的最佳影片,“La La Land”則獲得喜劇/音樂劇上的最佳影片。

Eric Pendleton,Luninoso的產品培訓經理,聲稱他對本公司的預測有80%的信心。該文本挖掘(text mining)的算法用於2013-2015年的電影時,只有在三部影片上失算:“Begin Again”、“The Great Gatsby”和“The Danish Girl”。

這個人工智能軟件是基於概念開發的,而不是關鍵字(keywords),也就說,它挖掘的不僅是例如“masterpiece”這個詞,而是與之內涵相似的詞彙,及與之相關的所有話題。

同時,該算法嚴格避免馬後炮的嫌疑,只分析奧斯卡提名前的影評,每年如此;也排除了“奧斯卡”相關的概念。

和解決方案工程師Dan Mitus一起做出此研究的Eric Pendleton表示, 「在開始的時候,我們並不知道我們會挖掘出什麼規律」。

這就是一個自然語言處理natural language processing系統文本挖掘(text mining)模型能夠處理大量非結構化數據的案例。

當然,奧斯卡究竟花落誰家,此時此刻我們不得而知,主觀性的審美體驗難以用數據分析的方式一言概之。然而,數據分析(文本分析也是一種數據分析)依然為我們提供了一個巧妙的視角,得以對許多問題管窺一二。

(資料參考自http://variety.com/2017/digital/news/oscars-data-forecast-jackie-best-picture-1201957187/)

如果你對大數據分析有興趣,請於下方訂閱我們的博客,或者關注我們的Facebook:/bigdataism; Instagram: @bdanews,或者發送郵件至info@bigdatarchitect.com與我們預約見面時間

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly