Return to site

大數據入門詞彙匯總

數據處理:

Cloud computing (雲計算):構建在網路上的分散式運算系統,數據是存儲於機房外的(即雲端)。

Data cleansing (數據清洗):對數據進行重新審查和校驗的過程,目的在於刪除重複資訊、糾正存在的錯誤,並提供數據一致性。

Data mining (數據採擷/數據挖掘):從數據集中發掘特定模式或資訊的過程。

Data modelling (數據建模):使用數據建模技術來分析數據物件,以此洞悉數據的內在涵義。

Data virtualization (數據虛擬化):數據整合的過程,以此獲得更多的數據資訊,這個過程通常會引入其他技術,例如數據庫,應用程式,檔案系統,網頁技術,大數據技術等等。

ETL技術: Extract, Transform and Load (提取-轉換-載入):是一種用於數據庫或者數據倉庫的處理過程,即從各種不同的數據來源提取(E)數據,並轉換(T)成能滿足業務需要的數據,最後將其載入(L)到數據庫。

Predictive analysis (預測分析):大數據分析方法中最有價值的一種分析方法,這種方法有助於預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的數據集,例如歷史數據,交易數據,社交數據,或者客戶的個人資訊數據,來識別風險和機遇。

Outlier detection (異常值檢測):異常值是指嚴重偏離一個數據集或一個數據組合總平均值的物件,該物件與數據集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。

高性能計算 (HPC: High-Performance-Computing):使用超級電腦來解決極其複雜的計算問題。

框架與系統:

Distributed File System (分散式檔案系統):提供簡化的,高可用的方式來存儲、分析、處理數據的系統。

Hadoop:一個開源的分散式系統基礎框架,可用于開發分散式程式,進行大數據的運算與存儲。

Hadoop 數據庫 (HBase):一個開源的、非關聯式、分散式數據庫,與Hadoop框架共同使用。

HDFS:Hadoop Hadoop Distributed File System (分散式檔案系統);是一個被設計成適合運行在commodity hardware (通用硬體)上的分散式檔案系統。

MapReduce:是處理大規模數據的一種軟體框架(Map: 映射,Reduce: 歸納)。

大規模並行處理 (MPP: Massively Parallel Processing),同時使用多個處理器(或多台電腦) 處理同一個計算任務。

SQL:在關係型數據庫中,用於檢索數據的一種程式設計語言。

NoSQL:顧名思義,就是“不使用SQL”的數據庫。這類數據庫泛指傳統關係型數據庫以外的其他類型的數據庫。這類數據庫有更強的一致性,能處理超大規模和高併發的數據。

即服務:

SaaS,(Software-as-a-Service軟體即服務):基於Web的通過流覽器使用的一種應用軟體。

Database-as-a-Service (數據庫即服務):部署在雲端的數據庫,即用即付,例如IBM Cloud Service (IBM雲服務)。

PaaS,(Platform-as-a-Service平臺即服務):為雲計算解決方案提供所有必需的基礎平臺的一種服務。

BDaaS,(Big-Data- as-a-Service大數據即服務):各種在雲端上進行的大數據服務,包括數據供應,挖掘數據的分析工具供應(常通過一個儀錶盤或者控制板),數據分析本身,以及報告的生成。一些BDaaS還會涵蓋咨詢服務。

數據相關熱門:

Internet of Things (物聯網):在普通的設備中裝上感測器,使這些設備能夠在任何時間任何地點與網路相連。

RFID,射頻識別:這種識別技術使用一種無線非接觸式射頻電磁場感測器來傳輸數據。

Machine learning (機器學習):人工智慧的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。

Natural Language Processing (自然語言處理):是電腦科學的一個分支領域,它研究如何實現電腦與人類語言之間的交互。

Network analysis (網路分析):分析網路或圖論中節點間的關係,即分析網路中節點間的連接和強度關係。

數據:

Complex structured data (複雜結構的數據):由兩個或多個複雜而相互關聯部分組成的數據,這類數據不能簡單地由結構化查詢語言或工具(SQL)解析。

Data set (數據集):大量數據的集合。

Log file (日誌檔):由電腦系統自動生成的檔,記錄系統的運行過程。

Machine2Machine data (M2M數據):兩台或多台機器間交流與傳輸的內容。

Machine data (機器數據):由感測器或演算法在機器上產生的數據。

Metadata (中繼數據):被稱為描述數據的數據,即描述數據數據屬性(數據是什麼)的資訊。

Real-time data (即時數據):指在幾毫秒內被創建、處理、存儲、分析並顯示的數據。

Dashboard (儀錶板):使用演算法分析數據,並將結果用圖表方式顯示於儀錶板中

如果你對大數據分析有興趣,請於下方訂閱我們的博客,或者關注我們的Facebook:/bigdataism; Instagram: @bdanews,或者發送郵件至info@bigdatarchitect.com與我們預約見面時間

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly