• Description

過去科技產業中,工程師往往利用經驗法則來判斷是否需要停機,或是判斷參數設定的高或低,往往不良率不降反增,即使不良率下降,幅度也在3%以內,這就是一個嚴重的記憶偏見與經驗法則造成的錯誤,尤其科技產業中的晶圓是一個精密且複雜的製程,當有任何一環節產生小誤差,就容易造成嚴重的損失;再者有些差異是實際上並沒有發生,是自然變異造成的差異;又可能實際上已出現差異,變化幅度過小並非工程師能辨識。若透過統計方法來分析數據,這遠比人們利用經驗法則,搭配記憶偏頗的錯誤決策來得有效。當進入工業4.0的時代,一個從自動化進入至智能自動化的工業大革命,已經不單是利用數據與統計管理產線,更進到邏輯與人工智慧管理產線的時代。

科技日新月異,無止盡的資料不停地產生,無論是機台參數變化或者是銷售紀錄的不斷寫入,即時存取的能力相當重要,如此才能因應快速變化的市場環境。隨著計算機的存取與運算能力日益提升,或許即時的資料蒐集已不是瓶頸,但是搜集過來高達數千萬筆,甚至上兆筆的資料量,結合手機、數位平台、社群平台、網路、電話、信用卡交易紀錄,消費者行為與市場動態的活動也能被清楚掌握,所以如何有效處理、篩選有用資訊、將爆炸性的資料(大數據Big Data;又稱巨量資料)有效的分析並轉換成有用的知識,並結合決策代理人系統成為現今最重要的課題。

其實巨量資料簡單來說就是一個非常接近於母體的樣本,蒐集到如此龐大的資料,如果未透過統計方法及大數據機器學習演算法來進行處理,這些只是公司的資產。再者,資料未經前處理過程,結合該領域的domain知識、有效判讀欄位參數對於目標的貢獻度,仍是GIGO (Garbage In Garbage Out)無法提供對企業有效的效益,再者透過大數據的方法主要以萃取其隱含的知識,並去驗證其效益以確立對7

 

企業的貢獻度。我們常見的資料型態為已定義欄位格式的結構化資料,但其實巨量資料隱含更重要的問題:「非結構性」資料,其主要原因在於巨量資料也包含來自於網路、社群網站、線上行為的紀錄、文字檔或影像檔。其中網路資訊包含大量的自然語言、網路用語、口語或地方性方言,即時出現又短暫消逝的新興詞彙,一般除了特定的幾種關鍵字外,往往最多只能透過詞性,分割至單詞的程度而無法繼續執行與分析,了解其文本關聯性。

資料科學家皆期盼在茫茫的資料,透過數據分析挖掘隱含的知識,短期可以作為預測;長期可以作為企業思維、營運策略。本書採用Polyanalyst深入探討大數據研究原因在於:軟體採用物件圖控式建模,入門門檻較低,方便學習、模型操作歷程與知識思維可保留,降低流程再造的時間耗費、模型參數可自動由AI決定,針對資料提供較適合的參數情況,提高分析品質、文本支援16國語言,且系統辭庫高達兩兆。

本章節介紹大數據的定義與特性;並強調大數據背後的基底「資料探勘(Data Mining)」,因大數據分析並非將巨量資料直接進行分析,而是透過資料處理降低資料維度後,再以資料探勘手法進行資料分析,獲取有價值的知識;及概述大數據分析的特性、流程、概念與應用以及可視化的重要性;在本章節的結尾描述市面上最常用的“PolyAnalyst”軟體介紹,本軟體除了支援數值分析與文本分析外,更結合RPython,可相互比較,另外有許多新穎的擴充功能讓使用者迅速應用,此軟體以簡易的操作模式及可視化流程,提供資料科學家便捷的分析平台,更強大的地方在於物件式的操作模式讓一般無程式背景的新手也能快速上手,並具有分析效益的功能,以解決至今每一公司的關鍵課題:時間與成本最小化,Polyanalyst於資料分析市場上佔有舉足輕重的位子。

第一章導論

1-1 大數據(BIG DATA)分析的定義

1-2 資料探勘的定義

1-3 大數據的特性

1-4 大數據流程與架構

1-5 大數據的應用

1-6 數據可視化的重要性

1-7 POLYANALYST基本介紹

 

第二章資料前處理方法及應用

2-1 資料準備及匯入

2-2 資料整合(DATA INTEGRATION)

2-3 資料清理(DATA CLEANING)

2-4 資料轉換(DATA TRANSLATION)

2-5 資料縮減

 

第三章數據分析方法及應用

3-1 資料分割

3-2 預測(PREDICTING)

3-3 分類(CLASSIFYING)

3-4 關聯(ASSOCIATION)

3-5 群集(CLUSTERING)

 

第四章文本分析方法及應用

4-1 文本分析之架構

4-2 文本分析之實作

 

第五章實作與範例

5-1 汽車油耗預測分析

5-2 產業關鍵機台GOLDEN PATH分析

5-3 半導體DRAM(記憶體)市場價格預測

5-4 機車設計優劣BBS文本分析

5-5 高教校務分析

5-6 市政府市民問題文本分析

5-7 法院判決書行為文本分析

 

第六章結論

6-1 資料分析的痛點

6-2 大數據架構總結

6-3 資料分析各軟體之差異分析

6-4 POLYANALYST/R/PYTHON之實作差異分析

 

附錄

I 軟體架構

II 安裝程序

III 檔案匯出與匯入

IV RPYTHON之應用

V POLY結合RPYTHON

VI POLYANALYST小功能

VII 統計概述