DSP 週年慶:計畫進度報告

DSP 滿一週歲了。

若從去年九月的公開籌備會議算起,DSP 已經滿一週歲了。

在過去一年之中,我們不但成功舉辦了五次的課程,更主辦、協辦、參與甚至是贊助了眾多的公開活動。(如下圖)

Timeline of CfT and DSP

DSP 計畫是眾人努力的成果,取之於社會,當然要用之於社會。

在過去一年中,我們維持承諾,在每期課程保留三個學費全額補助名額給政府或是非營利組織工作者。

此外,扣除全部開銷,我們還剩下大約四十萬元的結餘款。(細目

DSP 計畫即將轉型,朝一個嶄新的階段出發。

我們想邀請大家集思廣益,幫忙想想要怎樣運用這筆預算,透過 Code for Tomorrrow,替社會做點小小的貢獻。(共筆討論版在這裡

自我挑戰,更上一層樓

null

當你的服務受到市場肯定,因此開始提供更多元的服務,雖然熱鬧風光依舊,但是似乎開始有些對焦不順的感覺,該怎麼辦?

DSP 一開始很單純,只有《團訓班》一種課程,而課程的設計原則是基於「如果一輩子只能上一堂資料分析課」的前提。後來,我們陸續提供新的課程,例如《資料爬理析 Python 實戰班》、《看資料找故事》等等。

課程選擇增加,固然滿足了一些人的學習需求,卻意外造成另外一些人的困擾。不只一位學員問過「我究竟該學哪一門課」或是「我該先學哪一門課」之類的問題。甚至還有企業的老闆問我:「我究竟該派員工去上哪一門課才對?」

這是一個警訊。

因此,我們決定先暫緩開課的腳步。停下來想想下一步該怎麼走,才能超越自我,更上一層樓。

今天秋陽高照,我們和一些對資料科學推廣教育有著共同熱誠的朋友相約於淡水河畔的關渡自然公園。一夥人迎著徐徐涼風,伴隨著蟲鳴鳥叫,重新檢討最基本,也是最重要的學習地圖。

在大自然的懷抱裡,眾人果然妙思連連,靈感不絕。從如何彌補學校教育之不足、滿足業界工作具體需求、各種資料工具的使用、到如何提升學習效率,均有所探討。最後,更是將討論收斂為一張「資料科學學習地圖」。

這張學習地圖將會對映到所謂的資料科學流程 (the data science process),不但能讓組成資料科學團隊的各種角色,清楚掌握本身的相對定位以及發展軌道,還可以讓 DSP 在研發課程時,更精準地定義範疇以及目標受眾。

師者,所以傳道、授業、解惑也。

值此教師節前夕,我們雖不敢以師自稱,但是仍然自我鞭策,要把「傳道、授業、解惑」做得更好。

請大家拭目以待!

大數據探索航空資料-達美航空

2Logo/達美航空、攝影/Jerry

繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,已經成為全世界航線里程與客運機隊規模最大的航空公司。

這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。

Myles Harrison從達美航空的官方網站(Delta.com)取出客機本身的數據,以AIRBUS A330-200為例,就包含巡行航速(Cruising speed)、載客數(Accommodation)等16種可以被量化的資料,像Wi-Fi就可以用Y跟N來做表示,網站上一共提供了44架客機的數據。

※原文中提到的客機型號為AIRBUS A319 VIP,可被量化的屬性共33種。

筆者這邊整理他分析的過程,有興趣可以回到原文去查看他所撰寫的R原始碼。

  1. 進行探索式資料分析(Exploratory data analysis),發現這些數據有許多正相關(Positive correlation)
  2. 接著採用主成分分析(Principal component analysis)進行降維的動作,找到可以解釋85%的數據的主成分。
  3. 最後採用K平均算法(k-means)將數據分成4種群組。

原作整理分析結果如下:

  1. 第1個群組只有一架飛機,就是Airbus A319 VIP,本身就是有錢人才會搭的飛機。
  2. 第2個群組為CRJ 100/200’s、E120 、ERJ-145,屬於載客量較小的飛機。
  3. 剩下3跟4的群組為常見的客機,像是波音757、767等。

看到這也許有些朋友會覺得,哎呀結果看起來沒什麼特別,甚至覺得沒有管理意涵,因為這些客機組合本來就是航空公司會知道的事情,像上述的第1個群組與第2個群組用載客量就可以分辨。

但事實上原作對筆者來看,是充滿想像空間的,我們可以嘗試透過資料組合來做很多事情,筆者針對管理與工程的應用舉出兩個,譬如:

  1. 將乘客資料與這些數據整合一起,找到乘客群組,客製化行銷。
  2. 將每一台維修資料整合一起,找到經常維修的群組,加強客機的維運。

傳統的敘述統計只能幫我們找到單項或交叉的統計數據,但是資料探勘的方法卻是可以找出一堆數據組合的結果,尤其是類別型的資料。在大數據的環境下,可以組合的資料又非常的多,因此筆者認為善用數據組合(Data matching)這樣的概念,並且搭配領域知識,相信可以挖掘到不少好商機。

最後,這篇文章與上一篇最大的不同在於不是告訴我們「做什麼」,而是「怎麼做」,因此可以作為實作的參考文章,對R軟體程式碼有興趣朋友可以回原文觀賞。

參考資料:
PCA and K-means Clustering of Delta Aircraft
Principal component analysis
k-means clustering

原文出處:資料科學實驗室

國際排名Top 50新興大數據服務公司(2014)

1

美國知名通路媒體(CRN),最近整理了2014年國際排名前100大的新興Big Data公司,筆者根據國外論壇報導,整理排名前50名公司來進行分享。

這些公司有65%都在美國矽谷,公司的服務項目包大數據的基礎設施建設、數據分析、數據管理等。值得注意的是,這些公司的平均年齡都小於4年,且服務項目都各有專注,像是Pivotal與Xplenty專門處理Big Data的基礎設施,而Alpine Data Labs與Numerify為數據分析的專業。

繼續閱讀

「2014 台灣資料科學愛好者年會」精彩資料一次讀完

1111

8/30~8/31於中央研究院舉辦的「2014 台灣資料科學愛好者年會」告一段落。

順手整理這兩天的精彩文章、演講與課程的簡報給大家參考!

共8篇文章、16份簡報、6場R課程簡報。

 

文章:

  1. 臺灣資料科學家直擊:當機器學習遇上大資料技術
  2. Data Science Conference 2014 Kicks Off in Taipei Taiwan
  3. Taiwan’s Pioneering Conference on Data Science台灣資料科學愛好者年會: Day 2 Highlights
  4. 臺灣資料科學家直擊:醫療迷思追追追,用健保大資料分析來破解
  5. 臺灣首度舉辦資料科學愛好者年會,傳遞從資料創造價值的理念
  6. 台灣資料科學家直擊:370種遺傳病一測就知!預防醫學如何運用資料科學
  7. 臺灣資料科學家直擊:Gogolook如何貫徹資料科學精神讓LINE母公司願意花6億收購
  8. 全臺資料科學家周末齊聚南港,價值百萬年薪的經驗大公開

簡報:

  1. 開場致詞 — 2014 台灣資料科學愛好者年會
  2. Big-data analytics: challenges and opportunities
  3. 資料、社群、大協作 – 零時政府的數位革命
  4. Z > B 的資料科學
  5. Collaboration with Statistician? 矩陣視覺化於探索式資料分析
  6. 行動廣告與大數據資料分析策略與執行
  7. 健康資料分析與應用
  8. 資料科學於預防醫學之應用
  9. 野生動物喜歡住哪裡?探討野生動物與棲地關係
  10. 資料科學在 Whoscall 產品體系中的角色
  11. 天氣/氣候大數據的應用與展望
  12. 一個賭徒的告白:從預測市場看金融交易
  13. 從 2013 社群網絡活動看台灣社會發展趨勢
  14. 從社群資料來看 工人(群眾)智慧與人工智慧 的結合
  15. 天下武功唯快不破:利用串流資料實做出即時分類器和即時推薦系統
  16. 讓數字說話:資料的公益責信應用

研討會共筆:

R課程簡報:

  1. Basic
  2. ETL (aha)
  3. ETL (jiawei)
  4. Data analysis
  5. Graphics
  6. Rmd

相關課程資料:

  1. https://github.com/TaiwanRUserGroup/DSC2014Tutorial
  2. https://github.com/TaiwanRUserGroup/DSC2014Tutorial/wiki

原文出處:資料科學實驗室

政府和地理資訊業界不想讓你學會的地理資料神奇應用

地理資訊和生活息息相關,應用更是無窮,比方說地理空間資料的分析應用以及近年相當熱門的行動上網適地性應用。既然如此,為何一般人還是覺得地理資訊和自己無關?

有一個可能的解釋。台灣的地理資訊長期處於封閉的狀態,在早年的戒嚴時期,地圖就是管制品,甚至不准帶出國門。解嚴之後,雖然有所開放,但是「地理資訊產業」還是一個屬於少數人參與的鄉村俱樂部,僅有從台灣地理界各大門派出身的人才有機會玩,才玩得起。

政府從 1991 年開始推動「國土資訊系統計畫」,而 2006-2015 的十年計畫總預算更是超過兩百億元

這兩百億新台幣的成果,主要是各種資料的蒐集與整理。以資料種類來分,包括九大類:

  1. 國土規劃
  2. 地籍
  3. 基本地形圖
  4. 環境品質
  5. 交通網路
  6. 公共管線
  7. 自然環境
  8. 生態資源
  9. 社會經濟

這裡面其實有著很多亟富價值的資料,除了圈內人之外,很少人知道它的存在,遑論使用。

地理資料能怎麼用?

我簡單舉幾個例子。

1. 選舉、人口、所得統計(2010年高雄市長選舉投票結果與所得分布比較圖)

2010 年高雄市市長選舉結果與所得分布比較圖

2. 高雄氣爆地圖(事故區域、危險熱點與避難所位置)

高雄氣爆地圖

3. 人類移動的軌跡(Facebook 社交網路地圖

4. 都市計畫與都市更新(資料疊圖與分析)

紐約市都市更新規劃

5. 土地分區查詢(炒地皮和其他用途皆可)

土地分區查詢

6. 生態調查、環境保育(野生動物「路殺」熱點

7. 天災潛勢地圖(你家附近會不會淹水、有沒有土石流)

8. 好愛米(農作物產地與土壤污染地點交叉分析)

好愛米

國際上還有各種五花八門,嚴肅或是趣味的應用情境。

要想一窺地理資訊的面貌嗎?歡迎報名《第一次畫地圖就上手》課程。

《第一次畫地圖就上手》課程開放報名

DSP-GIS

我們生活中所產生或是遭遇的資料,例如人口、交通狀況、土地使用、自然生態與環境、疾病傳染、氣象擴散、災害區位甚至是公共管線分布,很多都和空間有著密切關聯。地圖是構成地理資訊的重要元素,也是表達空間分佈資訊的y重要應用。在實際生活中,我們默默享受了眾多空間資訊所提供的服務,例如導航應用分析、社交網路打卡服務、網路熱點、旅遊網誌,或是常見的「等公車」其實都跟 GIS 的服務息息相關。

若想要愉悅地開始使用這些地理資料,最好先學習兩種知識:地圖和地理資訊系統 (Geographic Information System, GIS)。地圖,可能要包括學習如何「看」地圖和「畫」地圖兩部分。至於 GIS,則是一門整合測繪製圖、資料庫系統、資訊發展、電腦圖學與專業整合的技術。對多數人來說,GIS 是一個不易進入的領域,並不容易取得與應用,因此,本課程的設計為入門級學程,將從介紹地圖與地理資訊系統的原理與基本應用,並帶領學員以個人實作的方式,蒐集、處理、分析及整合地理空間資料,以繪製主題式地圖,完成自己的 GIS 專案!

課程目標

學員應該自我期許,達成下列的學習目標:

  1. 瞭解地圖與認識地理資訊系統基礎
  2. 學會蒐集與分析基本的地理空間資料
  3. 學會繪製主題性地圖、說地圖故事

 課程大綱

  1. 地圖學基礎介紹
  1. GIS 概論
  1. GIS 工具與系統環境準備
  1. 實作:主題地圖製作
    1. 地圖類型
      1. 點類型資料應用
      2. 面類型資料應用
    2. 資料蒐集與工具應用
    3. 地圖雲服務的應用(資料和工具) 

課程報名

  • 上課時間:2014年9月27-28日,10am-5pm
  • 上課地點:台北市內湖區瑞光路 318 號(精誠資訊大樓)
  • 報名網頁

 

如何創造一個由資料驅動的社會、產業、城市與國家

在這個「資料科學」的各種關鍵字(例如巨量資料、開放資料、智慧城市和物聯網)被炒作到歷史高點,成為商業、政府治理、科學研究或是高等教育的顯學或潮學的時節,我很感謝 2014 台灣資料科學愛好者年會的邀請,讓我有機會分享對於創造資料價值、資料驅動的商業管理或政府治理、或是人才培育的一些看法。

我的演講內容大綱如下:

  1. 資料科學在台灣,目前只是一種「幻覺」。
  2. 想要改善現況,創造真正的「市場」,其實是有方法的。
  3. 透過 Code for Tomorrow / DSP 的交叉火力支援,我們設法分頭並進,促成跨界交流、體驗資料價值、展開實際的討論、並開始一點點改變現況的嘗試,這些方法包括:
    1. 開放發展(利害關係人,大家一起來)
    2. 激發資料價值(開放體驗資料應用的價值與潛力)
    3. 資料科學教育(有節奏、有系統地訓練各種專長的資料科學人才)
  4. 拋磚引玉之後,期待各界先進給我們指教,甚至討論各種形式的合作!

簡報檔如下。

資料科學 in 白色巨塔

身為一位統計背景的資料科學愛好者,能夠應用所學來回饋社會是多麼興奮的事。日前到高雄參與 Code for Healthcare ─ 以醫療為主題的跨領域 hackathon,正是貢獻所學的機會。這樣的場合參與成員至少包含:高雄氣爆的受災戶、第一線的救災、醫護人員、醫事、醫務管理人員、資料科學家、系統工程師、設計師。

cfh 簡報似顏繪 made by Cloudie

CfH 簡報似顏繪 made by Cloudie

資料科學是一門實實在在的入世學問,理論與技術專精的資料科學家能夠與第一線的 domain experts 進行團隊合作才能完全發揮該學門的精神。前線人員提出他們面臨的真實問題,透過跨領域團隊合作才能夠提出確實的建議。譬如在這兩天的時間中,我所參與的兩個團隊分別提出:

  1. 高高屏地區緊急醫療能量的初步估計模型;
  2. 利用醫務管理平台的數據提出改善現有流程的建議。

已故劇團國寶李國修先生曾提到:「一輩子做好一件事,就功德圓滿」。透過跨領域的交流,讓不同領域的專家能協力合作,如此一來,成就的豈止一件好事?

本文同步刊載於《讀數一格》。

橫看成嶺側成峰,遠近高低各不同,未識故事真面目,只緣身在資料中

今(8/3)延續第二天的 DSP 課程「看資料找故事工作坊」,一開始由講師嘉凱和柏翰先幫大家暖暖身,複習昨天實作重點,緊接著學員們腦力激盪與資料產生火花,好構思 team project 發展主題。

吳柏翰

一個精彩的故事值得傳頌千古,話說好久好久以前… 但同學們謹記在 pitch 前,先思忖清楚在採購資訊生命週期中,將檢視標的範疇、時程、金額等關鍵欄位哪些是必要或需求的資料盤點,及該用哪個解決方法。有趣的是在聚合多面向資料時,如何將洋蔥層層剝開不流淚,問對問題、找對方向、發掘關連,好在開放資料與海量資料裡直指文本分析脈絡而不迷路。

繼續閱讀