class: title-slide .bg-text[ # Introduction to Data Science with R ### week.2 <hr /> 3月 4, 2021 謝舒凱 台大語言所 ] --- # 課程資訊 - [課程網頁](https://rlads2021.github.io/) - Office hour: 週四課後 (請先 email 預約 `shukaihsieh@ntu.edu.tw`) - TA hour: TBA --- # 今天主題 - 資料科學與文本分析導論 - R 基本語法 --- # 相關教科書 - 每個出版社有自己的定位與規劃,挑自己喜歡的系列 <img src = 'img/books.png'></img> --- # 為何學習資料科學? ### Why Data Science? --- background-image: url(../img/emo/boredom-small.png) --- ## 我們活著的時代背景:Data is the KING [How much data is generated every minute?]( https://www.socialmediatoday.com/user_media/diveimage/18_domo_data-never-sleeps-7-01.jpg) [How Much Data Is Created Every Day in 2020?](https://techjury.net/blog/how-much-data-is-created-every-day/#gref) --- ## 我們活著的時代背景:罕有的線下人生 `行動`、`嵌入`、`穿戴`、`社群`、、、 - 當人變成了巨量數據的集合: 物聯網,車聯網,衣聯網,腦聯網 - 我的 * 不是人(理專、男友、教練、老師、看護、司機)(老闆?) <img src = 'img/lifeatnet.jpg' scale="7px"></img> ??? 線下人生,何時才能【下網】? --- ## Data 》 Information 》 Knowledge - 不同類型的數據 > Biological signals, music, images, video, customer reviews, webpages, medical records, software, game logs, social networks, environmental signals, astro-data, neuron spikes, etc. - 主要大類型:訊號、符號與符碼 Symbols/Signs and Signal - 如何從「資料」(數據)中得到「資訊」,進而累積「知識」。 --- ## 資料科學在做什麼 > This frontier is expanding vastly thanks to new developments in mathematical modelling, algorithms, data management and computing infrastucture. It is having a profound impact not only in science and medicine, but also in e-commerce, marketing, humanities and society at large. Inference and learning with massive datasets is also the key ingredient of the intelligent machines of the future. - 一句話:把數據變成資訊以供`預測應用`/`產生價值`/`累積知識`的科學 --- ## Data Science : `A mashup of disciplines` <img src = 'img/ds7.png' scale="50%"></img> --- ## Data Science Processs Flowchart `(source: wiki)` <img src = 'img/ds_flow.png' width ="80%"></img> --- ## 資料科學任務化 OSEMM MODEL .left-column[ -【獲取】Obtaining data -【整理】Scrubbing data -【探索】Exploring data -【建模】Modeling data -【詮解】Interpreting (and reporting) data ] .right-column[ <img src = 'img/dslife.png' width ="75%"></img> ] ??? 重要的圖表 --- <img src = 'img/dswork.png' scale="80%"></img> --- ## 如果要處理的數據是語言文本訊息呢 ##### | Text analytics / Text mining / NLP / Machine Learning 文本數據分析:利用 `自然語言處理 + 機器學習` 對於文本數據做各種預測與應用。<br> 但注意不同層次: -- - [**Data Science**] Linguistic/textual `data` processing - [**Natural Language Processing**] Linguistic/textual `information` processing - [**Semantics, Ontologies, AI and Language Understanding**] Linguistic/textual `knowledge` processing -- 應用: > 七情六慾、消費口味、監控信用風險、工作面試、醫療保險、戀愛與犯罪機率、偏見、誤解、私心、運動模型、新聞宣傳、法律專利、博弈、線上聲譽、(reputation.com)、市政感想、生醫文獻搜尋 (Quertle)、選情預測、顧客滿意度、。。。 -- .footnote[slido brain-storming: 還有什麼是文本數據的應用領域?] --- ## 有種簡單的說法 <img src = 'img/textanalytics.png' width = "70%" margin = "0 auto" ></img> ??? This course will provide an introduction to this exciting growing cross-disciplinary field. It will teach the basic principles and skills required for analysing textual data in a programmable way: finding linguistic patterns, dimensionality reduction, clustering, classification and prediction. Students will also have the opportunity of learning R (and command-line programming). --- ## 但,各種數據的匯合愈玩愈大 ### | DS and BIG data, and Dataclysm -- - **資料排氣** (data exhaust): 行車時手機的 GPS 回報所在位置;信用卡購買紀錄;Google 搜尋記錄追蹤;FB 人際互動;智慧電錶記錄能源使用。 -- - 根據手機上的資料,就能預測距今一年半後你會出現在何處。精準度為一個小時內,一條街以內。 -- - <font color = "blue"> **無所不在的感知器** (sensor)</font>: 根據膚電反應(皮膚導電性)測量你對某項活動的興趣或投入程度 (Q Sensor); 根據你說話的語氣和抑揚頓挫預測與偵測心情起伏 (Cogito);... --- ## DS 的應用潛力 - 發掘知識 / Knowledge Dscovery <!-- 妳是負責追蹤麥當勞的分析師 有新店要開張,它必須向聯邦通訊委員會申請設立得來速 窗口對講機系統的執照,藉由發照資料,你可以追蹤開店狀況,但妳可能不知道這一點。讓資料找上妳! --> - 繁榮商業應用 / Data Science for Business - 促進開放政府與開放社會 / Data Science for Social Good - *PRISM Program* 網路全民監控 <> http://enigma.io - (http://data.gov) (http://data.gov.uk) (http://data.taipei/opendata) - [College Scorecard](https://collegescorecard.ed.gov/) 哪一所大學讓你獲得最高的投資報酬率。 <!-- 食安、能源、運輸、醫療、地產、通訊、教育 --> - 網路安全與黑資料(源源不絕) - 巴拿馬文件 - Ashley Madison - `Deep web` (暗黑網路) --- ## DS, AI and Cognitive Computing #### 與 AI / 認知計算的整合趨勢 <img src = 'img/ds5.png' scale="50%"></img> --- ## Brain/Human-Machine Interface <img src = 'img/ds6.png' scale="50%"></img> --- ## 重新思考人際計算應用 ### | re-engineering online dataing algorithm (OkCupid/Tinder/... <img src = 'img/okcupid.png' width = "70%" margin = "0 auto" ></img> --- ## 資料科學家炙手可熱 .pull-left[ <img src = 'img/ds1.png' scale="50%"></img> ] .pull-right[ <img src = 'img/ds2.png' scale="50%"></img> ] --- ## Pays well 💰 僅供參考 <img src = 'img/ds3.png' width = "80%"></img> --- ## [思考.1] 數據個資保護與偏見 ### | Data is the new oil, privacy is the new currency - 便利與透明的兩難 - 用 `RedLaser` 掃描該產品的條碼,它會立即告訴妳此商品在附近商店的售價(代價:給出妳的位置、購物項目) - 願意公布個人資料,可以協助理解人口類型、預測大規模流感、控管交通、節省能源、等等。 - 演算正義:【`好書推薦`:大數據的傲慢與偏見 weapons of math deconstructions】 --- ## [思考.2] DS and Thick Data ### |資料科學與厚數據:資料科學中的質性研究法 - 大數據的量化方法需要經過正規化/標準化的資料處理,無形中剔除數據中隱含的 `背景、意義` 和 `故事`。 (e.g, 斷裂的言談) -- - 藉助少量樣本、依賴人的學習能力(而非機器學習)、體現數據關係背後的社會文化、行為動機、包容不可被化約的複雜性。(e.g. 眨眼的人類學觀察) <img src = 'img/baigong.jpg' height="20%" width="20%"></img> --- ## 這門課希望你學習與培養的能力 - 數感(含統計知識)與邏輯思維 - 程式設計與解題 (problem-solving) - 想像力與人本思維 - 自然語言處理與機器學習(e.g. 深度學習神經網路)入門 進修職涯: http://www.mastersindatascience.org/careers/data-scientist/ --- 有程式基礎想要開始做專題的同學可 [參考之前作品](https://sites.google.com/view/rlads-projects) <img src = 'img/dsr.proj.png' scale="50%"></img> --- class: inverse, center, middle, title-slide # 實作第一步 --- ## 語言與翻譯 設定好解譯器;學習它的語法、語意 - 認識指令環境 - `R` and `Markdown` (參考 [`rmarkdown`](https://rmarkdown.rstudio.com/)) - 熟悉編輯器 (`Rstudio`, `VScode` 都很推薦) (`vim` 真心推坑) -- - 初見面:典型的 R code ![:scale 70%](img/rcode.png) --- # Rstudio and Base R - See notebook [week2.note]('week2_note.nb.html') --- # DataCamp 閱讀與練習作業 > There is a massive disconnect between what is taught in universities and what is done on a daily basis at startups. > 哈勒凡:享受自學就不怕市場劇變! - 先用台大的 email 登記 - (`R 基礎`:期中考前 70 小時自學微課程) --- # 本週線上練習 <img src = 'img/datacamp1.png' scale="50%"></img> --- ## Reference - [Data Science - A Complete Introduction](https://www.omnisci.com/learn/data-science)