background-image: url(https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRfKKJz5kJwDAWH-gQcpJbR4CcqHORtcMgkog&usqp=CAU) background-position: center background-size: cover class: title-slide .bg-text[ # Introduction to Programming and Data Science with R ### Topic Modeling and Sentiment Analysis <hr /> 6月 3, 2021 謝舒凱 ] --- ## Some administrivia .large[ - [w15] 情感分析簡介 Sentiment analysis ] - [w16] 期末專案討論 + 助教示範 - [w17] 期末專案報告 - [w18] 上傳報告、程式碼(與系統網址)與投影片 --- background-image: url(../img/emo/boredom-small.png) --- ### 文本分析與自然語言處理任務 | Recap <img src="nlp-nlu.png" alt="Drawing" style="width: 650px;"/> --- ### 機器學習模型演變 | ML paradigms <img src="nlp-nlu-2.png" alt="Drawing" style="width: 700px;"/> [來源](https://medium.com/@giacomo.veneri/natural-language-processing-tutorial-with-sota-2020-python-packages-2a9817952903) --- ## 情感分析 | sentiment analysis 又被稱作輿情分析 (opinion mining) - 是個結合文本分析、自然語言處理、機器學習的熱門任務,應用廣泛。 - 在 NLP 脈絡,<span style="color:brown">情緒 (emotion) 是類別 (category),情感 (sentiment) 是極度 (polarity)</span>。 - 在當前火紅的 **social listening**, **social media marketing** 是核心的技術。 - 隨機挑一間[新創](https://brand24.com/) 看看 --- ## 討論 - `hashtag`, `mentioned` 的問題與限制 - 命名實體(named entity,人名、商品等專有名詞) 的變異與指涉辨識 (e.g., .small[種花電信]; .small[維尼]) - 指向性的問題 | aspect-based sentiment analysis (e.g., .small["天氣糟透了,但住的地方還不錯!"]) - 指代性的問題 | anaphora resolution (e.g., .small["我們先去看了一間博物館,逛了一堆免稅商家",那真是爆幹無聊~]) - 嘲諷語氣 | sarcastic and ironic tone --- ## 語言分析很重要 - 情緒語言的表達:表面膚淺,實質複雜。 - 實例:電信服務網路評論 <img src="cht.png" alt="Drawing" style="width: 500px;"/> [更多例子](https://lopentu.github.io/casa/context_vis_token.html) --- ## 情感分析演算 - 辭典法 | lexicon/pattern-based - 機器學習法 | supervised machine learning (有興趣者自己再往前修課) - 提供[中文情緒辭典](https://rlads2019.github.io/lecture/16/ch.senti.lex.csv) 給大家用 --- ## R 實作 - 入門可以[跟著做](https://juliasilge.shinyapps.io/learntidytext/#section-shakespeare-gets-sentimental);也可參考 Silge 近期對[動物森友會](https://juliasilge.com/blog/animal-crossing/)的稍微進階的情感分析。 --- ## Kaggle [資料科學的實作學習的聖地](https://www.kaggle.com/) --- ## 目前研究趨勢 - 自動找最佳參數的模型 | Sentiment analysis with `Autokeras` - [python 版](https://github.com/PacktPublishing/Automated-Machine-Learning-with-AutoKeras/blob/main/Chapter07/Chapter7_IMDB_sentiment_analysis.ipynb) - [R](https://r-tensorflow.github.io/autokeras/) - 深度語言分析與可解釋性模型建構 (Hsieh et al. 2021) > [語言學三分鐘入門](https://smltar.com/language.html#linguistics-for-text-analysis): "Data scientists involved in the everyday work of text analysis and text modeling typically don’t have formal training in how language works, but there is an entire field focused on exactly that, linguistics." --- # 專題思考方向 <span style="color:brown">捉住重點</span> - 打算回答什麼問題 - 資料來源(合法性、樣本數) - 探索分析(前處理、基本統計與作圖) - 模型建立與前端設計