哈囉! 我是林子謙,這裡紀錄我在這門課的學習歷程
Hi, Welcome! This is Chien Lin's space to record what has learned in this class.
- 介紹課程 intro
- 建立 GitHub 帳號 Set up a GitHub accoount
- 安裝 Jupyter Notebook Install Jupyter Notebook
- 回家作業 HW00
清明連假 Qingming Holiday
- 構想作業架構 building HW01 structure
- CRM 議題實例介紹 introduction of CRM
- 資料科學家 Data analysts
- 資料視覺化 Data Visualization
- 回家作業 HW01
- 認識資料與視覺化 EDA and Visulation
- 從視覺化資料中提出問題,並運用資料解決,逐步建立觀點。
- 回家作業(修改) HW01-03
- 數值資料預處理 preprocess data
- 從臉書社群經營預測選情
- 臉書發文性價比值:發文的質與量抉擇
- 新聞媒體情緒指標:主流媒體的影響力
- 潛在狄利克雷分析:文章的議題類別
- 從臉書社群經營預測選情
- 南山理賠服務及理賠再購資料探索分析 Exploratory Data Analysis of Nan Shan Claims Service and Claims Repurchase
- 數據分析使服務更精準,客製化使服務有市場區隔
- 改變決策:主動找可賠付理由
- 回答問題與釐清問題
- 資料處理的謬誤:倖存者偏差、因果謬誤、現成謬誤
- 回家作業 HW01-03
春假 Spring Break
- 回家作業 HW01-03
- HW01-03回顧與分享討論 Reviewing, sharing and discussing HW01-03
- ETF: 股票分析
- CRM: 行銷分析---透過EDA不知不覺獲得企業想要的客戶資訊
- 政治獻金: 捐款的變化---公司數量、政黨選擇、金額變化
- 道路速率: 資料量極大的處理
- 機器學習與資料科學 Machine Learning & Data Science
- 涉及維度轉換
- 運用類神經網路,得出結果
- 缺點: 難以回答複雜問題、不多加考慮特徵的意義、不知演算過程及原因,因此難以修正問題、現在的資料模型或許不是用於未來的變動
- 弱AI:特定領域的自動化
- 強AI:能做出所有人類行為
- 文字雲切割:重要的是文字的清理與篩選
- 字詞關聯性:分析是基於語法結構
- 斷字:雙重否定的困難,如:沒有不「開心」如何表達出真正的意思
- 軟體工程---書架、資訊工程---書本提取與儲存、資料科學---書本閱讀
- Supervised: x,y 從x得出y
- Unsupervised: 擁有相似性
- 初探文字探勘 Beginning of Text Mining
- TF-IDF: 辭贅的解決,若該詞彙出現越多,則該詞彙越不重要
- PCA降維: 取每個項目最顯著的維度
- Kmeans演算法: 用於分群,比較各中心點之間的距離,直到每群中的點對中心點的距離相同
- SVM 關聯式分析:SVC(離散型)∕SVR(連續型),分類與分群
- 統計學
- 敘述統計: 討論關連性(-1~1),不包含有因果關係
- 假設檢定: 虛無假設的驗證、檢測用的p值
- 變異數分析 ANOVA: 討論關聯性,且包含因果關係。探討連續型的依變數(結果,y)與類別型(各不同)的自變數(原因,x)的關聯。
- 文本標記工具 tagtog: 可用於分類,提高分析精準度
- NER: 識別並標記類別,方法可分人工分類或是交給機器學習
- 共線性與關聯性
- 居然睡過頭QQ
- 共線性具有方向,關聯性則否
- 野村證券實習生分享:張靖雍 sharing the experience in project and intern
- 背景知識與實戰能力
- 回家作業 HW04-06
- 小組討論 Group disgussing
- 專題方向
- 運用工具
- 爬蟲---HTML, API, JSON
- 社群分析、情感分析