Thanks to visit codestin.com
Credit goes to github.com

Skip to content

xul4m3/DataScienceProgramming

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

67 Commits
 
 
 
 
 
 
 
 

Repository files navigation

107-2 資料科學程式設計 Data Science Programming

哈囉! 我是林子謙,這裡紀錄我在這門課的學習歷程
Hi, Welcome! This is Chien Lin's space to record what has learned in this class.

第一周 Week 1

  1. 介紹課程 intro
  2. 建立 GitHub 帳號 Set up a GitHub accoount
  3. 安裝 Jupyter Notebook Install Jupyter Notebook
  4. 回家作業 HW00

第二周 Week 2

清明連假 Qingming Holiday

  1. 構想作業架構 building HW01 structure

第三周 week 3

  1. CRM 議題實例介紹 introduction of CRM
    • 資料科學家 Data analysts
    • 資料視覺化 Data Visualization
  2. 回家作業 HW01

第四周 Week 4

  1. 認識資料與視覺化 EDA and Visulation
    • 從視覺化資料中提出問題,並運用資料解決,逐步建立觀點。
  2. 回家作業(修改) HW01-03

第五周 Week 5

  1. 數值資料預處理 preprocess data
    • 從臉書社群經營預測選情
      1. 臉書發文性價比值:發文的質與量抉擇
      2. 新聞媒體情緒指標:主流媒體的影響力
      3. 潛在狄利克雷分析:文章的議題類別

第六周 Week 6

  1. 南山理賠服務及理賠再購資料探索分析 Exploratory Data Analysis of Nan Shan Claims Service and Claims Repurchase
    • 數據分析使服務更精準,客製化使服務有市場區隔
    • 改變決策:主動找可賠付理由
    • 回答問題與釐清問題
    • 資料處理的謬誤:倖存者偏差、因果謬誤、現成謬誤
  2. 回家作業 HW01-03

第七周 Week 7

春假 Spring Break

  1. 回家作業 HW01-03

第八周 Week 8

  1. HW01-03回顧與分享討論 Reviewing, sharing and discussing HW01-03
    • ETF: 股票分析
    • CRM: 行銷分析---透過EDA不知不覺獲得企業想要的客戶資訊
    • 政治獻金: 捐款的變化---公司數量、政黨選擇、金額變化
    • 道路速率: 資料量極大的處理
  2. 機器學習與資料科學 Machine Learning & Data Science
    1. 涉及維度轉換
    2. 運用類神經網路,得出結果
    3. 缺點: 難以回答複雜問題、不多加考慮特徵的意義、不知演算過程及原因,因此難以修正問題、現在的資料模型或許不是用於未來的變動
    4. 弱AI:特定領域的自動化
    5. 強AI:能做出所有人類行為
    • 文字雲切割:重要的是文字的清理與篩選
    • 字詞關聯性:分析是基於語法結構
    • 斷字:雙重否定的困難,如:沒有不「開心」如何表達出真正的意思
    • 軟體工程---書架、資訊工程---書本提取與儲存、資料科學---書本閱讀
    1. Supervised: x,y 從x得出y
    2. Unsupervised: 擁有相似性

第九周 Week 9

  1. 初探文字探勘 Beginning of Text Mining
    1. TF-IDF: 辭贅的解決,若該詞彙出現越多,則該詞彙越不重要
    2. PCA降維: 取每個項目最顯著的維度
    3. Kmeans演算法: 用於分群,比較各中心點之間的距離,直到每群中的點對中心點的距離相同
    4. SVM 關聯式分析:SVC(離散型)∕SVR(連續型),分類與分群

第十周 Week 10

  1. 統計學
    • 敘述統計: 討論關連性(-1~1),不包含有因果關係
    • 假設檢定: 虛無假設的驗證、檢測用的p值
    • 變異數分析 ANOVA: 討論關聯性,且包含因果關係。探討連續型的依變數(結果,y)與類別型(各不同)的自變數(原因,x)的關聯。
  2. 文本標記工具 tagtog: 可用於分類,提高分析精準度
  3. NER: 識別並標記類別,方法可分人工分類或是交給機器學習

第十一周 Week 11

  1. 共線性與關聯性
    • 居然睡過頭QQ
    • 共線性具有方向,關聯性則否
  2. 野村證券實習生分享:張靖雍 sharing the experience in project and intern
    • 背景知識與實戰能力
  3. 回家作業 HW04-06
  4. 小組討論 Group disgussing
    • 專題方向
    • 運用工具
      • 爬蟲---HTML, API, JSON
      • 社群分析、情感分析

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%