Thanks to visit codestin.com
Credit goes to github.com

Skip to content

ntuaha/GovCash

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

54 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GovCash

找出政治獻金有趣的地方

#資料概要

  1. 總共有 671186 欄位
  2. 共有 21397 User
  3. 3215688 筆資料

#初步分析

  1. [人事費用支出 500,1000 總和統計] (https://github.com/ntuaha/GovCash/blob/master/analysis/walker.csv)

#資料來源

#相關來源 政治獻金API

#資料表格式 Google Doc

#資料清理

  1. 包含去除不符合欄位格式的資料以及不符合欄位應有數值輸入
  2. 請參考 src/load_rawdata_1.py
  3. 去除日期不符合應有的格式
  4. 數字的全半形轉換
  5. col=8 限制只能是, 否, 空白

#資料辨識演算法

  1. 選取每個IP對於該欄位的最新輸入作為投票
  2. 多數決,可決定的欄位設定Vote_Type=1,剩下平手或者無法決定的欄位擱置
  3. 針對已經決定的欄位給投票者1分
  4. 每位投票者可以根據投票情形得到正確率 = 得分/ 總投票數
  5. 針對無法決定的欄位進行所有已經擁有投票的正確率計算,算出每個欄位的正確率 1 - \pi_{\forall user} (1-P(每位投票者正確率)),取出最高的答案,該欄位設定Vote_Type=2
  6. (續5)如果同分的答案,則將該欄位設為Vote_type = 0 無法決定
  7. 最後每個欄位將分為Vote_Type=1 多數決 Vote_Type=2 權威決 Vote_Type=0 無法決定三個類型
  • 建議將Vote_Type的欄位再進行一次辨識
  • 原始監察院也有提供不合理的欄位,並非網友輸入有誤(例如:公司統編應為8碼,但卻看見原始資料有超過8碼的可能性)
  • 可參閱 run4.sql

執行流程

  • 建議安裝postgresql
  • 執行將政治獻金每個頁面代表的候選人資訊讀入
python [絕對路徑]/src/page.py
  • 開始清理資料內容
python [絕對路徑]/src/load_rawdata_1.py [絕對路徑]/data/govcash_txn.csv [絕對路徑]/sql/createRaw_1.sql
  • 設定好資料庫之後執行
psql -d [library] -f [絕對路徑]/sql/run4.sql

之後會建立出以下表格,相關表格資訊可以到Google Doc

  • 接著

  • UserInfo

  • TableColumn

  • Votes

  • govcash_txn_ext

  • govcash_txn2

此外為了輸出檔案到指定的目錄下,請先修改[絕對路徑]/sql/run4.sql的輸出區塊

  • 已辨識完欄位整併
python transpose.py [絕對路徑]/sql/GovCash_pre.sql
  • 最後整理,添加每個page的說明與對應的候選人資訊
psql -d govcash -f [絕對路徑]/sql/GovCash.sqls
  • 完成,開始利用GovCash這張表格做分析吧

###有任何問題請直接回報,會加緊除錯提供更完整的資料表

About

找出政治獻金有趣的地方

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •