找出政治獻金有趣的地方
#資料概要
- 總共有 671186 欄位
- 共有 21397 User
- 3215688 筆資料
#初步分析
- [人事費用支出 500,1000 總和統計] (https://github.com/ntuaha/GovCash/blob/master/analysis/walker.csv)
#資料來源
#相關來源 政治獻金API
#資料表格式 Google Doc
#資料清理
- 包含去除不符合欄位格式的資料以及不符合欄位應有數值輸入
- 請參考 src/load_rawdata_1.py
- 去除日期不符合應有的格式
- 數字的全半形轉換
- col=8 限制只能是, 否, 空白
#資料辨識演算法
- 選取每個IP對於該欄位的最新輸入作為投票
- 多數決,可決定的欄位設定Vote_Type=1,剩下平手或者無法決定的欄位擱置
- 針對已經決定的欄位給投票者1分
- 每位投票者可以根據投票情形得到正確率 = 得分/ 總投票數
- 針對無法決定的欄位進行所有已經擁有投票的正確率計算,算出每個欄位的正確率 1 - \pi_{\forall user} (1-P(每位投票者正確率)),取出最高的答案,該欄位設定Vote_Type=2
- (續5)如果同分的答案,則將該欄位設為Vote_type = 0 無法決定
- 最後每個欄位將分為Vote_Type=1 多數決 Vote_Type=2 權威決 Vote_Type=0 無法決定三個類型
- 建議將Vote_Type的欄位再進行一次辨識
- 原始監察院也有提供不合理的欄位,並非網友輸入有誤(例如:公司統編應為8碼,但卻看見原始資料有超過8碼的可能性)
- 可參閱 run4.sql
- 建議安裝postgresql
- 執行將政治獻金每個頁面代表的候選人資訊讀入
python [絕對路徑]/src/page.py- 開始清理資料內容
python [絕對路徑]/src/load_rawdata_1.py [絕對路徑]/data/govcash_txn.csv [絕對路徑]/sql/createRaw_1.sql- 設定好資料庫之後執行
psql -d [library] -f [絕對路徑]/sql/run4.sql之後會建立出以下表格,相關表格資訊可以到Google Doc
-
接著
-
UserInfo
-
TableColumn
-
Votes
-
govcash_txn_ext
-
govcash_txn2
此外為了輸出檔案到指定的目錄下,請先修改[絕對路徑]/sql/run4.sql的輸出區塊
- 已辨識完欄位整併
python transpose.py [絕對路徑]/sql/GovCash_pre.sql- 最後整理,添加每個page的說明與對應的候選人資訊
psql -d govcash -f [絕對路徑]/sql/GovCash.sqls- 完成,開始利用GovCash這張表格做分析吧
###有任何問題請直接回報,會加緊除錯提供更完整的資料表