eNews

2020.06.29

eNews第36期

 

脊迴歸模型

(Ridge Regression Model)

在大數據分析應用時,當反應變數為連續性變數時,常用線性迴歸模型進行解釋變項及反應變項之相關性討論,並利用最小平方法(OLS)進行參數之推論。在以下狀況時,在參數估計值將產生偏誤(bias),其參數估計的標準差也會高估的情形:(1)多元共線性(multicollinearity):當解釋變數間具高度相關性時,容易使模型之參數估計的正負號和實際相反,其標準差估計也會異常大,可利用VIF檢查其共線性的狀況(VIFj>5 or VIFj>10,表示變數間具共線性,j=1,2,…,p,p為解釋變數個數),剔除共線性之變數,以避免模型的參數錯誤的被估計及檢定,從重配適模型,以納入合適之變數。此時,也可以利用正規化迴歸線,脊迴歸或Lasso迴歸,克服上述的缺點。(2)模型預測上:若樣本數n>p時,利用一般之迴歸線並無問題,但若遇到n<p時,則估計值的變異數偏高(趨近無窮大)且預測能力會變差,而且一般的OLS的估計結果非唯一。(3)模型解釋:當模型同時納入大量解釋變數時,則無法真實呈現對反應變數的影響,而進行模型篩選及變數取捨,以正確解釋模型之相關性;而脊迴歸或Lasso迴歸也可以找出重要變數的模型,使得部份係數估計趨近於0,也是機器學習常討論的方法之一。

read more...

臺北醫學大學 大數據科技及管理研究所 陳錦華 副教授

 

R 資料分析應用:無母數方法

我們先前介紹過的方法大多皆是建立在母體分配為常態分配或某一特定分配的假設下。若是當樣本資料太少、母體分配不明或是違反分配假設時,我們即必須改考慮採用「無母數(Non-Parametric)方法」進行分析。無母數分析方法最大的特點顧名思義即為不需假設母體的分配,不必推論其中位數、適合度、獨立性、隨機性,因為缺乏分配機率的訊息及檢定以等級(rank) 為主要統計量,導致推論較不精確,但對於資料型態適用性的限制也能保有相對較大的彈性。在eNews第12期已經介紹利用「雲端資料分析暨導引系統」(R-web)作為分析工具,本期將跟大家介紹使用R來進行無母數分析。

 

read more...

邱義翔 副統計分析師
 

 

統計中心諮詢服務

1. 個人預約諮詢

 

諮詢師 統計中心老師及研究員
地點 大安校區11樓會議室
預約電話 (02)6638-2736 #1106
預約平台 http://biostat.tmu.edu.tw/consult/Reserve/

 

 

2. 三院駐點諮詢

因應疫情因素,三院駐點服務暫停舉行,鼓勵同仁多利用統計諮詢平台預約線上諮詢。
醫院駐點服務 時間 聯絡窗口
北醫附設醫院 請洽附設醫院聯絡窗口

Tel: 2737-2181 #3748

萬芳醫院 請洽醫院之研究部

Tel: 2930-7930 #7206

雙和醫院

每週二 08:30-11:30

每週四 14:00-17:30 (需先預約)

Tel: 2249-0088 #8861

使用規則

  1. 本網站所刊載資料之著作權,除另有規定外,屬於 臺北醫學大學 數據處(下稱「本單位」)。任何人得為非營利目的自由使用。但使用時,不得變更其內容、詆毀或減損本單位名譽,且必須註明來源為「臺北醫學大學 數據處」。
  2. 具有上傳資料權限之使用者,得自行決定其資料之著作權歸屬與授權規則。本網站之使用者,應遵守之,並了解本單位對此資料不負任何法律責任。
  3. 本單位盡力維護本網站資料之即時性與正確性,但對此不負任何責任。本單位有權不經事先公告,變更網站內容。因此,凡使用者認為涉及其利益之事項,例如使用資格或日期等,請逕與本單位相關業務人員確認。
  4. 本單位盡力維護本網站資料不含任何電腦病毒。但對於任何因下載本網站資料所致電子資訊系統或其他之損害,本單位不負任何責任。
  5. 本網站所提供對其他網站之超連結,僅為使用者之便利。該被連結之他網站,並非本網站之一部分。本單位不保證所連結之他網站存在,亦不對該網站之任何內容、超連結等負責。
  6. 本網站除為提供個人服務之必要外,不使用 cookies ,也不追蹤使用者之網路使用。使用者主動提供之個人資料,除指定目的與分析本網站使用習慣外,不作其他用途。
  7. 本使用規則之修改變更,不預先公告。若使用者對於本規則或本網站有任何意見或建議,請聯繫我們