2017年9月8日 星期五

張瑞雄-隨時引爆的大數據危機

張瑞雄-隨時引爆的大數據危機

95 15:37 · 

https://www.facebook.com/ruayshiung/posts/10203953411633449

https://www.facebook.com/rsrc.php/v3/yf/r/g_kf1vXYV_O.png

隨時引爆的大數據危機
戴維斯(Ernest Davis 20170903 15:00:00
美國紐約大學(NYU)資訊工程系教授

過去15年來,我們親眼目睹了從網路、社交媒體、科學設備、智慧手機、監視器和其他多種來源搜集的數位資料,以及處理這些資料所需的電腦相關技術呈爆炸性成長。
眾所皆知的「大數據(Big Data)」無疑將帶來重要的科技和醫療成果。但如果被誤用或濫用,大數據也是非常危險的。
大數據不等於高品質數據
網路搜尋引擎、機器人翻譯和圖像標籤等重要創新技術的機器學習有賴大數據資料庫。而且,在不久的將來,大數據可以巨幅改善政府決策、社會福利計畫和獎學金專案。
但擁有更多資料卻替代不了具高品質的資料。
例如,《自然》(Nature)雜誌最近發表的一篇文章指稱,美國大選調查員正努力獲得具代表性的人口資料樣本,因為美國法律規定,他們只能撥打家用電話(landline telephones),但使用行動電話的美國民眾卻越來越多。儘管可以在社群媒體上找到無數種政治觀點,但卻無法確定這些觀點在選民中是否具代表性。
事實上,推特(twitter)和臉書(Facebook)上面許多與政治相關的發文都由電腦自動編輯生成。
近年來,以「偏差資料集(biased data sets)」為基礎的自動程式造成了很多醜聞。
資料偏差
舉例而言,20166月,有名大學生以「不專業的上班髮型(unprofessional hairstyles for work)」為關鍵字搜索穀歌(Google)圖片,顯示的圖片結果多數是非裔,當這位學生把關鍵字改成「專業標準(professional)」後,搜索結果卻大多是白人。這不應歸咎於穀歌程式人員帶有偏見;相反的,這是一般上網民眾對圖片標籤的反映。
採用上述搜索結果的大數據進行評估、招聘和晉升決策,可能會懲罰髮型與「不專業的上班髮型」相似的非裔應徵者,進而延續傳統的社會偏見。
這絕不僅僅是假設性的可能。
2016
年,美國媒體《ProPublica》一項「累犯風險模型(recidivism risk models)」調查顯示,一種廣泛採用對已定罪犯人量刑的方法,有系統地高估了非裔被告日後的犯罪風險,同時,對白人被告未來的犯罪風險卻有所低估。
可操控的數據
大數據的另一種風險是它可以「被操縱(can be gamed)」
如果人們知道利用大數據可以做出影響生活的重要決策,他們存有動機讓天秤朝向己方傾斜。
舉例來講,如果以學生考試成績作為教師的考績評比標準,教師或許更有可能「為考而教(teach to the test)」,甚至作弊。
同樣地,想要提升任職學校在《美國新聞和世界報導》(US News and World Reports)排名的校務人員,也會做出不明智的決定,比方說以犧牲學術為代價,投資建設奢侈的體育場館。
更甚者,他們做出其他奇怪的不道德決定,比如在開學前幾周找到並開除成績較差的學生,藉以提高聖瑪麗大學(Mount Saint Mary's University)的「留校率(retention rate)」。
就連穀歌的搜尋引擎也無法倖免。
儘管由世界頂級數據科學家監控的巨量資料帶動,大數據仍有可能受到「搜尋引擎優化(search-engine optimization)」和操縱,例如「穀歌轟炸(Google bombing)」、「垃圾郵件索引(spamdexing)」等服務於少數利益的方法。
侵犯隱私、無法究責
第三種風險是侵犯隱私,因為現在提供的大數據均包含個人資訊。
近年來,大量機密資料在商業和政府網站遭到竊取,研究人員表示,就算是匿名發文,看似無害的網路文章(如影評)中所流露出的政治觀念甚或性偏好,仍可被有心人精準蒐集。
最後,大數據挑戰了「究責制(accountability」。
萬一有網友感覺自己遭受演算法的不公平對待時,往往無法提出告訴,也許因為具體結果無法解釋,或因編寫者拒絕提供演算法的細節。雖然政府或企業可以透過強調演算法具數學性或科學性來威脅任何反對者,但這些演算結果的後續行為也常常令大家始料未及。
歐盟最近通過了一項措施,確保被演算法影響的民眾有權要求「給個說法(right to an explanation)」;但需要時間才能證明這是否有實際效果。
如果被大數據侵害權益的民眾缺乏申訴途徑,就如資料科學家歐妮爾(Cathy O'Neil)在最新著作《運算毀滅的武器》(Weapons of Math Destruction)中形容的那樣,將有可能帶來影響深遠的有害結果。
好消息是,大數據在很大程度上可避免危害性。
但除非我們積極保護民眾隱私、發現並糾正不公平的做法、謹慎利用演算法,並保持對演算法內部工作原理和決策資料的嚴格理解,否則一切還是白談。

 

沒有留言:

張貼留言

追蹤者