第十次社會學作業:真相製造鏈、演算法、仇恨言論、關鍵字科技比對判別
這次課堂的指定閱讀為劉致昕所撰寫的「真相製造」,這本書我在去年疫情期間購入,爾後成為我在疫情期間,以及遇到各種資訊時恪遵的圭臬。該書用了非常多的例子以及深刻的故事敘述假新聞造成的各式危害,最後也呼籲大眾需要正視假新聞的危害,假新聞不只是台灣之間的政治內鬨、中國的惡意威逼,而是在民主化的社會之中,普遍需要被面對的挑戰。然而,該書的大部分做法是訴諸個人,利用個人的媒體識讀能力,以及政府、NGO的推廣,而讓大眾正視並主動過濾假新聞的危害。而文章中沒有提到其他的過濾方法,我覺得顧慮有二:
一、 我們都有觀察到中國的政治言論審查的現象,該作法不僅扼殺了諸多的事實以及優質創作內容,也讓社會的各式觀點腰斬成狹隘的特定意見。如果以人力進行假新聞審查的話,或許就會有個人的私心混雜其中。假新聞只是一個概稱,其中包含著「不實資訊、似是而非的爭議資訊、斷章取義的訊息、純然為了帶風向的言論」等等,如果這個社會上有這種「掌門人」以守護資訊真實性為名,行思想箝制之時的話,會讓人民變得越來越怠慢而無知。
二、 如果是用科技來審查不合適的貼文內容的話,雖然表面上科技是公正、客觀的,但是實際上並非如此,正如同本課堂所稱的「科技渴望社會、科技渴望民主」一般,演算法在某種程度上也是「極權統治」的一種,因為她完全有辦法以絕對的權力關係來管控你所看到的內容,而演算法的邏輯也是由特定的工程師所撰寫,我們可以合理的推測這樣的系統也有可能參雜者意識形態,以及經濟、政治特權的誘因,使他們撰寫出偏好某特定群體的程式結構,而我們身為使用者,只能被動地接受這樣的演算結果,而在無形之中,這樣子不民主的科技參與不僅讓假新聞沒辦法全然被剔除,有些正當且重要的訊息也有可能因此無法映入使用者的眼簾,也讓某些創作者因為不明的原因而失去了曝光的機會。更有甚者,在「真相製造」一書中曾經提到,演算法的特性使得他成為讓社會分裂、形成對立的重要推手之一,因為演算法總是「播送你那些可能有興趣的內容」,同時也容易被各方勢力操控,舉例來說,該書第一章所提到的「聖戰士媽媽」,他的兒子就是因為被演算法留下來的錯誤ISIS資訊所誤導,而一步步走向ISIS的懷抱。在他所認知的世界裡面,ISIS才是真理,裡面是個無瑕的樂園,有金錢、異性,還有一大群跟你稱兄道弟的夥伴,而將他們做的壞事的出現頻率降到不能再低(根據統計,這些資訊在歐洲聖戰士的演算法中,出現頻率不到3%),這些有毒的內容確實會危害個人乃至於社會整體的認知,甚至是生命安危。
三、 由剛剛的例子可以看到,在科技變遷之中,我們不一定是由單一箭頭的持續往前,我們還是擁有相當的調整及進步的空間,因此,技術決定論強調的「科技主導整個社會的發展軸線」在這個方面或許是部分正確的:倘若我們普通用戶沒有「型塑科技」的能力,而是一味的接受的話,那我們就忽略了公共討論、選擇,以及背後運行的權力結構所帶來的重要性。我們固然知道演算法也帶來了很多好處,例如這些與我們越來越密切相關的演算法結果確實改變了我們的生活,使上網、使用社群媒體看各種有料的訊息變成一種樂趣。
但是,既使科技有那麼多的阻攔,我們還是可以重新審視科技所帶來的便利以及其中的隱憂,妥善的分析利弊之後,在妥善的以民主化參與的方式來執行,我們才能夠逐漸改變社群媒體的科技系統,邁向共存共榮。我想,除了純粹以非民主式的科技來把關假新聞的話,就會產生諸多弊端,而要判斷一篇新聞的真偽,僅吸收文章內的文字和圖片是遠遠不夠的,許多時候判斷新聞真偽的關鍵在於該篇新聞背後的事實與新聞內容是否相同。
因此,我們可以利用資訊科技、關鍵字判別,再加上民主設計,來讓假新聞的判別變得人性化。學界認為,假新聞需要一套檢索系統以自動搜尋相關新聞,判斷新聞之間的關係及立場之一致性。 當我們將新聞文章與標題作為輸入文本,並且進行命名實體辨識,就可以找出文本中具重要意義的資訊,如人名、地名與時間,並將辨識出的命名實體,透過 Google Search API 獲得其他相關文章的標題、內容與連結,作為該新聞的相關資料來源。最後,我們可以利用計算與自然語言推論(NLI,一種藉由機器學習、閱讀大量文本來學習兩句話中具有矛盾、蘊含還是中立關係的自然語言處理技術)來判斷文章的關聯,並且了解該新聞的真偽。
我詢問了做相關研究的學長姊,得知他們已經著手在台灣事實查核中心的資料上進行實驗,在目前為止正確判斷率高於50%。舉例來說在該網站上,有一張圖片的標註寫著「台灣疫情失控,軍方接管台北,蔡當局當街燒死疫情患者。」,然而,根據剛剛所提到的各式方法,蒐集到了第二敘述「男子總統府前引火自焚 全身80%二度灼傷」,由語句相似度模型判斷,兩句敘述相似度小於 0.5,所以判斷之敘述為圖文不符的假新聞。
原新聞網址:https://www.chinatimes.com/realtimenews/20150519003987-260402?chdtv
假新聞網址:
圖片:
但是這樣要怎麼促進民主參與呢?我認為,他所判斷的邏輯應該要以開源模式儲存,並且由政府或NGO把他們使用的程式語言「翻譯成」中文,讓人們以直觀的方式了解其背後的邏輯,並且可供人們去做客製化的調整。舉例來說,如果要讓一份新聞文本和其他文章比對的話,或許我們可以自己決定要和那些自己比較信賴的媒體去比,那麼這樣執行的話,他的信賴區間為多少等等,來進行客製化的調整。交給機器和科技處理這些議題固然是一個值得考慮的方法,但是當我們有了這樣子的技術之後,我們應該要去想想:身為一個平凡的人們,要怎麼樣才能夠讓自己擁有掌控權,實踐資訊平等的主張呢?而如果是程式的開發者的話,我們也要降低普通人們了解運作原理的難度,現在的程式中很流行「開源」的概念,所謂的開源軟體,就是人們可以直接取用這個程式的原始碼,並且開放所有人使用這些功能,而部分服務則是用加值訂閱的方式來取得。此外,這種軟體允許所有人貢獻程式碼到這個軟體上,讓這些軟體的功能變得越來越健全。
最有名的例子就是和Microsoft Office系列抗衡的開放文書處理軟體:Openoffice.org以及LibreOffice,這兩個軟體都是免費、開源的軟體,允許所有人使用,並修改這個程式的原始碼,而各種公部門及機關都會採用和這些開源文書軟體相容的格式,以實踐資訊平權,讓那些無力負擔高級設施以及付費的Office系列文書處理軟體的人,也可以看到這些資料。
然而,如果要讓這些科技變得更民主化的話,我想更白話文的解釋是必要的,此外,我們也可以嘗試讓民眾提及他們自己的意見,並且和這些程式設計師合作,讓這些很讚的提議可以被實踐。