人工智能(AI)近來備受矚目,在AI迅速發展下,如何使其促進我們日常工作生活仍是一個許多科學家關注的複雜問題。最近,香港科技大學(科大)的研究團隊對AI應用於教育方面,進行了一項展望性研究,探究了AI可以如何讓評分更合理,同時觀察了在擁有AI同伴的情況下,人類參與者的行為。團隊發現,部分老師們樂於有AI的參與,但直到要決定人類或AI可擔當主導地位時,則發生爭論,相關情況非常類似人類互動過程中,一個新成員進入其他人的專業領域時的情形。
這項研究由科大計算機科學及工程學系博士生鄭成博和四名團隊成員,在副教授麻曉娟的指導下進行。他們開發了一個名為AESER(Automated Essay ScorER,自動作文評分器)的AI作文評審成員,並將20名英語教師分成十個小組,以研究AESER在小組討論環境中的影響。AI與人類教師交換意見、協商、問答,甚至參與最終決策投票。基於受控式「綠野仙蹤(Wizard of OZ Testing)」實驗研究方法,AESER的行為受深度學習模型和一名人類研究員的共同左右,在線上會議中與其他參與者交換觀點並討論。
實驗結果符合研究團隊關於AESER能促進評分客觀性,並提供獨特觀點的預期。但他們也同時發現了潛在問題。首先,AI可能引起從眾行為。AI的參與會促使形成「多數派」,扼殺一些討論。其次,AESER的發言被認為是相對僵硬,甚至固執。當參與者發現他們永遠無法「贏得」爭論時,他們會感到沮喪。此外,許多參與研究的教師認為,AI更適合成為助手,而不應該讓AI的觀點和人的觀點擁有相同的權重。
麻曉娟副教授指出:「目前在某種程度上,AI在它的人類合作者眼裡是『固執』的,這有好有壞。一方面,AI是固執的,所以它敢於坦率地表達自己的觀點。另一方面,當人類無法有效地說服AI改變觀點時,會感到挫敗。而不同的人均對AI持不同的態度,有些人認為它是一個獨立的智慧個體,而有些人則認為AI是來自大數據集體智慧的聲音。因此,權力和偏見等問題值得再仔細討論。」
研究團隊下一步計劃擴大實驗範圍,收集更多資料,為AI如何影響團隊決策提供更精確的洞察。團隊還希望引入大語言模型(LLMs),例如將ChatGPT加入到研究當中,冀為群體行為領域帶來新發現和見解。
相關研究結果已於今年4月在國際電腦學會人機交互會議(ACM Conference on Human Factors in Computing Systems, CHI)上發表。