戚萬學 中國教育大數據研究院院長,曲阜師范大學校長,教育學博士,教授,博士生導師。“新世紀百千萬人才工程”國家級人選,中宣部“文化名家和四個一批理論人才”,教育部“新世紀優秀人才支持計劃”資助專家。
江青 中國統計信息服務中心(國家統計局社情民意調查中心)大數據研究實驗室主任,帶領團隊基于大數據技術及方法承擔了多個重要的國家級項目,是國內最早從事大數據研究應用的實踐者之一。
近年來,“大數據”成了人們口中的一個“熱詞”,“大數據告訴你……”也成了眾多用以吸引眼球、增強權威性的文章標題。大數據對社會生產和生活的影響,在教育以外的行業已經非常明顯,但在教育領域還處于起步階段。
教育關乎國計民生,教育問題又異常復雜,大數據在重塑教育方面具有無限的潛能。那么,大數據怎樣才能有效驅動教育改革?大數據進入教育領域面臨著哪些困難與挑戰?為此,中國教育報記者專訪了中國教育大數據研究院院長、曲阜師范大學校長戚萬學,中國統計信息服務中心大數據研究實驗室主任江青。
我國教育大數據發展尚處于基礎期
記者:自從2011年美國著名的咨詢公司麥肯錫發布《大數據:創新、競爭和生產力的下一個前沿領域》的研究報告以來,“大數據”便成為近年來對人類思維和社會各領域沖擊最為強烈的一個“熱詞”。但是,許多人對何為數據卻一知半解。那么,數據是什么?教育小數據與教育大數據之間有什么聯系與區別?
戚萬學:提到數據時,我們首先想到的會是數字,但數據并不限于數字,視頻、文本、圖像、音頻等都可以是數據。
數據的發展,經歷了從微數據到小數據再向大數據的轉變歷程,教育大數據是大數據的一個子集。在教育領域,時時刻刻產生著各種數據,無論是教師和學生的一言一行、學校里所發生的種種現象,還是學生通過計算機終端進行的上課、做作業、發微博、討論問題等,都可以轉化為數據,這些都成為教育大數據的來源。
江青:無論大數據還是教育大數據,都不僅僅是數據本身的大小描述,而是由數據引發的各種關聯工作和解決方案。教育大數據就是教育統計插上了信息化的翅膀,變得比統計和信息化本身對人類更有價值。教育小數據是指沒有信息化關聯的一個個數據集,或者說教育數據孤島,這些獨立的數據不是沒有作用,而是相對大數據來說,其分析結果和價值很多時候不如大數據客觀和強大。
記者:大數據對社會生產和生活的影響,在教育以外的行業已經非常明顯,但在教育領域還處于起步階段。教育大數據會給教育改革與發展帶來哪些影響?
江青:我國教育大數據發展尚處于基礎期。大數據對于教育改革和發展帶來的將是傳統思維的顛覆、教學效率的提升和教育科研的有效性,甚至會帶來教育的終身個性化匹配。除了在線學習,大數據可以用在招生、預算和學生服務等方面以確保透明度,將對學生學習、教師教學、教學科研、校園治理、家校互動、教育決策、就業管理、招生管理、學生成長等方方面面帶來很大影響。
戚萬學:的確,與其他行業相比,教育界對大數據的廣泛接納還是近期的事。但可喜的是,我們看到大數據正在走進教育的領地、走進學校的大門、走進教師和學生的生活。可以預期的是,一個屬于教育的大數據時代即將到來,它不僅影響學校內部治理的改革,而且會驅動整個教育領域的變革,它使我們照顧學生的個性化需求、關愛每一個孩子成為可能。但從整體上看,目前教育大數據的采集網絡仍處于布局和建構的初級階段,大數據在教育決策、教學過程中的運用還處于摸索和起步階段,大數據人才培養的完善體系還沒有建立起來。倒是一些企業集團較早看到了大數據帶來的應用前景和巨大商機,以至于大數據在教育領域的應用總體上呈現出“產業應用的成熟度大于學校應用的成熟度”的態勢。
實現真正的“因材施教”離不開教育大數據
記者:一般來說,數據是冰冷的,是抽離了鮮活之后的抽象。而教育面對的是活生生的有個性的人,需要因材施教,大數據能否克服傳統數據的缺陷,從而關注到學生的個性發展?
戚萬學:與傳統數據、有限數據或小數據相比,教育大數據的獨特優勢就在于,通過對教育活動或行為數據的收集、分析和反饋,可以不斷改變、調整我們的教育計劃,從而實現真正的“因材施教”,使我們能夠關注到每一個學生的成長。
大數據研究專家舍恩伯格指出,“個性化建立在大數據反饋的基礎上”,“在學習的環境下,大規模個性化的實現,需要有更豐富的反饋數據流向教師和管理人員”。教育大數據的分析能夠給學習者發現自身學習規律的機會,給教育者和研究者提供每個學習個體在學習過程中的態度、模式、需求、風格等信息,從而提供有針對性的學習內容與指導。
江青:大數據分析已經被應用到美國公共教育中,成為教學改革的重要力量。美國聯邦政府教育部2012年參與了一項耗資2億美元的公共教育中的大數據計劃。這一計劃旨在通過運用大數據分析來改善教育。聯邦教育部從財政預算中支出2500萬美元,用于了解學生在個性化層面是怎樣學習的。
記者:在關注學生個性化發展方面,教育大數據可以提供什么樣的服務?
戚萬學:在大數據時代,研究者通過學習者在學習系統中產生諸多數字碎片的分析,會發現其學習行為的模式與特點,從而為學習者提供個性化的學習建議;教育者借助強大的大數據實證工具,能夠了解如何教、如何學是最有效的,從而制定個性化教學和課程計劃;學習者可以通過數據從原有的依賴教師的有限理性判斷發展為對自己學習的數據化分析;而評價者則可以通過對學習者學習過程的關注與跟蹤,在大數據技術的支持下提供最客觀、直接和準確的學習分析和教育評價,使傳統的經驗式評價轉向基于據數據的過程性評價。
江青:教育工作者和研究者已經開發出從大數據中提取價值的5種主要的技術:預測,預知事實的可能性;聚類,發現自然集中的數據點;相關性挖掘,發現各種變量之間的關系,并對其進行解碼以便今后使用它們;升華人的判斷,建立可視的機器學習模式;用模式進行發現,使用通過大數據分析開發出的模式進行“元學習”。實施這些技術,就能夠通過大數據來創建為提高學生成績提供支持的學習分析系統。這些技術將幫助教育工作者更加有效地指導學生朝著更加個性化的學習進程邁進。
數據的失真失實是大數據時代必須面對的問題
記者:人們經常說:用事實說話,用數據說話。但是,數據等于事實嗎?教育大數據和教育事實是什么關系?
江青:教育大數據是對教育客觀的邏輯歸納,是對與之相關的未經加工的原始素材進行采集、處理、研究、應用的一系列工作。教育大數據做好了,可以客觀反映教育事實,呈現教育現象,給教育改革提供決策參考。
戚萬學:數據與事實并非是完全一一對應的,它們可能有一致性,也可能存在相悖的結果。著名的辛普森悖論就啟示我們,數據有時候并不能反映事實。教育大數據是從教育實踐中搜集的有關教育活動、現象等原始材料,根據使用數據人的目的按一定的形式加以處理,找出其中的內在聯系,從而反映教育事實。相比傳統“小”數據,教育大數據在大規模在線學習、學習者模型、教學者模型等研究中,體現出更加貼近事實的優勢。應該說,隨著更多數據的收集、處理和分析,我們對世界的認識將更趨復雜、更加精確。
記者:前不久,“今日頭條創始人張一鳴炮轟艾瑞數據失實”的事件引起了人們的關注。怎樣才能保證教育數據采集的數據客觀、不失實?
江青:應該說,獲得相關數據并不是一件容易的事。對于大學階段的學生而言,數據的收集并不是主要問題。然而,對于中小學階段的學生而言,挑戰卻很大,因為有些數據的收集存在法律問題,有的則存在倫理道德(隱私)的問題。
數據收集者的人數和技能也是一個問題。數據的采集需要通過特定的渠道,互聯網數據需要用技術手段獲取,通常通過網絡上的小型文本文件來收集用戶的相關信息,但是對于教育部門而言,則需要依賴于全國眾多學區和研究者的網絡來提煉和確認數據。
戚萬學:數據的失真、失實是大數據時代必須面對的問題。對科學研究來說,數據的真實可靠是研究的生命和價值之所在。數據在采集的過程中,會由于教育數據的層次不同而發生變化。根據數據采集手段的不同,可以把教育大數據分為基礎層數據(如每年的學校招生情況、教育經費情況等)、狀態層數據、資源層數據(非結構化數據)、行為層數據(財務報銷、學生寫作業等)。這些數據大部分是在教育過程中自動生成并被記錄下來的。
與基于有限數據的小數據預測本身存在的不確定性相比,大數據時代的預測精確度要遠遠超過現在。同時,大數據技術下數據的自然生成、對數據的全樣本采集、傳感器收取、射頻識別等全新采集手段的應用,也都可以保證研究者所獲得的信息更加真實。但相比精確度,大數據更加追求的是效率,在海量的數據面前,放棄一些微觀層面的精確,會得到宏觀層面更高的效率。
核心挑戰在于數據分析處理及結果的可視化呈現
記者:在這些數據采集的過程中,如何保護被采集對象的個人隱私?
戚萬學:有時候,通知被采集對象會導致一些人為的、刻意的裝飾,反而會影響數據的真實性。教育大數據和其他領域大數據的區別在于,它們涉及的更多是教育環境下教師和學生個人發展和專業成長的一些信息,因此,不征得數據采集對象的允許并不意味著數據亂用,在數據運用的過程中,我們要特別注意保護被采集對象的隱私。大數據這種對學生隱私的挑戰,需要在數據采集過程中保護被采集人的敏感信息,使其保護自身隱私的權利得以行使。美國聯邦政府2014年推出的《在線教育服務指導》提出,只有在滿足《學生權利保護修正案》和《家庭教育權利與隱私法》的情況下,學生的數據才能被學校和學區所采集。所以,借鑒美國的做法,我國可以出臺涉及教育大數據的隱私安全的相關政策或法律法規。
江青:數據采集的過程會涉及方方面面,對事關隱私的數據當然要考慮當事人的意愿,我們提倡對于收集到的數據進行加工,生產出具體數據產品,而不是直接將教育具體數據對外公開。當然,采集和擁有數據的機構也需要加強法律意識,加強技術保護措施。
記者:對采集到的教育大數據,應該怎樣進行科學分析、應用?
戚萬學:在教育大數據應用方面,其核心挑戰就在于數據的分析處理及結果的可視化呈現等方面。教育大數據是客觀的,而分析與應用是主觀的,在數據的分析與應用中如何平衡兩者的關系是一個十分關鍵的問題。
對教育大數據進行分析,需要從大量數據中進行提取與挖掘。在這個過程中包括數據的清理、數據選擇、數據變換、數據挖掘、模式評估和知識表示等。這些分析環節的每個構成都應成為數據分析研究的重要內容,從而最大限度地保持與還原客觀事實。
江青:過去十幾年里,教育領域的技術發展陷入了停滯,研發投入遠遠不夠。教育技術未來發展的關鍵在于數據。美國教育部門對大數據的運用主要是創造了“學習分析系統”,旨在向教育工作者提供學生到底是“怎樣”學習的更多、更好、更精確的信息。
教育大數據一定要落地應用。例如,根據不同的需求調用某教育部門各套系統的數據,結合外部其他單位的數據,教育管理部門可以利用大數據優化教育資源配置,提高教育水平,引導學生成長,共享學習資源。教育大數據可以幫助教育管理部門建立“數字教育地圖”,助力教育資源布局優化;建立“智慧教育平臺”,助力教育成果管理;建立“績效評價系統”,提升教育科研創新力。
不加約束地使用教育大數據一定會產生風險
記者:當前,似乎有一種將大數據神話的傾向,但教育大數據不是萬能的,人的成長遠比我們想象的要復雜的多。在教育領域,是否也有一些方面是大數據不能解釋和預測的?
江青:教育大數據可以修正教育過程,使之更加符合教育的本質,但教育大數據的確不是萬能的。大數據可以很好地展現一個人的學習過往,也可以預測未來該學生的成長軌跡,但大數據預測他可能會成為一名科學家,可這名學生長大后卻有可能走上演藝的道路。作為個人,我們不斷地成長、發展、變化,而那些多年來全面收集的教育數據卻始終保持不變。
戚萬學:作為資源與工具的教育大數據,其往往體現的是對信息的告知而非解釋。數據一方面在引導人們的理解,但同時也可能導致誤解的出現,所以正確使用是教育大數據解釋與預測的關鍵。而且,教育大數據的獲取,多數情況下還依賴于互聯網這一平臺,“離線”或“線下”教育環境中同樣存在大數據,但數據獲取的時效性、便捷性往往會受到很大影響。與此同時,數據對事物的分析也并非萬能,不能說任何事物都能夠通過數據準確反映出來。例如,教育組織氛圍、文化,學校的學術精神、德育實效性,學生的智慧、創造力、想象力等,則很難通過數據加以描述和統計。
記者:舍恩伯格認為:“我們對潛在后果和概率性結果的預測有加大教育不平等的可能。全面教育數據帶來的首個重大威脅,并不是信息的發布不當,而是束縛于我們的過去,否定我們進步、成長和改變的能力。”對此,您怎么看?
戚萬學:如果教育大數據被不加約束地使用,則一定會產生風險。人是發展性的、具有能動性的物種。過去的選擇是清晰的、決定性的、不可更改的,但今天我們會做出什么樣的選擇則充滿了無限的可能性,有無限的變數,這些變數是大數據決定不了的,是不可預測的。這些不可預測的選擇和既定的現實,將我們引向可知又充滿變數的未來。大數據預測不是占卦算命,一切皆在這變與不變之中。
江青:學生家長,教育專家長期以來對未成年人的隱私保護問題和對學生的學業追蹤帶來的后果憂心忡忡,因為這是限制學生未來發展機遇的潛在威脅。大數據不但會放大這些問題,還會改變他們的本質。隨著時間的推移,我們會改變看法,調整觀點甚至重塑我們的價值觀。大數據結果需要結合行業經驗才能發揮出巨大的價值,否則將加大因為數據結果的不準確而帶來的決策風險。
教育大數據科學發展還需邁過多道“坎”
記者:當前,我國教育大數據發展前景如何?當前主要面臨哪些困難?
戚萬學:隨著我國“以教育信息化帶動教育現代化”方針的確立,《教育信息化十年發展規劃(2010-2020)》的順利推進,特別是大數據發展上升為國家戰略,教育大數據的開發與應用將迎來一個全新的時代。但是,我國教育大數據的科學發展,還面臨著觀念層面、實踐層面、技術層面等方面的困難。
江青:國家政策已經將我國大數據產業發展定為國家戰略,對一系列的政策措施都給出了產業引導和支撐。教育領域在應用大數據上也會面臨大數據產業發展中存在的共同問題:大數據思維亟待培育、大數據人才亟待培養、大數據相關標準亟待制定、大數據法律法規亟待建立。
記者:如何克服這些困難?
江青:要克服這些困難,需要教育部門、社會針對性地采取必要的對應措施,例如,針對思維問題,可以由教育主管部門組織行業培訓,出臺相應政策措施,組織相關活動會議,展示推廣大數據在教育領域的應用案例;針對人才問題,清華大學、復旦大學、北京大學、中國教育大數據研究院等一些高校及研究機構已開始啟動人才培養,但除高校培養培訓之外,還應對在職的統計、信息工作人員進行專業性的培養;針對大數據相關標準制定,標準制定機構需要大數據從業機構的配合,更需要大數據應用對象的配合,凡事預則立,標準制定是大數據產業有序健康發展的基礎要件;無規矩不成方圓,大數據產業發展過程中逐漸暴露的問題,如隱私等,都需要有相應的法律法規制約,否則,教育大數據產業談不上良性發展。
戚萬學:要真正實現教育大數據科學發展,尚需多方努力。首先是要有接納大數據的態度,這是前提。政府、教育主管部門、教育機構要強化大數據意識,形成大數據思維,自覺運用大數據思維和技術解決教育的問題;二是要加強大數據系統建設的頂層設計,國家教育主管部門應統籌制定教育大數據系統的規劃與建設的規范,為各級政府和教育機構提供大數據集成和共享平臺,實現數據的流動、互通和共享;三是政府要出臺相關支持性政策,鼓勵研究機構、高等院校、各種社會力量開展教育大數據技術和資源的研發與合作;四是加強大數據領域人才的培養,我國教育大數據的發展才剛剛起步,人才的缺乏將是一個嚴重的限制。教育主管部門應盡快將大數據列入高等教育的專業目錄,盡快完善本科、研究生完整的人才培養體系,高等學校也應自覺承擔起培養大數據專業人才的重任。
相關新聞
更多>>