好的教育大數(shù)據(jù)怎樣才能挖掘出來 豐富多樣的教育大數(shù)據(jù)如何處理
來源:好上學 ??時間:2023-07-31
*總理在今年的*工作報告中指出:“實施大數(shù)據(jù)發(fā)展行動,加強新一代人工智能研發(fā)應用,在醫(yī)療、養(yǎng)老、教育、文化、體育等多領域推進‘互聯(lián)網(wǎng)+’。”當前,發(fā)展教育大數(shù)據(jù)已成為推進我國當前教育領域深化改革和創(chuàng)新發(fā)展的戰(zhàn)略選擇。
黨的十九大報告提出,努力讓每個孩子都能享有公平而有質(zhì)量的教育。在教育領域?qū)嵤┐髷?shù)據(jù)發(fā)展行動中,好的教育大數(shù)據(jù)怎樣才能挖掘出來,又該進行怎樣的分析處理?大數(shù)據(jù)怎樣為教育助力使其更加公平優(yōu)質(zhì)?對此,記者對相關專家和從業(yè)人員進行了深入采訪。
訪談嘉賓:
戚萬學 曲阜師范大學黨委書記、中國教育大數(shù)據(jù)研究院院長
甘健侯 云南師范大學民族教育信息化教育部重點實驗室常務副主任
方海光 首都師范大學教育技術系教授、遠程教育研究所所長
李 超 學堂在線總裁
好的教育大數(shù)據(jù)怎樣才能挖掘出來
記者:當前,“大數(shù)據(jù)”成了一個時髦名詞。好的教育大數(shù)據(jù)是什么樣?教育數(shù)據(jù)數(shù)量越多越好嗎?
戚萬學:大數(shù)據(jù)之“大”,我們一般理解為“數(shù)量”規(guī)模之大,通常數(shù)據(jù)樣本量越大,越有利于對數(shù)據(jù)進行多維的聚類、聚合、聚集分析,更有利于“掃描”和“透視”看似毫無價值、毫無關聯(lián)數(shù)據(jù)之中的相關性、邏輯性直至規(guī)律性,從而可以進行評價和趨勢預測。大數(shù)據(jù)之“大”,還有一種理解是處理技術的“大”。對于教育大數(shù)據(jù)而言,需要數(shù)據(jù)的不斷累積和增多,同時也需要相應大數(shù)據(jù)挖掘分析技術不斷提高。教育大數(shù)據(jù)的價值在于幫助決策,一般而言,好的教育大數(shù)據(jù)要具備精確、完整、可靠性、視覺化呈現(xiàn)、存取性高等特征。
甘健侯:教育大數(shù)據(jù)之“大”并非只是數(shù)量之大,更為強調(diào)的是數(shù)據(jù)蘊含的“價值”之大。實質(zhì)上,教育大數(shù)據(jù)并不是越多越好。對于數(shù)據(jù)科學家來說,重要的不是得到最多的數(shù)據(jù),而是看通過哪些數(shù)據(jù)可以得出真正有價值的結(jié)果。教育大數(shù)據(jù)大致分為教學資源類大數(shù)據(jù)、教育教學管理大數(shù)據(jù)、教與學行為大數(shù)據(jù)、教育教學評估大數(shù)據(jù)四類。教育大數(shù)據(jù)并非包括所有數(shù)據(jù),因為教育活動過程中也會產(chǎn)生大量無意義的“噪聲”數(shù)據(jù),需要根據(jù)教育的應用目的進行數(shù)據(jù)過濾和“清洗”,為后期深度挖掘和分析做準備。因此,好的教育大數(shù)據(jù)一定是科學、客觀、準確、有用的,要把數(shù)據(jù)與人的差異化有機結(jié)合起來。
方海光:教育大數(shù)據(jù)并非越多越好,教育大數(shù)據(jù)要能服務教育發(fā)展、具有教育目的性,而非盲目地囊括一切數(shù)據(jù)。教育大數(shù)據(jù)是以業(yè)務應用導向為評判標準的,即應用是檢驗教育大數(shù)據(jù)的唯一標準。好的教育大數(shù)據(jù)可以在提升教育質(zhì)量、促進教育公平、實現(xiàn)個性化學習、優(yōu)化教育資源配置、輔助教育科學決策等方面發(fā)揮重要作用。
記者:教育大數(shù)據(jù)豐富多樣、種類繁多,在海量的教育數(shù)據(jù)中,怎樣挖掘出好的教育大數(shù)據(jù)?
戚萬學:教育過程中每分每秒都在產(chǎn)生大量豐富、復雜且多樣的信息,這些信息必須經(jīng)過深入的挖掘才能轉(zhuǎn)化成可以運用的教育數(shù)據(jù)。如何挖掘教育大數(shù)據(jù)一直是擺在教育研究者與*面前的重要課題,也是一個難題。好的教育大數(shù)據(jù)是憑借數(shù)據(jù)挖掘者敏銳的洞察力與先進的挖掘技術來獲得的。好的教育大數(shù)據(jù)必須有好的理念、好的問題意識、有趣的研究設計,然后才是好的挖掘技術。在數(shù)據(jù)挖掘過程中,應該避免唯技術化和工具化傾向。
李超:大數(shù)據(jù)挖掘不能離開教育實踐,無論是在線教育還是課堂教學,我們都不能為了抓數(shù)據(jù)而去抓數(shù)據(jù),而要從貼近教師的教學需要、滿足學生的學習需要出發(fā),真正以學習者為中心去獲取大數(shù)據(jù)。非結(jié)構化的教育數(shù)據(jù)如圖片文本,需要通過充分利用好現(xiàn)在的信息技術手段,通過人工智能、模式分析、行為分析的了解和認知科學的發(fā)展、教育技術的最新理念,把它們轉(zhuǎn)換成結(jié)構化的教育數(shù)據(jù)。更關鍵的是要能夠把這些非結(jié)構化數(shù)據(jù),通過模型在教育過程中去指導、幫助教師以及指導整個系統(tǒng)開發(fā),然后再去獲取數(shù)據(jù)優(yōu)化模型,通過往復的過程以后,可以真正實現(xiàn)科學化指導。
甘健侯:好的教育大數(shù)據(jù)需要對教育數(shù)據(jù)進行深度挖掘。這個過程中需要綜合運用數(shù)學統(tǒng)計、機器學習、數(shù)據(jù)挖掘和人工智能等多交叉領域的技術和方法,對教育大數(shù)據(jù)進行處理和分析。通過數(shù)據(jù)建模,發(fā)現(xiàn)學習者學習結(jié)果與學習內(nèi)容、學習資源和教學行為等變量的相關關系,來預測學習者未來的學習趨勢,促進學習者有效學習的發(fā)生。
方海光:好的教育大數(shù)據(jù)也是重要的教育資源之一。為使數(shù)據(jù)資源物盡其用,當前最需要的就是挖掘能夠促進共建共享的教育大數(shù)據(jù)。共建共享不僅有利于加速教育大數(shù)據(jù)產(chǎn)品的應用和開發(fā),也有利于降低成本優(yōu)化體驗。對于半結(jié)構化或非結(jié)構化的數(shù)據(jù),可以采用自然語言理解、模式識別等人工智能手段進行信息抽取,還可以通過專家人為地進行協(xié)同標簽處理,這樣可以將其轉(zhuǎn)化為結(jié)構化數(shù)據(jù)。對于雜質(zhì)較多的數(shù)據(jù),可以在數(shù)據(jù)挖掘時進行數(shù)據(jù)清洗。對于實時產(chǎn)生的數(shù)據(jù)可以使用自動獲取效率優(yōu)先的方式來采集數(shù)據(jù)。
豐富多樣的教育大數(shù)據(jù)如何處理
記者:在云存儲和云計算的基礎上,如何利用信息技術等手段對非結(jié)構化和半結(jié)構化教育數(shù)據(jù)進行有效處理?
戚萬學:非結(jié)構化數(shù)據(jù)轉(zhuǎn)化為結(jié)構化數(shù)據(jù),是大數(shù)據(jù)產(chǎn)生效力的重要途徑。常見的教育大數(shù)據(jù),都是非結(jié)構化的類型,能直接進行數(shù)據(jù)分析的結(jié)構化數(shù)據(jù)反而較少。舉例而言,教師的教學視頻、學生的作業(yè)等都屬于非結(jié)構化的數(shù)據(jù)。要解決非結(jié)構化數(shù)據(jù)帶來的挑戰(zhàn),就是利用信息技術進行數(shù)據(jù)轉(zhuǎn)化。在數(shù)據(jù)分析方面,目前已經(jīng)有相當成熟的分析方式,包括傳統(tǒng)統(tǒng)計學的回歸分析、類別分析和決策樹等,真正面臨的挑戰(zhàn)反而是數(shù)據(jù)的清洗及去敏的處理,關鍵是確保數(shù)據(jù)與數(shù)據(jù)產(chǎn)生者之間的匿名性,即在經(jīng)過數(shù)據(jù)清洗后,無法通過數(shù)據(jù)去辨識出該數(shù)據(jù)所屬者的信息。如此,才能確保學生個人的信息不外流,符合一般教學及研究的倫理守則。
李超:在教育大數(shù)據(jù)的挖掘和分析上,在整個教育教學過程中,現(xiàn)有的手段能夠收集到的信息還不夠。在大量占有這些數(shù)據(jù)的時候,我們一定要利用人工智能或者最新的神經(jīng)網(wǎng)絡深度學習等技術,基于實踐數(shù)據(jù)去進行處理總結(jié)和分析,同時要把這些結(jié)果和總結(jié)分析反哺到教育過程中去。
甘健侯:教育數(shù)據(jù)的處理可分為教育數(shù)據(jù)的獲取與抽取、教育數(shù)據(jù)的存儲與管理、教育數(shù)據(jù)的分析與挖掘三個階段。在云存儲和云計算的基礎上,傳統(tǒng)關系數(shù)據(jù)庫無論從描述能力上還是從管理數(shù)據(jù)的規(guī)模上,都無法應對非結(jié)構化和半結(jié)構化的數(shù)據(jù)管理要求,因此如何利用信息技術建立有效的非結(jié)構化和半結(jié)構化教育數(shù)據(jù)管理平臺是關鍵。首先,針對半結(jié)構化和非結(jié)構化數(shù)據(jù)存儲和分析的需求,建立統(tǒng)一的數(shù)據(jù)模型。其次,利用云存儲和云計算,構建分布式與并行處理模型和架構,支持高度并行化與可擴展性,從而保證教育大數(shù)據(jù)的高效處理。再其次,支持查詢語言與數(shù)據(jù)可視化功能,滿足用戶對教育大數(shù)據(jù)進行訪問與分析的接口需要,以提升教育數(shù)據(jù)處理的有效性。