大數據與人工智慧漫談之粗糙集的數學結構
大數據和人工智慧是目前最活躍的研究領域之一,引起了眾多科學工作者的高度關注,而知識發現正是大數據和人工智慧的核心課題。 波蘭數學家 Pawlak 於1982 年提出了粗糙集理論,他從資料庫出發,通過對對象集的劃分,給出了下近似運算元和上近似運算元兩個重要概念,正好反映了人們認知過程中的充分性認識和必要性認識,從而粗糙集理論為知識發現提供了一種有效的數學方法。愛因斯坦指出「一切科學的偉大目標,要從儘可能少的假設或者公理出發,通過邏輯的演繹,概括儘可能多的經驗事實」。因此將 Pawlak 從資料庫提出的粗糙集理論,特別是下近似運算元和上近似運算元兩個重要概念公理化有著重要的科學意義。
為了幫助讀者對粗糙集的數學結構有一個初步的了解,本文主要介紹了以下三個方面的內容:粗糙集的基本概念和思想、粗糙集理論在國內外的發展、Pawlak粗糙集模型的推廣及其數學結構。
圖片來源:pixabay
1
粗糙集簡介
粗糙集作為一種處理不精確、不確定與不完全數據的數學理論,最初是由波蘭數學家 Pawlak於1982年提出的,其主要思想是利用已知的不完全信息或知識去近似刻畫不精確或不確定的概念,或者依據觀察、度量到的結果去處理不分明的現象和問題。從數學角度來看,粗糙集理論不像大多數現代數學理論那樣具有高度的複雜性和抽象性,掌握此理論也不需要過多的現代數學方面的預備知識。但是簡單易行正是粗糙集理論的優點,在許多實際問題中,這一理論所涉及的數學工具已經足以完成表示和挖掘知識的任務。經過三十多年的不懈研究,粗糙集在理論上不斷完善,在應用上廣泛擴展,目前已經在信息系統分析、機器學習與知識發現、數據挖掘、決策支持系統、過程式控制制、故障檢測、模式識別等方面取得了成功的應用。
粗糙集的基本思想是近似,這種思想來源於數學的很多分支。在拓撲學中,一個集合可以由它的一對內部和閉包近似; 在測度論中,內測度和外測度大致反映了任意集合的度量; 而可測函數是由階梯函數來近似的; 在逼近論中,連續函數可以由多項式一致地近似表示的。因此,粗糙集理論中的下近似運算元與上近似運算元借鑒了上述這些概念的思想,並且和證據理論中的信任函數與似然函數、拓撲空間中的內部運算元與閉包運算元、模態邏輯中的必然性運算元與可能性運算元有著密切的關係。
粗糙集示意圖
2
粗糙集理論的發展
受冷戰思想的影響和語言的限制,在 20世紀 80年代初,粗糙集理論的研究人員主要局限在東歐一些國家,當時並沒有引起國際學術界的重視。20世紀 80年代末 90年代初,由於該理論在人工智慧領域得到成功的應用,特別是 1991年,Pawlak出版了專著Rough Sets: Theoretical Aspects of Reasoning about Data [文獻86],從此,這一理論引起了各國學者的廣泛關注。1992年第一屆粗糙集方面的國際研討會在波蘭召開,著重討論了集合近似定義的基本思想和應用,以及粗糙環境下的機器學習基礎問題。從此每年都召開以粗糙集為主題的國際研討會,還成立了國際粗糙集學會 (International Rough Set Society,IRSS),並定期在 Internet上發布電子公告,加速了粗糙集理論的發展與交流。
我國在粗糙集理論與應用研究方面起步較晚,較早從事這方面研究的有南昌大學的劉清教授、四川理工大學的曾黃麟教授、同濟大學的苗奪謙教授、河北大學的王熙照教授和重慶郵電大學的王國胤教授等。2001年中國人工智慧學會粗糙集與軟計算專業委員會在重慶郵電大學成立,並召開了第一屆學術年會。此後,越來越多的數學與計算機學者加入到這一研究領域,並取得了眾多在國際上有影響的研究成果。2017年,為了擴大該研究領域在人工智慧研究方面的影響力,專業委員會名稱更改為中國人工智慧學會粒計算與知識發現專業委員會, 2018年專業委員會年會參會人數超過了 500人,由此可見粗糙集理論與應用在我國已經成為很活躍的研究領域。
2018年專業委員會年會會議現場
從 20世紀末開始,我們的導師張文修教授開始關注粗糙集方面的研究,並於 1999年春開始招收從事這方面研究的博士研究生。作者吳偉志有幸成為張先生第一個做有關粗糙集方向研究的博士生。在西安交通大學理學院張文修教授組織的博士生討論班上,吳偉志、梁吉業和李德玉差不多同時轉入該領域的研究,三人在讀博士期間又分別到香港中文大學和香港城市大學進行為期半年的合作訪問研究,研究很快進入到國際前沿。2000年以後隨著米據生、魏玲、李同軍、邵明文、徐偉華、張紅英、馬建敏、袁修久、王虹、李鴻儒、魏立力、宋笑雪、王霞、周磊等博士生以及陳德剛與安秋生博士後的加入,這個研究團隊越來越壯大,並且這些成員大多數都有在香港中文大學和香港理工大學進行合作訪問研究的經歷,該團隊的研究一直處於國際前沿,張文修教授還進入了國際計算機領域的高被引學者榜單。博士們畢業後到各地高校繼續從事粗糙集方面的研究,又組織了更多的研究團隊,張文修教授團隊第三代出現了李金海、解濱、馮濤、錢婷、萬青、馬周明等優秀博士生。迄今為止,張文修老師培養出幾十位粗糙集研究方面的專家,取得了一大批在國內外有影響的研究成果。目前,該團隊成員每年組織多次學術活動來報告各自的最新研究成果,討論最新的研究動態。這個團隊已經成為國內甚至國際上粗糙集領域有影響的研究力量,其成員每年都能獲得若干項國家自然科學基金等項目的資助。
3
Pawlak粗糙集模型的推廣及其數學結構
Pawlak粗糙集模型的推廣一直是粗糙集理論研究的主要方向之一。事實上,粗糙集理論大多數成功的應用都從不同側面對粗糙集模型進行了擴展。粗糙集理論推廣的核心是近似運算元的定義問題,主要有兩種方法: 構造性方法與公理化方法。構造性方法的主要思路是從給定的近似空間出發,以論域上的二元關係、鄰域系統或布爾代數作為基本要素,構造性地定義近似運算元,建立粗糙集代數系統來研究粗糙集的數學結構和性質。由於二元關係常常用來表示信息系統中的可利用信息,目前,粗糙集在數據分析中的應用基本上利用構造性方法定義近似運算元。
公理化方法也稱為運算元方法,與構造性方法相反,這種方法是通過一組公理定義一對近似運算元,建立粗糙集代數系統,然後再去找相應的近似空間,使得由該近似空間導出的近似運算元恰好就是給定的由公理刻畫的近似運算元。這種方法的優點是能夠深刻地了解近似運算元的數學結構,其缺點是應用性不夠強。公理化方法最早是由 Lin與 Liu在 1994年提出的 [文獻58],後來,許多學者從多個方面研究了多種粗糙近似運算元的公理刻畫。吳偉志和米據生從2001年開始這方面的研究,並與2002年發表了第一篇這方面的研究成果。開始的時候,我們熱衷於研究經典粗糙集、模糊粗糙集、粗糙模糊集的推廣與公理刻畫,分別利用 max與 min運算元、三角模與反三角模、一般蘊涵運算元等對多種形式的粗糙近似運算元的構造與公理刻畫進行了研究,發表了 20餘篇高水平研究成果,解決了一些專家提出的公開問題。受文獻 [62]的啟發,作者吳偉志等自 2014年之後,致力於對我們前期的公理化研究成果發展到用一條公理刻畫近似運算元,取得了形式上更為簡潔的研究成果。
拓撲學是數學的一個重要分支,其概念出現在幾乎所有的數學分支中,拓撲結構也是知識表示和信息處理的重要基礎,因此,對粗糙集拓撲結構的研究自然成為粗糙集理論的關鍵問題。事實上,對粗糙集與拓撲空間之間關係的研究在 20世紀 80年代末就有文獻報道。早期的研究主要集中在經典粗糙近似運算元與經典拓撲空間之間的關係 [文獻14,15,119]。早在 2000年,Boixader等 [文獻8]就對模糊粗糙集與模糊拓撲空間之間的關係開展研究,但文獻 [文獻8]所研究的模糊粗糙近似運算元是定義在 T-等價模糊關係基礎上的,退化在經典情形就是 Pawlak近似運算元。Qin等在文獻 [文獻90,91]中給出了在非等價關係下模糊粗糙集和經典粗糙集與拓撲空間之間的關係,但文獻 [文獻90]的模糊粗糙集只是限於特殊的三角模 T = min。作者對於模糊環境下和直覺模糊環境下基於一般三角模以及更一般的蘊涵運算元下的粗糙集與拓撲空間之間的關係進行了研究,給出了由近似空間生成拓撲的條件,以及一個拓撲由近似空間生成的條件。
關於粗糙集與證據理論方面的研究,Pawlak [文獻85]最早證明了 Pawlak近似空間中集合的下近似的概率和上近似的概率分別為該集合的信任測度與似然測度。Skowron進一步將這一結構推廣到更加一般的近似空間 [文獻100,102]。Yao發表於 1998年的文獻 [160]是關於經典粗糙集與證據理論之間關係的最有影響的成果,給出了各種近似空間導出的下近似與上近似和信任結構導出的信任函數與似然函數之間的相互關係與解釋。其後,作者就對多種模糊近似運算元與模糊證據理論之間的關係開展了研究,證明了在較弱的條件下由各種近似空間導出的集合的下近似概率和上近似概率分別是該集合在某個信任結構下導出的信任函數與似然函數。反之,各種信任結構及其導出的信任函數與似然函數一定可以表示為某個概率近似空間的下近似的概率和上近似的概率。這就給出了這兩個理論之間的相互表示與解釋。這些結果為基於證據理論的屬性約簡和知識發現方法提供了堅實的理論基礎。
一個好的數學結構是簡單的, 常常只由少數幾條思想規定構成, 但她又是非常本質的。她使我們猶如站在高山之巔, 俯瞰廣闊的視野, 看到了所有經驗結果之間的內在聯繫, 產生出一個豐富的理論體系。她不僅能夠演繹出已有的從實際中得到的所有結果, 還能夠演繹出許多原來沒有的有價值的結果。雖然我們在粗糙集的數學結構研究方面已經做了一些研究工作, 但是還有許多內容的研究需要進一步深入, 有許多理論需要進一步完善, 有許多應用需要進一步拓展。相信更多有興趣的專家以及科研工作者能夠在這樣的一個數學結構上做出更多更優秀的研究成果。
本文摘編自吳偉志、米據生著《粗糙集的數學結構》一書前言及張文修所作序部分,內容有刪節( 科學出版社出版,2019),文中參考文獻詳見圖書,標題為編者所加。
作者簡介
吳偉志
男,浙江海洋大學二級教授,博士生導師,全國優秀博士學位論文提名獎獲得者, 國務院政府津貼獲得者。現任中國工智能學會粒計算與知識發現專業委員會名譽主任委員、中國系統工程學會模糊數學與模糊系統理事會常務理事、中國人工智慧學會理事、國際粗糙集學會會士(Fellow)。擔任雜誌International Journal of Machine Learning and Cybernetics副編輯、Transactions on Rough Sets等 6 個國際學術期刊以及中文核心期刊《計算機科學》與《模糊系統與數學》的編委。主要研究方向:粗糙集、概念格、隨機集、粒計算、數據挖掘等。發表學術論文 200 多篇,獲省部級及以上科研成果獎共 5 項,其中國家科學技術進步獎二等獎 1 項。2014~2018 年連續五年入選愛思唯爾發布的中國高被引學者榜單。
米據生
男,河北師範大學二級教授,博士生導師。現任中國人工智慧學會粒計算與知識發現專業委員會副主任、國際粗糙集聯合會常務委員、中國數學會理事、河北省數學會副理事長兼秘書長。主要研究方向:粗糙集、粒計算、概念格、數據挖掘與近似推理。發表學術論文 150餘篇,獲得省級自然科學獎 3 項。2014~2018 年連續五年入選愛思唯爾發布的中國高被引學者榜單。
《粗糙集的數學結構》
吳偉志、米據生 著
ISBN 978-7-03-061876-4
責任編輯:王胡權
內容簡介
粗糙集理論是 20 世紀 80 年代初提出的用於知識發現和數據挖掘的數學分支。 本書主要介紹基於二元關係的粗糙集的數學結構, 內容包括經典環境下、模糊環境下和直覺模糊環境下的粗糙近似運算元的構造性定義及其性質、近似運算元的理化刻畫、粗糙集理論與拓撲空間的關係、粗糙集理論與 Dempster-Shafer 證據理論的關係等。
本書可作為數學、計算機、信息科學、系統科學等專業高年級本科生及研究生教材, 也可作為從事相關專業的科研工作者的參考書。
(本期編輯:王芳)
一起閱讀科學!
科學出版社│微信ID:sciencepress-cspm
專業品質 學術價值
原創好讀 科學品味
更多好素材,期待您的來稿
※2019年精品推薦第25期
※「戰功赫赫」的蓋蒂——世界藝術瑰寶的保護者
TAG:科學出版社 |