普林斯頓大學聯合IBM提出利用自動特徵學習實現時間序列分割
圖:pixabay
原文來源:arxiv
作者:Wei-Han Lee、Jorge Ortiz、Bongjun Ko、Ruby Lee
「雷克世界」編譯:嗯~是阿童木呀
大家都知道,近年來,物聯網(IoT)的應用越來越受歡迎,其應用範圍從構建能源監控到個人健康追蹤和活動識別。為了利用這些數據,自動知識提取(automatic knowledge extraction)必須按比例進行。因此,我們可以看到,最近很多物聯網數據集都包含一個人類專家指定狀態的注釋,記錄為數據序列中的一組邊界和相關標註。這些數據可以用來構建自動標註演算法(automatic labeling algorithms),從而可以像專家一樣生成標註。在這裡,我們將人為指定的邊界稱為breakpoints(斷點)。傳統的變點檢測(changepoint detection)方法只能查找統計學意義上可檢測的邊界,其中,這些邊界被定義為數據序列的生成參數中的突變。然而,我們觀察到斷點往往出現在更細微的邊界上,而用這些統計方法對其進行檢測的效果並不是很好。在這項研究中,我們提出了一種新的,基於深度學習的無監督方法,它在性能表現上要優於現有的技術,並且能夠以較高的精確度學習更微妙的斷點邊界。對各種真實的數據集(包括人類活動感知數據、語音信號和腦電圖(EEG)活動軌跡)進行粗略的廣泛實驗,我們證明了我們所提出演算法在實際應用中的有效性。此外,研究結果表明,我們的方法較之以往的方法具有更顯著的有效性。
變點檢測是時間序列數據分析中所使用的一項重要的基本技術。它已經被廣泛應用於分析股票數據、物聯網(IoT)部署中的感測器數據、生理數據、以及許多其他的數據。變點檢測對於發現不同的值序列是如何與過程中的狀態相關聯的,具有至關重要的作用,其中,該過程是不可直接觀察的。通過檢查變點,分析人員可以構建這些序列的模型,或者在多個數據集中查找序列的模式。變點檢測是構建狀態空間過程模型的基本原理。
在不同的方法下使用智能手機感測器數據集進行活動識別的性能表現。綠線表示原始信號,紅圈線表示斷點的參照標準。(a)和(b)中的黃色星線分別表示使用現有具有伽瑪和高斯先驗分布的貝葉斯方法所檢測到的斷點。(c)中的藍色三角形線代表使用我們的方法所檢測到的斷點。我們可以看到,我們的方法在尋找實際應用的斷點方面要明顯優於以前的方法。
隨著可用數據量的增長,我們觀察到,其中很大一部分現在是由領域專家所提供的人為標註進行注釋的。這些標註對建模潛在狀態和狀態轉換序列是很有用的。通過檢查帶有注釋數據中指定狀態的時間邊界,分析人員可以尋找類似的轉換模式,並提供更複雜的模型以捕捉這些狀態之間的關係。例如,許多物聯網行動電話應用程序可以使用內置感測器推斷用戶的活動。為了訓練這些模型,用戶必須提供關於他們活動的相關信息。這些信息被記錄為數據中具有開始時間和結束時間的注釋。同樣地,專家花費大量的時間使用標註對心電圖(ECG)數據進行注釋,從而將追蹤的軌跡標記為患者的各種心臟狀態。
我們的斷點檢測系統的管道
變點是數據序列趨勢的突然變化。貝葉斯技術通過查找生成序列的分散式參數的變化發現了這一點。考慮到這個問題的普遍性,文獻中有很多涉及該問題的相關技術。該技術試圖通過一個預先確定的模型捕捉生成過程,目的是尋找生成過程中參數的變化。在學習專家指定的邊界方面,這些模型都失敗了——因為使用生成過程預先指定的模型很難捕獲這些變化,並且變點通常不會沿著參數移位邊界產生。
當狀態轉換是預先指定模型底層過程中的潛時間屬性的函數時,由專家指定的轉換點出現,其中,這些屬性很難在預先指定的模型中進行捕獲。這些規則被編碼為這些軌跡中的潛在特徵,並且實際上來說,幾乎不可能使用現有的基於生成模型的變點檢測演算法對其進行檢測。我們觀察到,現有的方法在識別人為指定的變點方面做得很差。綜上所述,現有的變點檢測方法存在兩個主要缺陷:(1)依賴於時間序列數據的先驗參數模型;(2)它們往往使用的是從輸入數據中提取的簡單特徵,如均值、方差、頻譜等。因此,以前的方法只能發現統計學意義上可檢測的邊界。為了區別於這些統計學意義上可檢測的變點,我們在此處將由人為指定的變點稱為斷點。此外,我們提出了一種新的演算法,使用深度學習技術對斷點進行檢測,而無需事先假設生成過程。我們的方法能夠自動學習最有用的特徵以表示輸入數據,從而可以發現真實時間序列數據中的隱藏結構。需要注意的是,我們的方法在通用變點檢測方面具有廣泛的適用性,即使是超出此應用,在像本文所描述的斷點檢測中,它也有著廣泛的適用性。
在一個由生成式模型和真實Crowdsignal.io數據集產生的合成數據上,使用我們的方法進行的實驗。上面的數字顯示原始輸入信號(顯示為綠線),而變點的參照標準顯示為紅線。底部的數字顯示了兩個連續時間窗口中特徵之間的距離(如藍線所示),檢測到的變點顯示為紅色的虛線。我們可以看到,我們的方法在檢測統計學意義上可檢測的變點(使用合成數據)以及人為指定的斷點(使用真實的Crowdsignal.io數據)方面是有效的。
在上文中,圖1顯示了在使用智能手機感測器數據集進行活動檢測過程中,我們的方法與貝葉斯變點檢測技術的比較。需要注意的是,在貝葉斯變點檢測技術中,即使對參數進行仔細的調優後,該方法仍然不能準確地檢測這些斷點邊界。此外,該技術對參數變化很敏感,人們可以輕易地就將斷點的數量估計的過高或過低。此外,我們還並不清楚該如何調整參數以捕獲真實分段的統計屬性。相比之下,我們的方法能夠自動學習這些屬性。我們將通過從直觀觀察和分析真實軌跡學習到的一套簡單的啟發式,來解釋我們是如何選擇模型的超參數的。
總之,我們做出了如下貢獻:
?我們引入一種稱為breakpoints(斷點)的新型變點,並標明幾乎不可能用現有的變點檢測技術對其進行檢測。
?我們提出了一種全新的方法,它能夠利用深度學習來自動學習有用的特徵,而這些特徵代表了專家指定的序列片段所生成的數據序列。相較於以往的方法,我們的技術並不依賴於假定變點是由生成過程中的參數的突然變化引起的,從而使其對於實際應用有著廣泛的適用性。
?我們通過使用多個真實數據集進行了廣泛的實驗分析,證明了我們方法的有效性。此外,我們還展示了該如何從數據的統計屬性與模型性能之間的關聯啟發式中選擇模型的超參數。經實驗分析表明,我們的方法可以作為實際應用的關鍵推動力。
?此外,我們將我們的方法與幾種現有的方法進行了比較,並引入一個新的度量標準,用于衡量在預測變點數量的精確度及其與真實變點坐標的重疊方面,變點檢測方案的有效性。實驗結果表明,我相較於現有方法,我們的方法具有顯著的優勢。
在本文中,我們提出了一種檢測人為指定斷點的新方法,它利用深度學習技術自動提取特徵值,從而可以很好地表示輸入時間序列數據的特徵。值得注意的是,我們的方法在通用的變點檢測技術方面是很有效的,除此之外,即使是在本文所考慮的斷點檢測的背景下也具有很好的適用性。與以往方法不同的是,我們的方法不依賴於指定輸入數據的先驗生成模型。此外,我們通過對窗口大小、codebook碼本大小以及網路深度進行仔細的敏感性分析,引入了一個簡單的超參數調優標準。對包括人類活動感知、語音和腦電圖軌跡在內的多種真實數據集進行粗略的廣泛實驗,證明了我們所提出的方法的有效性,並表明它顯著優於現有的方法。我們的技術可以作為分析一系列廣泛的真實時間序列數據的關鍵原語。
TAG:雷克世界 |