當前位置:
首頁 > 最新 > GPDR條例和視頻檢索論文閱讀

GPDR條例和視頻檢索論文閱讀

一GDPR(General Data ProtectionRegulation)

通用數據保護條例(又稱一般數據保護法案)

1.制定者:歐盟

2.生效日期:20180525

3.羅列幾點GDPR要求:

(1)任何app或應用的開發者,倘若需要搜集歐洲用戶身份信息(如果app的使用對象有歐洲用戶,就必須遵守該法案,否則會面臨巨·額罰款),都必須以清晰顯著明確的方式向用戶徵求是否同意,例如,

明確的表達是:

3)我不同意搜集我的數據

不明確(不合法)的表達是:

1)以複選框的形式呈現,默認勾選『同意搜集數據』

2)請閱讀下面的關於GDPR的郵件(然後要求用戶勾選『我同意上述的條款』。

(2)用戶數據的定義:PII(Personal identifierInformation),即任何能藉助該數據定位到用戶的數據。Personal data is any information relating to an individual, whether itrelates to his or her private, professional or public life. It can be anythingfroma name, a home address, a photo, an email address, bank details, posts onsocial networking websites, medical information, or a computer』s IP address.

(3)支持用戶撤銷:若用戶之前是同意搜集,之後也要允許用戶撤銷成不同意搜集,這就需要應用的developer能夠支持將之前搜集的(能夠定位出用戶的)用戶數據轉換成(不能夠定位出用戶的)數據,比如說原先搜集的用戶e-mail address必須處理成non PII的e-mail address,處理之後,開發者雖然知道這個non PII的信息代表一個email address,但是,並不能通過處理後的email address來定位到用戶。(明文處理轉密文處理,可能涉及到同態加密、可搜索加密、比較加密等支持密文處理的安全技術)

(4)受影響的行業:

1)數字廣告行業:如果用戶不同意搜集個人數據,將無法定位用戶,因此也將無法為用戶提供個性化的廣告。

2)電商:如果用戶不同意搜集數據,也將無法為用戶推薦個性化的商品

3)郵件推廣

(5)蝶蝶的疑惑:數據是處理成不能識別出用戶(明文)身份的格式還是說即便是基於密文處理以find用戶也不行?因為基於密文的操作(比如比較、檢索、推送)雖然定位不出具體對應哪個用戶,但仍可以達到與操作明文等效的功能,這屬於違規範圍嗎?如果算的話,那用戶的PII就不需要採用支持密文操作的加密處理了,只要對PII加密並且使得密鑰只有User知道,app的developer拿不到密鑰。

(6)在DataProtection設計時就該考慮到:

1)將搜集到的PII數據降到最少,只要夠達到搜集的最初目的就行,搜集越多後期審計和重處理時越繁瑣

2)User應該具有對他們PII數據的訪問和擁有許可權。

二閱讀崔昊旻博士論文(2014)關於海量視頻節目的檢索

1.場景:輸入視頻片段,從海量視頻庫中找出相同或相似視頻(視頻推薦的輸入和輸出)

2.現狀:基於video本身(即內容)進行檢索已經逐漸取代了基於關鍵詞(純標籤式)的檢索

視頻檢索的數學描述:

(1)視頻片段表示為視頻n個特徵向量構成的序列X=,video中的一個關鍵幀用一個特徵向量描述其特徵

(2)兩個videos X和Y的特徵序列分別為:X=和Y=

(3)若X和Y相似,兩個序列中必然存在r個共同特徵向量,構成集合C=

(4)X和Y的相似性用兩個序列間的距離來衡量。

3.視頻檢索時要考慮的問題:

(1)檢索耗時:要縮小相似性video的候選集合,以加速檢索過程

(2)視頻特徵的相似性如何度量:video數據不僅海量,單看一個video,它的數據維度還非常高

(2)檢索精度:最好能支持參數設置,比如提供相似性度量的閾值調整(蝶蝶idea)

4.視頻檢索步驟:

(1)提取video幀的全局特徵向量(是指逐幀提取還是整個片段提取出??)

(2)Hash(特徵向量)à特徵點

(3)將視頻片段表示成特徵點的時序序列(是按照視頻原來的幀時序排的嗎?)

(4)檢索時採用倒排索引計算two videos的相同特徵點種類和離散度(為什麼不是相同特徵點數目?),刪除無關候選項(無關的衡量標準是什麼)

倒排索引:倒排表記錄了包含某個單詞的文檔標號

(5)計算序列距離,度量方法是基於Jaccard距離的動態時間規整DWT,同時採取了優化,加入對距離下屆的預估

(6)方案的主要優勢在於達到同樣檢索精度的情況下,檢索時間縮短為原來DWT的1/3

5.視頻關鍵幀:某些幀可以在一定程度上表徵整個視頻片段的信息,考慮把它們作為檢索的依據,這裡涉及到關鍵幀提取的技術。關鍵幀含的信息也太多了,需要進行基於關鍵幀的特徵提取,所以這裡又涉及如何表示一個關鍵幀的特徵。

(1)關鍵幀提取方法:

1)採樣法:固定間隔抽取或者隨機抽取

存在鏡頭分割的video片段,找到每個鏡頭中的關鍵幀:

2)順序比較法:逐幀與前一個關鍵幀比較,明顯different(比如顏色直方圖的差異)的就作為new關鍵幀

3)參考幀法:指定一個參考幀,然後逐幀比較,比如先構建一個平均直方圖,然後逐幀計算該幀的顏色直方圖與平均直方圖的距離,繪製出一條距離曲線,曲線上特定點對應的視頻幀就是關鍵幀。

4)聚類法:將所有視頻幀聚類,確定聚類中心,選擇靠近聚類中心的若干點作為關鍵幀。

(2)關鍵幀特徵表示:

1)顏色特徵用顏色直方圖或顏色距,針對RGB顏色空間,先是採用Lloyd演算法將RGB顏色量化到N個桶內,然後將關鍵幀圖像的每一像素點放入對應量化區間的桶中,若第i個桶包含pi個像素點,那這個關鍵幀的顏色特徵就可以用p=[p0,p1,p2…pN-1]的轉置表示。

6.視頻相似的度量標準

(1)相似距離的度量準則

1)歐式距離:度量真實距離

2)Consine距離:若兩個向量都是高維向量,計算兩個向量的夾角餘弦cos作為距離,但是它度量出的是兩個向量方向上的相似度,方向越相似,夾角越小,cos值越接近1,挺適合用於推薦系統中衡量用戶喜好的一致性。

3)Jaccard距離:度量樣本集合間的相似度,比如文本的相似性(抄襲),購物車列表相似性。

4)編輯距離:比如兩個比特串,通過異或操作得到1的個數即對應位置不同的比特數

(2)序列相似性度量:

視頻轉換成了一個有N個高維向量組成的向量序列,N是關鍵幀的個數,那麼度量兩個視頻的相似度就變成了度量兩個向量序列的相似度。

1)DTW:動態時間規整,適合兩個時序序列的最優匹配

2)LCS:最長公共子串模型,主要是數值計算,求得的結果能反映出兩個序列的幅值差異

(3)直方圖或分布的相似性度量:EMD演算法,需要對視頻分片的每個幀附加權重,計算分片的加權圖,然後計算兩個分片間的相似度。從計算幀距離上升到了計算分片距離。

(4)如果想基於高維序列集合全體只得到一個視頻整體特徵信息,計算兩個視頻的整體特徵信息的相似度。

主成分分析法:獲得整體特徵信息,用於表示整個高維點的集合,難點在於不好確定點集滿足何種分布,因為該方法需要假定點集滿足高斯分布。

7.作者的方案:

創新點:

(1)對候選集合篩選以獲得更小候選集合

(2)估計序列距離的下限,以省去不必要的比對,提高檢索速度。

但是我關注的是他是如何提取出視頻特徵並在相似檢索時使用的。

方案設計:

(1)特徵提取:HSV顏色直方圖,用於描述一個視頻幀圖像的全局特徵,獲得的是低維視頻特徵,每個關鍵幀用一個11維的特徵向量描述【方法在文獻87】(哇塞,昨天西電那個密文圖像檢索,圖像的特徵向量都用到49維,這個維度這麼少能準確描述幀圖像嗎?)

(2)轉換成特徵點序列:hash(一個m維特徵向量)à二進位序列à長整數表示為一個特徵點à由n個特徵點構成的特徵點序列

其實這是一個降維過程,降維的方法有:PCA、聚類、特徵hash等,這裡採用的是第三種。視頻片段就變成了視頻特徵點構成的序列。

(3)檢索時的相似性度量指標:

1)相似特徵點數目:hash值相同的點的數目/參與比較的所有hash值總數,比值越接近於1表面特徵點重合的越多(採用倒排索引)

2)相似特徵點離散度:相似的特徵點(即hash值相同)出現的位置在整個特徵點序列中可能是連續的也可能是離散的,完全連續,表面檢索到的就是原視頻,連續性較高表明可能是在原視頻中插了廣告,離散度較高時可能是因為是電影片段混剪出的宣傳片,離散度很高說明相似度很低。引入一個總體最長相似度,即連續相似的特徵點序列的最大長度能夠在一定程度上評估。(採用倒排索引)缺少對特徵點順序的度量。

3)對相似特徵點序列的相似性度量:DTW時,採用Jaccaed對hash值間的距離進行度量,因為hash值不能體現真實的距離。使用DTW時要注意限定好約束條件,避免畸形匹配,方案中採用的是the Sakoe-Chiba約束。DTW距離是指所有規整路徑中最短路徑的長度。

DTW用於比較時間序列是超級棒的,但是計算代價也較高,動態規劃演算法研一上時演算法講座課上實現過哦。

8.基於Jaccard距離的DTW下限估計,可以快速估計出距離

用Jaccard距離估計視頻特徵向量hash值的距離,思想是採用比真實值小的估計值用於距離的逐步累積計算,以find真實距離可能的下限值。

(1)估計待測video和M個候選videos的特徵序列的DTW下限距離

(2)將估計結果升序排列,小à大

(3)從小的一端開始選取k個候選videos,計算實際DTW

(4)針對M-k個剩餘候選videos,

If剩餘videos基於相似特徵點數目和相似特徵點離散度的表現均不如前k個videos,則不予計算實際DTW;

If剩餘videos的估計DTW比前k個videos的實際DTW都要大,也不予計算實際DTW

Else計算video的實際DTW

(5)輸出實際DTW隊列中距離最小的前k個候選videos作為檢索結果

9.實驗結果和分析

(1)數據集1:1000部flv格式的video片段,自己從網上下的,將其中一個設為請求檢索的video

(2)變換:VirtualDub軟體對videos進行12種變換處理,包括亮度、飽和度變換,長寬比調整,解析度變換,加字幕,jialogo,切除圖像邊緣,降低幀率等。

(3)數據集2:MUSCLE VCD2007,101個videos,選取其中一個video變換後得到15個相似樣本

(4)實驗步驟:

1)系統採樣:間隔25幀選取關鍵幀

2)HSV顏色直方圖構建特徵提取,描述關鍵幀的全局特徵,11維特徵向量,hash值空間:0~2^11.

3)針對數據集1採用K近鄰檢索:輸入一個video片段,選出K個相似videos,檢索準確率評估指標:準確率、召回率

4)針對數據集1採用find一個最相似video的方法,標準是相似特徵點數目超過一半。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 蝶蝶導論 的精彩文章:

TAG:蝶蝶導論 |