GPDR條例和視頻檢索論文閱讀

最新 05-30

一GDPR（General Data ProtectionRegulation）

通用數據保護條例（又稱一般數據保護法案）

1.制定者：歐盟

2.生效日期：20180525

3.羅列幾點GDPR要求：

（1）任何app或應用的開發者，倘若需要搜集歐洲用戶身份信息（如果app的使用對象有歐洲用戶，就必須遵守該法案，否則會面臨巨·額罰款），都必須以清晰顯著明確的方式向用戶徵求是否同意，例如，

明確的表達是：

3）我不同意搜集我的數據

不明確（不合法）的表達是：

1）以複選框的形式呈現，默認勾選『同意搜集數據』

2）請閱讀下面的關於GDPR的郵件（然後要求用戶勾選『我同意上述的條款』。

（2）用戶數據的定義：PII（Personal identifierInformation），即任何能藉助該數據定位到用戶的數據。Personal data is any information relating to an individual, whether itrelates to his or her private, professional or public life. It can be anythingfroma name, a home address, a photo, an email address, bank details, posts onsocial networking websites, medical information, or a computer』s IP address.

（3）支持用戶撤銷：若用戶之前是同意搜集，之後也要允許用戶撤銷成不同意搜集，這就需要應用的developer能夠支持將之前搜集的（能夠定位出用戶的）用戶數據轉換成（不能夠定位出用戶的）數據，比如說原先搜集的用戶e-mail address必須處理成non PII的e-mail address，處理之後，開發者雖然知道這個non PII的信息代表一個email address，但是，並不能通過處理後的email address來定位到用戶。（明文處理轉密文處理，可能涉及到同態加密、可搜索加密、比較加密等支持密文處理的安全技術）

（4）受影響的行業：

1）數字廣告行業：如果用戶不同意搜集個人數據，將無法定位用戶，因此也將無法為用戶提供個性化的廣告。

2）電商：如果用戶不同意搜集數據，也將無法為用戶推薦個性化的商品

3）郵件推廣

（5）蝶蝶的疑惑：數據是處理成不能識別出用戶（明文）身份的格式還是說即便是基於密文處理以find用戶也不行？因為基於密文的操作（比如比較、檢索、推送）雖然定位不出具體對應哪個用戶，但仍可以達到與操作明文等效的功能，這屬於違規範圍嗎？如果算的話，那用戶的PII就不需要採用支持密文操作的加密處理了，只要對PII加密並且使得密鑰只有User知道，app的developer拿不到密鑰。

（6）在DataProtection設計時就該考慮到：

1）將搜集到的PII數據降到最少，只要夠達到搜集的最初目的就行，搜集越多後期審計和重處理時越繁瑣

2）User應該具有對他們PII數據的訪問和擁有許可權。

二閱讀崔昊旻博士論文（2014）關於海量視頻節目的檢索

1.場景：輸入視頻片段，從海量視頻庫中找出相同或相似視頻（視頻推薦的輸入和輸出）

2.現狀：基於video本身（即內容）進行檢索已經逐漸取代了基於關鍵詞（純標籤式）的檢索

視頻檢索的數學描述：

（1）視頻片段表示為視頻n個特徵向量構成的序列X=，video中的一個關鍵幀用一個特徵向量描述其特徵

（2）兩個videos X和Y的特徵序列分別為：X=和Y=

（3）若X和Y相似，兩個序列中必然存在r個共同特徵向量，構成集合C=

（4）X和Y的相似性用兩個序列間的距離來衡量。

3.視頻檢索時要考慮的問題：

（1）檢索耗時：要縮小相似性video的候選集合，以加速檢索過程

（2）視頻特徵的相似性如何度量：video數據不僅海量，單看一個video，它的數據維度還非常高

（2）檢索精度：最好能支持參數設置，比如提供相似性度量的閾值調整（蝶蝶idea）

4.視頻檢索步驟：

（1）提取video幀的全局特徵向量（是指逐幀提取還是整個片段提取出？？）

（2）Hash（特徵向量）à特徵點

（3）將視頻片段表示成特徵點的時序序列（是按照視頻原來的幀時序排的嗎？）

（4）檢索時採用倒排索引計算two videos的相同特徵點種類和離散度（為什麼不是相同特徵點數目？），刪除無關候選項（無關的衡量標準是什麼）

倒排索引：倒排表記錄了包含某個單詞的文檔標號

（5）計算序列距離，度量方法是基於Jaccard距離的動態時間規整DWT，同時採取了優化，加入對距離下屆的預估

（6）方案的主要優勢在於達到同樣檢索精度的情況下，檢索時間縮短為原來DWT的1/3

5.視頻關鍵幀：某些幀可以在一定程度上表徵整個視頻片段的信息，考慮把它們作為檢索的依據，這裡涉及到關鍵幀提取的技術。關鍵幀含的信息也太多了，需要進行基於關鍵幀的特徵提取，所以這裡又涉及如何表示一個關鍵幀的特徵。

（1）關鍵幀提取方法：

1）採樣法：固定間隔抽取或者隨機抽取

存在鏡頭分割的video片段，找到每個鏡頭中的關鍵幀：

2）順序比較法：逐幀與前一個關鍵幀比較，明顯different（比如顏色直方圖的差異）的就作為new關鍵幀

3）參考幀法：指定一個參考幀，然後逐幀比較，比如先構建一個平均直方圖，然後逐幀計算該幀的顏色直方圖與平均直方圖的距離，繪製出一條距離曲線，曲線上特定點對應的視頻幀就是關鍵幀。

4）聚類法：將所有視頻幀聚類，確定聚類中心，選擇靠近聚類中心的若干點作為關鍵幀。

（2）關鍵幀特徵表示：

1）顏色特徵用顏色直方圖或顏色距，針對RGB顏色空間，先是採用Lloyd演算法將RGB顏色量化到N個桶內，然後將關鍵幀圖像的每一像素點放入對應量化區間的桶中，若第i個桶包含pi個像素點，那這個關鍵幀的顏色特徵就可以用p=[p0,p1,p2…pN-1]的轉置表示。

6.視頻相似的度量標準

（1）相似距離的度量準則

1）歐式距離：度量真實距離

2）Consine距離：若兩個向量都是高維向量，計算兩個向量的夾角餘弦cos作為距離，但是它度量出的是兩個向量方向上的相似度，方向越相似，夾角越小，cos值越接近1，挺適合用於推薦系統中衡量用戶喜好的一致性。

3）Jaccard距離：度量樣本集合間的相似度，比如文本的相似性（抄襲），購物車列表相似性。

4）編輯距離：比如兩個比特串，通過異或操作得到1的個數即對應位置不同的比特數

（2）序列相似性度量：

視頻轉換成了一個有N個高維向量組成的向量序列，N是關鍵幀的個數，那麼度量兩個視頻的相似度就變成了度量兩個向量序列的相似度。

1）DTW：動態時間規整，適合兩個時序序列的最優匹配

2）LCS：最長公共子串模型，主要是數值計算，求得的結果能反映出兩個序列的幅值差異

（3）直方圖或分布的相似性度量：EMD演算法，需要對視頻分片的每個幀附加權重，計算分片的加權圖，然後計算兩個分片間的相似度。從計算幀距離上升到了計算分片距離。

（4）如果想基於高維序列集合全體只得到一個視頻整體特徵信息，計算兩個視頻的整體特徵信息的相似度。

主成分分析法：獲得整體特徵信息，用於表示整個高維點的集合，難點在於不好確定點集滿足何種分布，因為該方法需要假定點集滿足高斯分布。

7.作者的方案：

創新點：

（1）對候選集合篩選以獲得更小候選集合

（2）估計序列距離的下限，以省去不必要的比對，提高檢索速度。

但是我關注的是他是如何提取出視頻特徵並在相似檢索時使用的。

方案設計：

（1）特徵提取：HSV顏色直方圖，用於描述一個視頻幀圖像的全局特徵，獲得的是低維視頻特徵，每個關鍵幀用一個11維的特徵向量描述【方法在文獻87】（哇塞，昨天西電那個密文圖像檢索，圖像的特徵向量都用到49維，這個維度這麼少能準確描述幀圖像嗎？）

（2）轉換成特徵點序列：hash（一個m維特徵向量）à二進位序列à長整數表示為一個特徵點à由n個特徵點構成的特徵點序列

其實這是一個降維過程，降維的方法有：PCA、聚類、特徵hash等，這裡採用的是第三種。視頻片段就變成了視頻特徵點構成的序列。

（3）檢索時的相似性度量指標：

1）相似特徵點數目：hash值相同的點的數目/參與比較的所有hash值總數，比值越接近於1表面特徵點重合的越多（採用倒排索引）

2）相似特徵點離散度：相似的特徵點（即hash值相同）出現的位置在整個特徵點序列中可能是連續的也可能是離散的，完全連續，表面檢索到的就是原視頻，連續性較高表明可能是在原視頻中插了廣告，離散度較高時可能是因為是電影片段混剪出的宣傳片，離散度很高說明相似度很低。引入一個總體最長相似度，即連續相似的特徵點序列的最大長度能夠在一定程度上評估。（採用倒排索引）缺少對特徵點順序的度量。

3）對相似特徵點序列的相似性度量：DTW時，採用Jaccaed對hash值間的距離進行度量，因為hash值不能體現真實的距離。使用DTW時要注意限定好約束條件，避免畸形匹配，方案中採用的是the Sakoe-Chiba約束。DTW距離是指所有規整路徑中最短路徑的長度。

DTW用於比較時間序列是超級棒的，但是計算代價也較高，動態規劃演算法研一上時演算法講座課上實現過哦。

8.基於Jaccard距離的DTW下限估計，可以快速估計出距離

用Jaccard距離估計視頻特徵向量hash值的距離，思想是採用比真實值小的估計值用於距離的逐步累積計算，以find真實距離可能的下限值。

（1）估計待測video和M個候選videos的特徵序列的DTW下限距離

（2）將估計結果升序排列，小à大

（3）從小的一端開始選取k個候選videos，計算實際DTW

（4）針對M-k個剩餘候選videos，

If剩餘videos基於相似特徵點數目和相似特徵點離散度的表現均不如前k個videos,則不予計算實際DTW;

If剩餘videos的估計DTW比前k個videos的實際DTW都要大，也不予計算實際DTW

Else計算video的實際DTW

（5）輸出實際DTW隊列中距離最小的前k個候選videos作為檢索結果

9.實驗結果和分析

（1）數據集1：1000部flv格式的video片段，自己從網上下的，將其中一個設為請求檢索的video

（2）變換：VirtualDub軟體對videos進行12種變換處理，包括亮度、飽和度變換，長寬比調整，解析度變換，加字幕，jialogo，切除圖像邊緣，降低幀率等。

（3）數據集2：MUSCLE VCD2007，101個videos，選取其中一個video變換後得到15個相似樣本

（4）實驗步驟：

1）系統採樣：間隔25幀選取關鍵幀

2）HSV顏色直方圖構建特徵提取，描述關鍵幀的全局特徵，11維特徵向量，hash值空間：0~2^11.

3）針對數據集1採用K近鄰檢索：輸入一個video片段，選出K個相似videos，檢索準確率評估指標：準確率、召回率

4）針對數據集1採用find一個最相似video的方法，標準是相似特徵點數目超過一半。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 蝶蝶導論 的精彩文章:

TAG:蝶蝶導論 |