當前位置:
首頁 > 科技 > 一名華為硬體工程師的經驗分享

一名華為硬體工程師的經驗分享

編者按:如果你希望以後成為一名硬體工程師,或者是現在正行走在硬體工程師這條路上,推薦你閱讀以下這位華為硬體工程師的親身經驗總結,一定會對你的工作以及職業發展有所幫助。筆者也是一名十年經歷的硬體工程師,十年的經歷和華為的這位工程師體會差不多,作為一名硬體工程師,一定不要停留在畫完原理圖的層面,深入理解總結電路設計原理,才會讓自己走的更遠。

華為硬體開發是怎麼做的,有什麼不一樣?

最近很多朋友諮詢的一些硬體問題,發現朋友們沒有仔細的看datasheet,也沒有好好的做電路分析。我講一講華為是怎麼做硬體開發的,給正在做硬體開發的朋友一些啟示。說的不對的地方,大家批評指正。

曾經2007年,剛工作2年的時候去一家小公司去面試。當時考題,我感覺我做得很好,面試的時候,對方對我也很認可。但是他當時說:「我需要招一個,在大公司待過的,最好知道硬體開發流程和規範的。雖然你題答得不錯,但是我們需要一個有豐富經驗的,最好在華為待過的。」

當時,我就在想「華為的規範和流程是啥樣的」,就一直想去看看。之前對華為的面試一直都不是很感興趣。之後,就很想有機會去華為看看。2008到了華為。

我能想到的華為硬體開發的幾個不一樣的點,跟大家分享一下,想到哪寫到哪,歡迎大家批評指正。

1、 文檔,評審,設計。

2、 華為的硬體領域的人員構成:

3、 華為的流程

4、歸一化

5、專題分析

6、器件選型

7、白板講解

8、問題攻關

1、文檔,評審,設計。

當時剛入職時,三個人做一個電路板。雖然電路複雜一些,還是有一些人力過剩的。所以,我就被安排去寫一個PCI轉UART的邏輯。

我當時是新員工,也急於表現自己,利用周末的時間,估計用了一周的時間,就寫完代碼,開始模擬了。我以為我的導師兼主管會表揚一下,結果沒有,他說:「你 為什麼沒有召集大家討論?然後再寫方案,評審?然後再動手寫代碼?」我當時是沒有理解的,覺得我一個人就搞定的事情,為啥要這樣勞師動眾?

現在反思:

第一、? 從主管的角度,不知道新員工的個人能力,你能把做的事情講清楚了,他才放心。

第二、? 從公司的角度,有一套流程來保證項目的交付。那麼則不再太依賴某個人的個人能力,任何一個人的離職,都不會影響項目的交付。這也是華為最了不起的地方,把 複雜的項目拆得非常細碎,這樣不需要特別牛的人來交付項目。這是為什麼華為的工程師的收入是思科的N分之一。

第三、? 從效果角度,畢竟一個人的想法是有限的,把想法文檔化的過程,就是整理思路的過程;討論的過程,就是收集你自己沒有想到的過程。正式的評審,是大家達成意見的過程。提前討論,讓相關的人都參與到你的設計中,總比你設計完了,被別人指出一個致命的問題要強得多。

就是因為華為把一項工作拆散了,所以溝通,文檔,評審,討論,變得非常重要。

這個工作模式的缺點,也是顯而易見,溝通成本高,工作效率低。

2、華為的硬體領域的人員構成:

在華為內部裡面,人員角色非常多。硬體的人是對產品開發階段,端到端負責的。

做單板硬體工程師,可以涉獵最多的領域,同時也是工作內容最雜,接觸人最多,扯皮的最多的工種。

但是也因為有人專門負責畫PCB、EMC、電源、邏輯,原本硬體工程師應該做的領域。那麼硬體工程師就武功盡廢,變成「連連線」。

其實不然,正是由於每個人都是一個小的領域,沒有人統領,所以一個好的硬體經理的作用非常的重要,是貫穿所有領域和全部流程的關鍵角色。

正如原來華為內部論壇上有一個人比喻的,硬體工程師更像是處理器裡面的「Cache」,是所有環節的中轉站。

大公司把人的分工分的這麼細,也是防止某一撥掌握了太多公司的核心技術,出去單搞了。

3、華為的流程

其實華為的流程,很多人都知道IPD流程是從IBM來的,同時華為也去諮詢過愛立信,愛立信的硬體開發,完全沒有流程一說。

我個人理解:IPD流程已經在華為變種,結合了中國人的特點,華為的企業特點進行了變通和優化。如果華為僵硬的套用IBM的這套流程,也必定不會這麼成功。

那麼概括一下華為的硬體開發流程:

需求分析→總體設計→專題分析→詳細設計→邏輯詳設→原理圖→PCB→檢視→粘合邏輯→投板→生產試製→回板調試→單元測試→專業實驗→系統聯調→小批量試製→硬體穩定→維護。

流程的根本在於,這個環節做好了,再進入下一個環節。所有的環節其實跟其他公司並沒有太大的區別,只不過嚴格把握了進入下一個環節的考核條件。令硬體工程師最糾結的是「沒有個節點跟』投板』對應」。

華為支撐IPD流程的系統是PDM(又名爬的慢)

PDM的中文名稱為產品數據管理(Product DataManagement)。PDM是一門用來管理所有與產品相關信息(包括零件信息、配置、文檔、CAD文件、結構、許可權信息等)和所有與產品相關過程(包括過程定義和管理)的技術。

華為所有的器件資料,產品部件,工具,文檔,原理圖,PCB,邏輯代碼等都存在這個系統上。

但是系統過於龐雜,其實比較難使用,跟伺服器歸檔、SVN歸檔、也容易搞混淆。

有朋友感慨,說他感受到了「精細化流程管理,讓每個人都是螺絲釘」;也有前同事感慨「團隊開發是戰無不勝的」;也有朋友說「信息安全啊」。哈哈哈。

我現在也不是華為員工了,其中也不涉及華為的文檔,更多是個人的感悟,沒有透露華為的什麼機密;就算是機密也是我腦子裡面的內容;何況這些內容,也沒啥好機密的; 我只是想幫助到更多工作在硬體崗位的朋友,也想大家看了能在公眾賬號給我一些反饋,大家探討一下。

4、歸一化

器件歸一化

硬體工程師一般都能夠理解,在一個板子上面的,儘可能的選擇成本更低的器件,選擇更少種類的器件,便於集中採購,同時也便於加工。但是其他公司可能沒有對器件歸一化的工作做得那麼細緻和嚴格。

第一,? 由於華為整個公司使用的器件種類非常的多,所以如果減小一個器件編碼,帶來的收益是十萬人民幣到幾百萬,而其他公司可能達不到這個高的收益。所以如果能減 少一個編碼,寧願選擇可能成本更高的器件。但是這個也需要按照每年的器件直接成本收益*器件發貨數量,與編碼成本+加工成本差異,進行對比的。不過器件歸 一化之後,器件的價格又可以跟供應商重新談價格,這個收益是迭代的。所以,有時即使是成本佔優,也會傾向去器件歸一化的結論。例如,逐步去除了5%精度的 電阻,歸一化到1%。

第二,? 器件歸一化,都是需要進行專題分析的。因為也有工程師為了歸一化,對電路原理沒有充分分析,導致的歸一化帶來「問題引入」。所以,當時我的部門當時有一個 表格,「器件歸一化分析.xls」的excel表格,把每個器件,原來選型,歸一化的選型,更改的原因,都做好記錄和原因分析。一是讓每個做歸一化的員工 都充分考慮分析,二是問題都有記錄,便於評審,三是出了問題,好打板子。

單板歸一化

除了器件歸一化,更高一個層次的歸一化,就是單板歸一化。(單板這個概念,我稍微澄清一下,我剛到華為的時候,也覺得這個詞很奇怪。因為通信設備,都是機框,背板,加各個功能模塊的電路板,各個功能模塊的電路就叫做「單板」,硬體工程師,一般也叫做「單板硬體」)

單板歸一化帶來的好處,首先是電路的種類少,電路的種類少的好處有兩個:一是生產成本降低,二是硬體維護成本降低,三是軟體開發和維護的成本降低。

第一、單板歸一化的先決條件首先是處理器歸一化。其實,華為的有的產品這點做得其實不好,X86、MIPS、ARM、PPC全部都用個遍,所以一個硬體平台,需要配備各種軟體人員,操作系統搞N套,VxWorks和Linux,BIOS各種配套。

第二、單板的歸一化,要注意產品的衍生。第一個版本的機框上的單板所實現的功能,如果後續的產品可以使用,應該直接可以用,不需要再開發。如果不注意這 點,第一個版本的單板,到第二版本時,發現不能相互借用。反過來,再修改第一個版本的電路板,來適應新版本。有時問題更糟糕,就是完全不能兼容,只好重新 開發。單板的規劃顯得非常重要。

第三、單板歸一化時,雖然電路部分兼容了,但是結構件不兼容。對於市場人員的配置來說,仍然是兩種配置。一樣是失敗的。

平台歸一化

那麼如果發現不同的硬體平台的架構雷同,功能類似。那麼機框也可以歸一化。只需要製作不同的電路功能模塊,就可以實現不同的功能需求。

但是不同的硬體形態都是有他存在的意義的,如果強行歸一,市場未必會接受這種事情的發生。例如用一個運營商的平台去歸一一個企業應用或者家庭應用的產品,可能就未必能夠成功。

網路架構歸一化

這個說法是我自己想的,早在08年的時候,華為就在討論「雲管端戰略」了,當時不是很理解。當我們一個運營商平台部門,跟「伺服器」的部門合併的時候,似乎理解了點什麼。

當X86處理器足夠強大的時候,所有的運算,不管是否性價比最高,都送到雲端進行處理,那麼所有中間的存儲和計算都顯得不重要了。那麼整個網路的結構,就是終端+管道+雲存儲和雲計算。

既然計算和存儲設備都是一樣的,那作為運算和存儲的設備,也就不需要那麼多樣化了。這時網路存儲設備,和伺服器就顯得尤為重要。

這也是華為成立IT產品線,做重點戰略投資的重要原因。

所以現在也就不需要那麼多網路節點和網路平台了,只需要超強的處理和存儲能力和寬廣的通道,多樣的終端。

五,「專題分析」是設計硬體最核心的工作,而不是畫原理圖

因為今天是周末,寫點輕鬆點的。

先說個故事,傳說哈,大家當笑話聽。

早期,我大中華自研的潛艇,都是海藍色的,跟軍艦一樣顏色「藍灰色」。後來我大海軍去參觀前蘇聯的軍事演習,發現俄國人的潛艇不是藍色的,是黑色的。於是 回來大討論,為啥俄國人的潛艇是黑色的。猜想:一定是黑色在夜裡面不容易被發現,所以油漆成黑色的。於是全國油漆大運動。後來才知道,原來俄國人的黑色不 是油漆,是黑色的橡膠,消聲瓦。於是我們也貼橡膠,可是我們貼了橡膠之後就潛艇跑不動了,因為我們的潛艇的動力不如別人。(以上故事純屬虛構,如有雷同, 請把發生時間改為清朝。)

為啥在這裡說這個照葫蘆畫瓢失敗的故事呢。我覺得很多硬體工程師有個誤區,覺得自己的核心競爭力是在於會使用幾個軟體(cadence、Protel), 畫畫原理圖,畫畫PCB。我早期的一份工作就這樣,最大的本事就是照葫蘆畫瓢,抄Demo板,抄以前成熟的電路,如果碰到了新的電路設計,一般是按照參考 電路先畫出電路,再通過調試,去嘗試,碰到問題,再去解決問題。

那麼我現在的觀念是,硬體工程師最值錢的地方是在於懂硬體原理,懂得電路分析,模電數電原理,電磁場理論,而不是會使用畫圖軟體。

那麼華為是怎樣做電路設計的呢?為什麼會有專題分析的說法呢?為什麼電路設計的時候要做專題分析?

第一、 例行的,每個電路一般都會做幾個必選的專題:電源、時鐘、小系統;把每個管腳怎麼用,怎麼接,對接的管腳的電平是否滿足要求,都需要文檔化,分析清楚。在 選用新器件的話,對應硬體工程師的工作量還是比較大的。但是如果是其他公司,直接按照推薦電路設計就完事了。電源專題,需要分析電源需求,每種電源的電壓 範圍,電流需求,動態響應,上電時序;時鐘專題,針對每個時鐘的輸入的電平標準,頻率,抖動等參數,時鐘時序,並按照各種時鐘解決方案進行優化;

第二、 當電路設計過程中,碰到一些新的問題,之前團隊中沒有接觸過的問題,或者認為是重點,難點的內容,會專門做這個問題點的專題分析:例如我們做過的一些雙 BIOS啟動,攝像頭的紅外LED的驅動,主備倒換啊,之類的,就會把一個問題點分析透,然後再動手做畫原理圖。

第三、 那麼在開發硬體的時候,Demo只是作為參考,每一個依據都是來自於datasheet,除了看晶元的數據手冊之外,還要仔細查看數據手冊的勘誤表 errata,核對datasheet與Demo的差一點,如果器件有checklist還得核對checklist。曾經開發AMD的時 候,datasheet、Demo、checklist,三個文檔對不上的情況。也出現過,一個比較難復現的問題,後來查看了Errata,發現是廠家芯 片升級了,修正了bug,而我們還在採購老版本的晶元。

第四、 由於項目本身有交付時間要求,那麼在有限時間內其實不可能做到每個問題點都做得深入透徹。那麼問題來了:

是怎麼做到的呢?首先,每個項目都有《問題跟蹤表》,而硬體團隊由於事情非常的雜,所以把這個表要用的非常好,不然丟東拉西很正常。我曾經把這個表應用到 家裡裝修。這個表的原理很簡單,就是記錄,問題內容,責任人,完成狀態,完成時間。但是只要你堅持用,你會發現,你問題不會跟蹤丟,做事情會比較有條理, 而且會有成就感。用了這個表以後,發現問題之後,先記錄下來,即使現在不解決,那麼也會識別他要不要解決,什麼時候解決。其次、問題分優先順序,任何項目都 是帶著風險前進的,那麼識別出高風險的問題,優先解決高風險的問題,帶著低風險的問題繼續走。這也是華為電路設計中「0歐姆」電阻用的比較多的有一個原 因,識別出風險之後,但是又分析不清楚,或者來不及分析,只好做兼容設計。這裡不得不感慨一句,在你的設計過程中,你馬虎對待,沒有分析清楚的問題,最後 一定會暴露出來。

所以,在「菊花廠」做硬體工程師,「專題分析」是設計硬體最核心的工作,而不是畫原理圖。

通過這個方法,用1~2個月做電路分析,而用1~2周時間畫原理圖,取代了,畫圖,調試,改版,再調試,在改版的形式。

多快好省,是不可能同時實現的,那麼硬體工程師有責任做很好的折衷和權衡。

六,器件選型

一、關於「器件選型規範」:

在我進入華為的時候,當時整個公司都在「規範」運動,什麼都寫規範,人人都寫規範,什麼任職、績效、技術等級都看規範。(大公司用KPI來引導,容易搞成「運動」)。

所以當時,按照器件種類,很多人寫了各種器件選型規範。當時,原理圖評審的時候,聽得最多的就是「規範就是這樣寫的」,這裡面有一些問題:

1、寫規範的人不一定水平高,或者寫得不細緻,如果出現錯誤那就更是害人了。

2、規範有時抑制了開發人的思維,什麼都按照規範來,不一定適合實際的設計場景;例如我需要低成本設計,但是規範強調的是高質量,就不一定適用。

3、有了規範之後,也會導致部分開發人員不思考,例如晶振要求在50MHz以上,放pF級的電容進行電源濾波,而低於50MHz的不用。大家都不想為什 么,自然也不知道為什麼;再例如網口變壓器防護,室內室外,按照各種EMC標準的設計要求,直接照著畫就可以;但是很少有人想為什麼,也不知道測試的結果 怎樣,等實際碰到困難時就抓瞎了。的確在有的時候提高了工作效率和產品質量,但是工具也發達,人也就越退化,這是必然。

4、有些器件的選型,不適合寫規範,因為器件發展太快,有可能等你規範寫好,器件都淘汰了。例如:在X86處理器進入通信領域了之後,處理器選型規範就顯得多餘。

規範確實能帶來好處。但是,並不是所有工作都適合用規範來約束。硬體工程師要能跳出「參考電路」、跳出「規範」,從原理思考問題和設計。

當然規範還是非常有用的一個手段,是大量的理論分析+經驗積累+實踐數據的精華。我覺得當時我看得最多的規範,是《器件選型的降額規範》,這是基於大量試驗,實際案例,總結出來的器件選型的時候,需要考慮的內容。

例如:規定選用鋁電解電容的時候,需要考慮穩態的工作電壓低於額定耐壓90%;而鉭電容,穩態的降額要求在50%;而陶瓷電容,穩態的降額要求在85%;因為這裡考慮了一些器件的實效模式、最惡劣環境(高溫、低溫、最大功耗),穩態功率和瞬態功率的差異……等等因素。

二、器件選型需要考慮的因素:

在華為的PDM系統上,器件都有一個優選等級「優選」「非優選」「禁選」「終端專用」等幾個等級。

工程師可以根據這個優選等級來直觀的感受到器件是否優選。

那麼器件的優選等級,是考慮了哪些因素呢?

1.可供應性:特別是華為這樣廠家,有大量發貨的產品。慎選生命周期處於衰落的器件,禁止選用停產的器件。我2005年時曾設計過一個電路,設計的時候就是拷貝別人的電路,結果加工的時候發現器件根本買不著,由於器件停產了,只能在電子市場買翻新的器件。

對於關鍵器件,至少有兩個品牌的型號可以互相替代,有的還要考慮方案級替代。這點很重要,如果是獨家供貨的產品,是需要層層彙報,決策,評估風險的。

2.可靠性:

散熱:功率器件優先選用RjA熱阻小,Tj結溫更大的封裝型號;處理器選型,在性能滿足的情況下,盡量選擇功耗更小的器件。但是如果是Intel這樣壟斷的器件,你也只有忍受,加散熱器,加風扇。

ESD:所選元器件抗靜電能力至少達到250V。對於特殊的器件如:射頻器件,抗ESD能力至少100V,並要求設計做防靜電措施。(註:華為是嚴格要 求,禁止裸手拿板的。我本來也不理解,後來我帶團隊之後,發現兄弟們花大量的時間在維修單板;我們的團隊就非常嚴格要求這一點,看似降低效率,其實還是提 高效率的。至少不用總懷疑器件被靜電打壞了。)

所選元器件考慮更高的濕敏等級。

安全:使用的材料要求滿足抗靜電、阻燃、防鏽蝕、抗氧化以及安規等要求。

失效率:避免失效率高的器件,例如標貼的撥碼開關。盡量不要選擇裸Die的器件,容易開裂。不要選擇玻璃封裝的器件。大封裝的陶瓷電容不要選擇。

失效模式:需要考慮一些器件的失效模式是,開路還是斷路,會造成什麼後果,都需要評估。這也是鉭電容慎選的一個重要原因。

3.可生產性:不選用封裝尺寸小於0402的器件。

盡量選擇表貼器件,只做一次迴流焊,就完成焊接,不需要進行波峰焊。部分插件器件不可避免選用的話,需要考慮,能否採用通孔迴流焊的工藝完成焊接。減少焊接的工序和成本。

4.環保:由於華為大量的產品是發往歐洲的,所以環保的要求也比較嚴格。由於歐盟提出無鉛化要求,曾經整個公司的幾乎所有的硬體工程師都在做無鉛化的整改。

5.考慮歸一化:例如某產品已經選用了這個器件,並且在大量出貨的時候,往往有時這個器件的選型並不是很適合,也會選擇,因為不但可以通過數量的增多來重 新談成本,還可以放心的選用,因為經過了大批量的驗證。這也是為什麼傾向於選用成熟期的器件,而慎選導入期和衰落期的原因。

6.行業管理:某一個大類,例如:電源、時鐘、處理器、內存、Flash等等都是有專門的人做整個公司的使用的規劃和協調,提前進行市場調研,分析,編寫規範。他們會參與到新器件的選型上來。

7、器件部門:專門有器件部門的同事,會分析器件的失效原因,可靠性分析,拍攝器件的X光,評估器件壽命等等工作。

8、成本:如果在上述因素都不是致命的情況下——上述的因素都是浮雲,緊盯第八條。

百度文庫上面有一篇文檔《電子元器件選型規範》,寫得挺好,不知道是哪家公司流出來的,雖然有些過時,但是分立器件和思想還是可以閱讀和借鑒的,有興趣的同學可以看一下:http://forum.esm-cn.com/FORUM_POST_1000163993_1201253163_1.HTM

七, 白板講解

團隊開發文化,那是華為中央硬體部的老大最自鳴得意的管理方法。團隊開發文化,在多人協作的開發項目中還是非常有效的管理方法。

個人覺得「白板講解」是團隊開發文化中最精華的內容。

把一個電路原理講清楚,一般是在其他企業或者開發團隊中,很少做的事情。但是有一個原則,如果你不能夠把道理講清楚,那麼你一定自己沒有搞清楚,或者沒有 理解到位,或者,其中,一定有什麼內容是你忽略的內容。那麼最後一定,出問題的地方就在這。也學這有點墨菲定律的意思。但是,講清楚,一定可以幫助你成 長。如果你掌握了某一個知識點,拿出來講解給大家聽,那麼你一定會是掌握的最清楚的那一個。

白板講解的好處之一:深刻理解細節,當多人討論的時候一定把原理討論得更透徹,一是確保設計是正確的,同時也保證達到整個團隊的最高水平。

我在10年的時候,因為那時候項目停滯,我就專門把開關電源那個部分的每個細節,都拿出來講解,一共講了10次左右,後來把Buck電路的每個細節都講一 遍之後,我覺得對開關電源的原理才有了稍微透徹一點的理解。然後再把10次講解的內容整理出來,就成了一個《單板電源是怎樣煉成的》的教材。同時增加了電 源調試經驗豐富的老魏同學的經典案例,組成一個比較完整的電源教材,在公司內部廣為傳播。

白板講解的好處之二:很多很多的講解,組成一次培訓,很多的培訓就是一套教材。整個團隊講解越多,技術積累就越深厚。

曾經有一段時間搞PCI協議的邏輯,同時也有另外一個同事同時在看。我由於已經上手開始調試了,同時也做了各種模擬,所以對整個協議的理解還是比較清楚 的。而另外一個同事的主要手段就是看代碼,和協議原文,所以他並不是理解代碼寫的原因(因為邏輯寫作的時候,有一些技巧性的內容在裡面,例如:如何利用基 地址寄存器,確定存儲空間的大小)。

當然,他開始講解的時候,我就沒有作聲,因為當時我們都是新員工,主管都看著,別人組織的講解,也不好搶了別人風頭。後來由於他講的內容有太多的錯誤,我實在看不下去,就指出他的錯誤。他當然不服氣,表示他是正確的。

但是事後他又向大家表示,他原先的理解是錯誤的。

這件事情之後,我的項目經理(PM),跟我說:白板講解,最厲害的地方其實不在於大家把問題搞清楚。而在於,「白板講解」是一場比武,它能讓團隊裡面的每個人做技術攀比,促進大家不斷的提高技術。同時,也是在主管面前,誰水平高水平低,一目了然。

白板講解的好處之三:在團隊內部是最有效的技術比試,是騾子是馬拉出來溜溜,別整天文人相輕,考評時相互不服氣。有本事的,沒本事的,一拿出來講,全部都清清楚楚。

一個團隊,甚至一個公司,一個國家,它的成功或者失敗都是由這個國家的績效考評體系,人才選拔體系決定。白板講解給團隊的技術排名提供了最有利的數據支撐。

研發團隊大都氣氛沉悶,狀態不好的時候疲疲沓沓,開發周期拖延,效率不高,好像這是絕大多數企業的研發現狀。

為什麼這樣呢?因為相互之間不交流,人是社會人。整天埋頭寫代碼的團隊,肯定是問題很大的團隊。如果坐在一起,面對面,或者背對背,都需要qq、或者espace這樣交流,一天一個團隊不說一句話。那自然大家人情冷漠。

雖說白板講解是技術比試,但是大家都心態open的話,其實這樣的比試也是相互促進感情的一個重要手段。

白板講解的好處之四:有效改善組織氣氛的重要方法,增進團隊成員之間的技術認可度,只有願意表達自己觀點的團隊才是有戰鬥力的團隊。

我現在自己創業,其實發現華為的那一套,講解,培訓,例會,跟蹤,其實還是最有效的。

畢竟華為是根據中國人的特點,長時間,多人,多團隊,多項目實踐出來的非常成熟的一套研發管理辦法。自然華為的辦法適合大公司,也有其一定的自身問題,但 是,再沒有更好的辦法之前,這些手段不失為很好的方法。特別是白板講解,去美國矽谷一些大公司、小公司看過的話,一定發現這些公司的工程師辦公桌旁邊都放 著一塊白板。只要一討論問題,就是「來畫一下」。

白板講解的好處之五:白板講解的重要特點就是「用白板」,用白板的好處,就是避免口頭表達的傳達一次的誤差;把講的內容一條條記錄下來,便於梳理思路;通過大面積的白板展示要討論的內容,便於更多人都參與到討論中來。

另外我對白板講解還有自己的幾條建議:

1、 當你的團隊還沒有白板講解的,你可以勤於找別人討論問題,達到白板講解的效果。

2、 如果你帶團隊,還沒形成白板講解的氛圍。可以先僵化,再優化。先強制大家養成習慣,體會到其中的好處,再讓大家自發自動的進行講解。

3、 在華為的朋友(或者其他大公司的朋友),如果是技術屌絲,那還得多在主管面前多講解;如果你已經有機會給領導彙報了,那還是多聯繫PPT。因為PPT的本質還是白板。當然講的內容要是主管感興趣的內容,認可的內容,「以客戶為中心」——你懂的。

4、 一開始,你得克服自己的心理,有可能這個內容是你還不懂的,一定要敢於問,敢於講。不能因為技術羞恥心阻礙自己的技術進步。一方面,多看資料,勤學習新內 容,功夫要實在;另一方面,要勤討論,只有討論才能知道自己的技術不足,理解錯誤或者不到位的地方。跟不同的人交流多了,你就是這群人中,最懂的那一個 了。

5、 另外還是多利用互聯網,多在QQ群,論壇裡面問問題。也許有人嘲笑你,說這是低級問題,可是你問多了,自然就進步了,因為每個人都是從低級來的。

6、 在華為,有主管強制每一個項目組成員,是不是講解了。在其他公司可能沒有這樣的環境和氛圍,就靠你自己勤於討論。

我計劃我的孩子以後上學了,他到學校學到的東西,都講給我聽,這樣才保證他是理解了。

白板講解,看似簡單,其實裡面的哲學還是挺深刻的,看各位理解到什麼程度了。

八, 問題攻關

因為世界上沒有完美的東西,所以就算再高的水平開發出來的產品也不可能像蒙娜麗莎一樣完美無缺。所以不管大問題,還是小問題,都可能有問題。

第一部分、網上問題造成的三種後果:

1、? 網上事故

2、? 網上問題

3、? 單板返還

網上事故

最嚴重的當然是「網上事故」,網上事故一般是造成「安全事故」、「客戶損失」、「客戶投訴」。等等情況。

最嚴重的網上問題,自然是「安全事故」,危機客戶人身安全。

例如曾經有一個海量級發貨的設備,曾經因為修改背板時,動了一條電源線的走線。這個電源線,被修改後,隔著綠油與機框的金屬件,碰在一起。由於綠油本身有一些絕緣的作用,所以在研發測試和生產測試的過程中並沒有暴露這個問題。

但是由於在運輸過程中,震動等原因,造成綠油在此過程中被磨損。在客戶出上電後,有的設備出現的了短路,發生了燒板的情況。

液態光致阻焊劑(俗稱綠油)是一種保護層,塗覆在印製電路板不需焊接的線路和基材上。目的是長期保護所形成的線路圖形。

這是非常嚴重的情況,如果著火,發生火災,在運營商的機房,那是非常嚴重的事故。

但是,這種問題發生的時候,已經各種機框和單板發往五大洲,上百個國家。去解救這個問題,付出了非常慘重的代價。

網上事故的另外一種情況,是造成運營商的業務中斷;按照話費一分鐘0.6元計算,一個省的運營商的用戶都是千萬級,甚至億級的。如果造成客戶的一分鐘的業務中斷,帶來的損失,如何計算?

正式由於這個原因,所以大多數運營商的設備,都有備份機制。例如核心側設備的內部交換模塊,一定是1+1冗餘備份的;如果是DSP資源,一些信令處理單元一般都是N+1備份的。這樣如果出現單點故障,既不影響用戶業務,也不影響設備的容量規格。

第三種情況,就是客戶投訴。有可能雖然沒有造成什麼嚴重的後果,如果客戶投訴了,這個問題也會比較嚴重。例如,新機框和新單板郵寄到運營商處。這是出現 了,電路板插不進去的情況,自然客戶會非常惱火,覺得非常影響公司的品牌形象。那這個事情就會非常大。或者很早以前,任老闆在現場的時候,某四川移動的領 導,說「你們的設備還不如大唐好看」。於是,結構部的人就倒霉了。

網上問題:

如果網上出了問題,那麼一定通過一些手段,例如原先設計好的一些「可維護性」、「可測試性」的軟硬體設計,盡量的去定位問題。

當然這些措施都不能影響客戶的正常業務。

另外,會有一些寄存器,或者一些日誌,去查看設備異常的記錄。還可以查看一些設備的「臨終遺言」。臨終遺言,會利用處理器複位前,向存儲區域存儲的關鍵信息,便於後續去發現和解決問題。

單板返還:

一線交付的人員一般都會抱怨:「你們研發都是三招:複位,下電,換單板」。

其實網上問題分析,如果已經用上這三招了,那說明這個問題已經比較嚴重了,說著基本上是硬體問題了。

可是「單板返還率」是非常重要的KPI,決定著大家的「考評」。所以維護人員都希望單板不要返還,或者不要記入指標。如果真的硬體已經不能正常工作了,那麼一定會操作這個單板返還到實驗室,進行失效分析,找失效原因。

以上不管是哪個級別的問題,哪怕是實驗室發現的一些問題,都非常重視。因為如果任何一個問題,都可能造成不可預見的效果。所以對每個問題都刨根問題,分析徹底。

另外就是在做一些試驗(EMC、環境),或者在測試的過程中,發現和暴露的問題,都會當做網上問題一樣重視,進行一些問題的攻關。為什麼呢?

因為有一個理論,問題越早解決,所付出的代價越小。

問題攻關的三個信條:

1、 凡是「實驗室」問題,如果不解決的話,一定會在網上出現。

2、 凡是出現過的問題,一定可以被複現。

3、 凡是不能復現的問題,一定是沒有找到復現的規律。

案例1、當時有一款NetLogic的處理器(NetLogic的網路處理器來自RMI。RMI收購了處理器創業公司Sandcraft,它本身又被NetLogic購買。後來NetLogic被博通收購),出現了器件失效的情況,但是網上還沒有出現類似的情況。

但是,有沒有找到規律,是如何讓器件失效的。於是雙方進入了扯皮階段。但是通過X光照射,發現失效的器件是焊盤開裂。但是是什麼讓焊盤開裂呢?當時懷疑了應力,高低溫。試了各種措施,但是始終沒有答案。

後來大家討論和試驗的過程中,就有同事發現,單純的低溫和高溫,都不足以引起器件失效。但是當高低溫經歷次數過多之後,器件失效的概率明顯提高。後來這個同事通過多次試驗,反覆地使用熱風qiang和液氮,加速器件的老化。就非常容易出現焊盤開裂的情況。

當拿著這個結論再去找Netlogic時,對方只能投降,承認問題,同意修改器件的工藝。

非常說明問題的兩件事情:

第一, 後來實驗室出現故障的單板,基本都是廠家改進工藝前的問題。

第二, 另一個發貨量很大的產品,在2年後,網上出現大規模這個問題的單板。

案例二、如果在試驗中發現問題,一定會把問題分析清楚,或者把問題解決掉。也許這個問題解決很難,經歷時間很長。但是這個問題一定把記錄下來,根據優先順序把問題最後解決掉。

例如曾經一個同事在做試驗的時候,發現三極體有漏電流。

理論分析之後,由於三極體作為開關管使用,所以理論分析不可能產生這麼大的電流,導致電壓變化;把三極體更換成MOS管,也無濟於事。

由於這個漏電流是在低溫的時候才會出現的。所以當時就用液氮,讓三極體處於極其低溫的狀態(-10度以下),試驗中溫度情況也差不多在這個範圍(-40度到0度)出現問題。

但是經過兩周的試驗,都沒有找到規律,偶爾會復現一下問題,完全沒有規律。

我跟那個同事覺得非常費解,當時就觀察天氣,覺得這個三極體的漏電流感覺與天氣有關。如果陰天,就容易復現,如果晴天就完全不復現。

通過這個規律,我們開始懷疑「濕度」作祟。

後來,我們通過增加器件的濕度,果然非常容易復現問題。

把我們的結論去找廠家,廠家確認SOT封裝的器件,在高濕度低溫的前提下確實會有漏電流的現象。這個漏電流不是通過PN節流走的,所以跟PN節的漏電流的規律完全不符合。

而是從SOT32的塑料封裝上漏走的電流。

後來通過調整電路參數,規避了這個問題。

所以整個分析和試驗的過程,哪怕是極端的環境條件下的問題,也絕不放過。

其實產品的問題攻關,就是這樣的,扎紮實實的解決每一個問題之後,產品質量才有試製性的提升。

形式:

1、攻關組:任何問題攻關,為了表示重視,一般都會成立個什麼問題攻關組。就是把相關的人,還有有經驗的人走組織起來,一起參與討論,這樣可以拓寬思路,同時豐富經驗。避免鑽牛角尖,或者無頭蒼蠅。

2、例會:重大的問題攻關,一定是每天例會,把前期討論的問題匯總跟蹤,把每項措施對應的結論記錄下來,明確下一步的措施。

3、日報:這種問題攻關,一定是領導重視的,所以每天都會發布進展。當然領導也會看,偶爾也會發現很久沒有進展,之後會調配資源,協調兵力。

4、總結:問題解決之後,一定把中間的九九八十一難,整理成案例、培訓,給大家分享。這樣所有的同事,雖然沒有親身經歷這個攻關過程。可以通過分享,學習相關專業知識,和問題解決的思路。得到提升。

問題攻關是痛苦的,問題突破了也是非常有成就感的,痛並快樂著。

最後兩句話:

越是不舒適區,其實就是你成長的機會。

越是困難的時候,越是要咬牙頂住;只要你堅持,你離成功永遠都只有一步之遙。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |