有趣的Github項目萬里挑一!
來源:PaperWeekly
本文共1000字,建議閱讀5分鐘。
本文為你介紹9個最新機器學習開源項目。
本文帶你快速 get 每個精選Github項目的亮點和痛點,時刻緊跟 AI 前沿成果。
01
InsightFace
#基於MXNet的人臉識別開源庫
InsightFace 是 DeepInsight 實驗室對其論文 ArcFace: Additive Angular Margin Loss for Deep Face Recognition 的開源實現。本文工作將 MegaFace 的精度提升到 98%,超過俄羅斯 Vocord 公司保持的 91% 的紀錄。
此外,該項目還包括打包對齊好的人臉訓練數據(MS1M 和 VGG2)、網路框架(ResNet,InceptionResNet_v2,DenseNet,DPN 和 MobiletNet)和 loss 設計(Softmax,SphereFace,AMSoftmax,CosFace 和 Triplet Loss)。
在此基礎上,研究人員可以專註於人臉識別的演算法實驗,工業界也可以方便地根據自身需求訓練,或者憑藉該項目提供的高精度預訓練模型進行產品化。
02
#Python圖像增強庫
Augmentor 是一個 Python 圖像增強庫,減少了使用圖像庫自己編寫代碼的繁雜工序,能夠批量完成圖像的旋轉,放大,縮小,添加噪音以擴充數據量。
輸入圖像
GIF
輸出圖像
03
#序列距離測算
TextDistance 是一個包含 30+ 種演算法的 Python 庫,用於計算兩個或多個序列之間的距離。
項目特性如下:
30+ 種演算法
純 Python 實現
操作簡便
支持兩種以上序列對比
部分演算法具備多種實現
支持 Numpy 獲取最大速度優化
04
Neural Network Voices
#模仿Kate Winslet說話
本項目是 Siraj Raval 在 YouTube 上發布的神經網路語音合成教學視頻對應代碼,如何使用深度神經網路將普通人的聲音轉化為英國著名女演員 Kate Winslet 的聲音。本項目使用的數據集為 Kate Winslet 朗讀的有聲書音頻。
05
Personae
#強化、監督學習在金融市場中的應用
Personae 基於 TensorFlow 和 PyTorch 對深度強化學習、監督學習演算法和論文進行實現,並嘗試將其應用於金融市場(股市)。該項目已實現的演算法包含 DDPG,Policy Gradient 和 DualAttnRNN。
股票交易收益對比
股價預測結果
06
NNDial
#端到端對話系統開源工具包
NNDial 是一個用於構建端到端可訓練任務型對話模型的開源工具包,本項目來自劍橋大學,使用的數據集為 CamRest676。
測試結果
07
Voice Activity Detection Toolkit
#語音端點檢測工具包
本項目是論文 Voice Activity Detection Using an Adaptive Context Attention Model 的開源實現,此外還包含作者團隊自行錄製的語音數據集。
該工具包支持 4 種基於 MRCG 的分類器:
自適應上下文注意模型(ACAM)
增強型深度神經網路(bDNN)
深度神經網路(DNN)
基於LSTM的循環神經網路(LSTM-RNN)
08
Knowledge Graph Representation
#用PyTorch實現知識圖譜表示
該項目整理了知識圖譜表示常用的四個數據集,提供了數據清洗整理的代碼,用 PyTorch 實現了四種基於平移的演算法。在評估階段,使用了多進程加速,將 MeanRank 和 Hits@10 的評估時間壓縮到小於 1 分鐘。
09
PyHanLP
#HanLP的Python介面
本項目是漢語言處理包 HanLP 的 Python 介面,支持自動下載與升級 HanLP,兼容 py2 和 py3。
HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。HanLP 具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
HanLP 可提供中文分詞、詞性標註、命名實體識別、關鍵詞提取、文本推薦、依存句法分析、文本分類、word2vec 和語料庫工具等功能。
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
TAG:數據派THU |