頃刻之間 “復原時光”，美圖畫質修復演算法V2全新上線

機器之心專欄

作者：美圖影像研究院

美圖影像研究院（MT Lab）正式推出美圖畫質修復演算法 V2（升級版），全新迭代版本取得重大技術突破，目前已在美圖秀秀證件照、工具箱及影片剪輯（照片）中上線該演算法。

攝影技術的廣泛普及與飛速發展深刻地改變了大眾的生活，不知不覺中人們已對隨時隨地拿出手機拍攝記錄習以為常。但對很多人而言，老照片卻承載著心中綿長的歲月和難忘的回憶，凝滯著時光與那些不經意間被遺忘的美好瞬間，翻閱老照片就像是在與遙遠過去進行的一場隔空對話。昔日舊照的分享也頻登熱門話題榜，帶人們坐上時光穿梭機，掀起一場又一場的「復古風潮」。但由於年限久遠，早期攝影裝置的技術有限，手機搭載的攝像頭畫素較低，老照片的清晰度往往不高，許多照片還因經過數次轉載與壓縮導致畫質受損嚴重。

2019 年，美圖影像研究院（MT Lab）正式推出人像畫質修復技術，透過便捷的一鍵操作就能實現老照片中低畫質人像的高畫質還原。與此同時，還能修復模糊、失焦以及因壓縮導致的畫質受損等各類低清影象場景。此後，針對目前人像畫質修復所面對的兩個關鍵性挑戰：一是如何更好地去除影象上導致畫質受損的噪聲、馬賽克、模糊等影響因素；二是在人像畫質修復過程中如何保留人臉身份資訊（identity）並保持人臉不發生形變，MT Lab 持續迭代升級 AI 影象生成技術，基於深度學習方法自主與前沿技術，自主研發全新生成網路結構 MTIR-GAN，並在此基礎上憑藉美圖數億量級資料對模型進行訓練學習，令 MTIR-GAN 具備優異的人像修復能力。

基於 MTIR-GAN 的美圖畫質修復演算法 V2（升級版）最終實現了對睫毛、眉毛、髮絲和膚質等臉部細節最大程度的還原修復，並保留人臉身份資訊（identity），保持人臉不發生形變。同時有效解決了因影象多次壓縮所導致的畫質受損以及由於拍攝環境如夜拍、抓拍和拍攝過程抖動等造成的照片模糊、失焦、噪聲、馬賽克等畫質修復方面的關鍵問題。不僅如此，美圖畫質修復演算法 V2還透過演算法升級不斷最佳化美圖自研神經網路推理框架，有效提升修復效率，使用者在 1。5 秒以內即可看到單人像修復後的驚豔效果，最大限度地節省了使用者的等待時間。

圖 1：美圖畫質修復演算法 V2 效果（上為原圖，下為效果圖）

圖 2：美圖畫質修復演算法 V2 效果（上為原圖，下為效果圖）

美圖畫質修復演算法 V2 影象修復全流程

美圖畫質修復演算法 V2 採取三個步驟對待修復影象進行處理。首先，基於 MT Lab 的人臉技術對人臉點進行精準定位，針對人臉面部細節多，需要精細化處理的情況，單獨對臉部畫質進行修復與還原。與此同時，同步對全圖進行去彩噪、去噪、去馬賽克、去 jpeg 壓縮、去模糊、去輕微抖動等畫質修復操作，實現全圖畫質效果的增強，其中包括低解析度修復和高解析度增強。此外，針對解析度較高的影象處理耗時較為嚴重的問題，美圖畫質修復演算法 V2 採取先將待修復圖縮小到一定尺度，再進行分塊、去噪等畫質修復操作，最後透過 guided-filter 網路結構的畫質增強方案將其恢復為原始解析度，從而高效提升計算效率，大幅壓縮處理所需的等候時長。上述臉部修復工作和全圖修復工作並行處理完成，修復後的臉部將被貼回影象中，合成完整的修復圖。最後，利用超分網路對合成的完整修復圖進行處理，實現影象整體畫質的清晰度提升。美圖畫質修復演算法 V2 完整流程如下圖 3 所示：

圖 3：美圖畫質修復 V2 全流程

圖 4：修復效果對比

圖 5：修復效果對比

人臉修復具體流程解析

人臉修復是本次美圖畫質修復演算法升級的核心部分，人臉修復具體流程包括人臉裁框和臉部生成修復兩個部分。

1、基於最小包圍盒矩形框的人臉裁框

MT Lab 在人臉裁框上舍棄了以往單純利用眼睛間距進行人臉裁切的方式，而採用最小包圍盒矩形框對人臉進行裁切，以最大限度保證人臉的完整性，具體步驟為：

（a）基於自研的人臉檢測和人臉對齊技術實現對影象中人臉點集 FP 的高速讀取，並計算其外接矩形，透過向外拓展得到人臉的裁切矩形。

（b）基於人臉的裁切矩形獲得人臉的旋轉角度，並從原圖中裁取擺正後的人臉影象 F。

2、基於 MTIR-GAN 網路設計的臉部生成修復

目前，StyleGAN2［2］可以生成逼真且高畫質的人臉，但其生成的人臉是隨機的，因而會導致人像身份資訊發生改變，無法直接用於人像畫質修復。對此，MT Lab 透過自研的 Encoder 網路提取待修復人像的結構資訊和紋理，基於結構資訊保持人像五官形狀，防止發生形變。同時，紋理資訊可以用來引導人像髮絲、膚色、睫毛等細節生成，繼而再輸入 StyleGAN2 的生成網路，就能夠獲得修復完好且保留人臉身份資訊（identity），保持人臉不發生形變的人像照片，實際上整個流程即透過替代 StyleGAN2 的 w+ 空間向量和輸入其生成網路的常量實現。例如，輸入一張大小為 1024x1024 待修復的人像圖，經過 Encoder 網路的 8 次下采樣，可以得到 4x4x32 的結構特徵和 512 維度的紋理向量，再經過 StyleGAN2 的生成網路即可得到 1024x1024 的修復臉部圖，具體網路結構如下圖 6 所示：

圖 6：MTIR-GAN 網路框架圖

損失函式包括：L1 loss、Perceptual loss、Identity loss、Global D Loss、Facial D Loss。

透過修復後圖像和 target 求得 L1 Loss，L1 Loss 可以使影象恢復得更加清晰。

Perceptual Loss 採用 vgg-19 網路進行計算，可以更好地恢復人像膚色、質感、細節等資訊。

為更好地實現人像身份資訊的保留，採用美圖影像研究院（MT Lab）自研的人臉識別演算法對人像圖進行特徵提取求得 loss。

判別網路型別主要分為全域性和區域性，基於該分類可以確保修復後的人臉呈現更加真實的狀態，區域性五官資訊則更加清晰並具有豐富細節。其中，全域性網路採用類似 StyleGAN2 的合成方法；區域性網路基於人臉點裁剪出眼睛、嘴巴、眉毛三個部位，然後統一 resize 到 256x256 尺度再輸入判別網路求得 loss。

MT Lab 深耕 AI 領域，聚焦技術應用

目前，美圖畫質修復演算法 V2 已於美圖秀秀上線，滿足使用者對照片修復的多元需求，在實現對人像五官、髮絲、眉毛、睫毛等人臉細節的進一步最佳化修復，提升面板真實、細膩質感的同時，也解決了在夜間拍攝、昏暗環境、拍攝抖動、抓拍等不同場景下對畫質清晰度提升的關鍵需求。

過去30年，微軟研究院一直透過跨學科、跨機構、跨地域的科學研究，為微軟、為社會暢想和實現技術遠景，致力於培育一個有韌性、可持續且健康的全球社會，並確保技術值得信賴，可以讓每一個人受益。

為了進一步探索科學與技術發展的未來，由微軟全球八大研究院攜手傾力打造的首屆微軟研究峰會 Microsoft Research Summit 2021將於10月19日至21日線上舉辦。

來自世界各地的300餘位頂尖科學家和技術領導者將帶來共150場分享，包括微軟公司董事長兼執行長 Satya Nadella，首席技術官 Kevin Scott，微軟全球資深副總裁、微軟研究院負責人 Peter Lee……內容圍繞“科學、賦能、可持續發展、醫療健康、信任”五大主題展開，話題涵蓋人工智慧的行業應用、機器學習、可持續發展、隱私與安全、健康和生命科學等等。

愛伊米

頃刻之間 “復原時光”，美圖畫質修復演算法V2全新上線

相關文章

推薦文章