國產AI|阿里雲智能助手「通義聽悟」面世 實時影片轉文字+分析

-

國產AI|阿里雲智能助手「通義聽悟」面世 實時影片轉文字+分析

阿里雲智慧首席技術官周靖人昨(1日)於《2023阿里雲峰會‧粵港澳大灣區》中宣佈推出AI助手「通義聽悟」,成「通義千問」家族最新產品。「通義聽悟」主要用作實時將語音及影片進行文本轉換,理解和分析多媒體內容,可以將會議影片總結文本,概括每位發言人的講話要點。

阿里在今年4月發佈自家研發的AI聊天機械人「通義千問」,能夠與人互動、回答問題及協作創作,企業可利用「通義千問」,度身打造出自己專屬的智能客服、語音助手、AI設計師等。相隔不夠兩個月,昨日再發表AI助手「通義聽悟」。「通義聽悟」接入了「通義千問」的理解與摘要能力,具備實時記錄、多語言繙譯、發言總結等功能,主要用作實時將語音及影片內容轉換成文字,理解和分析多媒體內容。在把聲音轉寫為文字的基礎上,「通義聽悟」能夠對語義加以理解,真正做到先「聽」後「悟」,成為面向工作和學習的AI助手。

「通義聽悟」可由音視頻中整理出關鍵詞及摘要。
「通義聽悟」可由音視頻中整理出關鍵詞及摘要。

內地傳媒更總結出「通義聽悟」的「寶藏功能」,包括打開Chrome插件,「通義聽悟」可為無字幕影片生成雙語懸浮字幕條,方便外語學習者和聽障人士。遇上日程重疊時,「通義聽悟」還可成為職場人士的開會替身,在會議中以AI可代為記錄會議、整理要點。

即日起公眾可通過阿里雲帳號登入tingwu.aliyun.com於線上使用「通義聽悟」並體驗其功能,還可於公測期間使用免費的轉寫試用服務。

「通義聽悟」融合自研語音語義多模態說話人算法,能對10人以上說話場景進行角色區分。
「通義聽悟」融合自研語音語義多模態說話人算法,能對10人以上說話場景進行角色區分。

「通義聽悟」部份功能

全文摘要
快速總結影片核心內容,將萬字長文縮短至200字概要

章節速覽
為影片提煉多個章節的要旨,並直接對應到時間軸上每個節點

發言總結
能夠在會議上區分10個以上不同發言人,並總結其觀點

快速轉化生成
一個長達10至20分鐘的音視頻,「通義聽悟」能夠以10至100倍的加速比轉化為文字,再用不到1分鐘加以理解