聽見世界是由復旦大學自然語言處理實驗室出品的AI公益助盲軟件。目前里面包括了多個不同的使用模式可以進行使用和切換,比如自由問答、街道行走、物品查找、拍照朗讀等,都是非常便利性的功能。
【軟件內(nèi)容】
聽見世界應用是一款依托于眸思大模型的AI圖像識別工具,可以幫助視覺障礙者更方便的“看清世界”。她提供了強大的圖像識別能力,可以應用于日常生活的多個場景,為您帶來便利。
“復旦·眸思”(MouSi)官網(wǎng)鏈接:http://www.mousi.org/,可登錄試用體驗,打破視覺界限,助力視障者“看見”世界。
“聽見世界”APP針對視障者日常的生活需求,設計了三種模式。
【軟件模式】
街道行走模式,它將細致掃描道路情況,告知紅綠燈、十字路口、障礙物……提示潛在風險,陪伴視障者安全通行。
自由問答模式。走進博物館、藝術館、公園……它能捕捉四周景象的每個細節(jié),用聲音構建一個豐富的生活場景。
尋物模式。它像一名可靠的管家,日常物件的尋覓過程變得輕松無壓力。
【軟件功能】
物品識別
能精確識別到拍攝的物品,輕松獲取周圍物品信息,從而更好的理解周圍環(huán)境。
語音交互
可以直接通過對話方式進行操作并與AI溝通。
拍照閱讀
用戶使用App拍攝文字材料,如書籍、標簽或路標,App通過文字識別技術讀取并解析文字內(nèi)容,然后通過語音合成技術將文字內(nèi)容朗讀給用戶,幫助用戶理解文字信息。
【軟件優(yōu)勢】
眸思(MouSi)多模態(tài)大模型是由復旦大學語言與視覺團隊聯(lián)合提出基于多視覺專家混合架構的視覺-語言大模型。基于新架構的眸思將擅長圖文匹配、光學字符識別(OCR)和圖像分割等多種經(jīng)典視覺任務的專家巧妙地融為一體,顯著地提高了多模態(tài)大模型在多模態(tài)對話中傳統(tǒng)視覺任務上的表現(xiàn)效果。
復旦眸思多模態(tài)大模型是一種具備多模態(tài)理解、生成和交互能力的強大模型。它擁有出色的視覺感知、理解和邏輯推理能力,以及出色的由圖像到文本的跨模態(tài)生成能力。這使得人工智能成為了適用于廣大群眾的生產(chǎn)工具。對于企業(yè)特定需求,復旦眸思多模態(tài)大模型可以開展定制化服務。
展開