2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
谷歌正在研究如何使用AI將自然語言說明植根于智能手機(jī)應(yīng)用程序操作。在2020年計算語言學(xué)協(xié)會(ACL)會議接受的一項研究中,該公司的研究人員提出了語料庫來訓(xùn)練模型,以減輕需要通過應(yīng)用進(jìn)行操縱的需求,這可能對視力障礙者有用。
當(dāng)協(xié)調(diào)工作并完成涉及一系列動作的任務(wù)時(例如,按照制作生日蛋糕的食譜),人們會相互提供指示??紤]到這一點,研究人員著手為可以幫助進(jìn)行類似交互的AI代理建立基準(zhǔn)。給定一組指令,這些代理將理想地預(yù)測一系列應(yīng)用程序動作以及在應(yīng)用程序從一個屏幕過渡到另一個屏幕時生成的屏幕和交互元素。
研究人員在論文中描述了一個兩步解決方案,包括一個動作短語提取步驟和一個接地步驟。動作短語提取使用Transformer模型從多步驟指令中識別操作,對象和參數(shù)描述。(模型中的“區(qū)域關(guān)注”模塊允許它整體上處理指令中的一組相鄰單詞,以對描述進(jìn)行解碼。)接地將提取的操作和對象描述與屏幕上的UI對象進(jìn)行匹配,再次使用一種Transformer模型,但可以在上下文中表示UI對象并為其基礎(chǔ)對象描述。
合著者創(chuàng)建了三個新的數(shù)據(jù)集來訓(xùn)練和評估他們的動作短語提取和基礎(chǔ)模型:
第一個包含187條多步驟英文說明,用于操作Pixel手機(jī)及其相應(yīng)的操作屏幕序列。
第二個包含來自網(wǎng)絡(luò)的英文“操作方法”說明以及描述每個動作的帶注釋短語。
第三個包含295,000個單步命令,這些命令用于UI動作,這些動作來自公共Android UI語料庫的25,000個移動UI屏幕上的178,000個UI對象。
他們報告說,關(guān)注區(qū)域的變壓器在預(yù)測與地面真實情況完全匹配的跨度序列時可達(dá)到85.56%的準(zhǔn)確度。同時,在將語言指令端到端映射到更具挑戰(zhàn)性的任務(wù)時,短語提取器和基礎(chǔ)模型一起獲得89.21%的局部準(zhǔn)確度和70.59%的完全準(zhǔn)確度,以匹配地面真實動作序列。
研究人員斷言,數(shù)據(jù)集,模型和結(jié)果(所有這些數(shù)據(jù)集,模型和結(jié)果都可以從GitHub上的開放源代碼獲得)為解決將自然語言指令扎根于移動UI動作這一具有挑戰(zhàn)性的問題邁出了重要的第一步。
“這項研究以及總體上的語言基礎(chǔ),是將多階段指令轉(zhuǎn)換為圖形用戶界面上的動作的重要一步。成功地將任務(wù)自動化應(yīng)用于UI域有潛力顯著提高可訪問性,其中語言界面可以幫助視力障礙的人使用看得到的界面執(zhí)行任務(wù)。”“當(dāng)人們在手頭的任務(wù)所困擾的情況下無法輕松訪問設(shè)備時,這對于情況損害也很重要。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。