(1)起草單位
國網信息通信產業集團有限公司、四川中電啟明星信息技術有限公司、國網重慶市電力公司、國網重慶市電力公司電力科學研究院、重慶大學。
(2)主要起草人
李強、宋衛平、王紅蕾、趙峰、周孔均、鐘加勇、倪平波、李炳森、田鵬、李歡歡、徐小云、劉禮、崔秋實、張強、李立、李軍、高攀、高勝杰。
近年來,隨著人工智能的不斷發展,人工智能技術在電力行業中被廣泛應用。而智能交互技術作為人工智能技術的一個分支,也被應用于眾多電力業務場景中,且某些場景需結合文本訓練語料標注操作。
然而,電力行業中各企業沒有采用統一的文本訓練語料標注標準,各企業標注的文本訓練語料不能直接或間接共享,同時文本訓練語料的標注需要消耗大量人力和時間, 這就導致已標注完成的文本訓練語料匱乏或者重復標注等問題的存在。因此,指導企業協同共享樣本數據、模型資源,統一化、規范化、專業化文本訓練語料標注標準工作迫在眉睫。
(1)范圍
本標準規定了對電力智能交互文本訓練語料的基本要求、標注要求和標注流程方面技術要求。本標準適用于電力智能交互文本訓練語料的標注、管理及質量管控等。
(2)規范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件
(3)術語及定義
主要包括語料、樣本數據、訓練語料、標注、意圖、槽位、標注工具的定義。
(4)縮略語
主要包括BIOES、BIO的描述。
(5)總則
主要對電力智能交互文本訓練語料的標注規范基本要求、標注要求和標注流程三個方面。
(6)基本要求
主要包括存儲格式要求、命名要求、質量要求、樣本描述文件要求。
(7)標注要求
主要包括基本要求、意圖標注要求、槽位標注要求、標注完成的語料樣本命名與存儲要求。
(8)標注流程
主要包括總體要求、語料樣本檢查、安全管控、標注工具選擇、語料樣本標注、標注結果收集、標注結果檢查。
本標準批準發布后,將為電力智能交互文本訓練語料標注提供統一明確的技術規范,進而推動電力智能交互技術的協同管理、填補電力智能交互領域標準的空白,指導企業協同共享樣本數據、模型資源,促進電力智能交互技術在電力行業的發展應用。