乐虎国际娱乐游戏

  • <tr id='trZLHr'><strong id='trZLHr'></strong><small id='trZLHr'></small><button id='trZLHr'></button><li id='trZLHr'><noscript id='trZLHr'><big id='trZLHr'></big><dt id='trZLHr'></dt></noscript></li></tr><ol id='trZLHr'><option id='trZLHr'><table id='trZLHr'><blockquote id='trZLHr'><tbody id='trZLHr'></tbody></blockquote></table></option></ol><u id='trZLHr'></u><kbd id='trZLHr'><kbd id='trZLHr'></kbd></kbd>

    <code id='trZLHr'><strong id='trZLHr'></strong></code>

    <fieldset id='trZLHr'></fieldset>
          <span id='trZLHr'></span>

              <ins id='trZLHr'></ins>
              <acronym id='trZLHr'><em id='trZLHr'></em><td id='trZLHr'><div id='trZLHr'></div></td></acronym><address id='trZLHr'><big id='trZLHr'><big id='trZLHr'></big><legend id='trZLHr'></legend></big></address>

              <i id='trZLHr'><div id='trZLHr'><ins id='trZLHr'></ins></div></i>
              <i id='trZLHr'></i>
            1. <dl id='trZLHr'></dl>
              1. <blockquote id='trZLHr'><q id='trZLHr'><noscript id='trZLHr'></noscript><dt id='trZLHr'></dt></q></blockquote><noframes id='trZLHr'><i id='trZLHr'></i>

                 返回亚游 設為亚游              資源已找到,加載中...... 請稍等!          網站地圖google地圖百度地圖同行旅遊RSS |

                  資訊>|新聞|人物訪談|新手教程|網絡營銷|互聯網絡|站長故事|網站設計|網絡應用|

                  分類>|百度推廣|谷歌推廣|騰訊推廣|必應推廣|雅虎|搜狗|搜索|炒作|軟文|博客|綜合|

                  目錄>|推廣故事|域名空間|故事|編程|合作|休閑|人才|招聘|論壇|博客|站長|休閑|

                >> | 設為亚游 | 加入收藏 |

                數據標註的過程要如何操作
                數據標註的過程要如何操作
                   點擊數:198  更新時間:2017/11/24 18:54:46
                  關於數據標註你了解多少?
                  一、什麽是數據標註
                  首先談談什麽是數據標註。數據標註有許多類型,如分類、畫框、註釋、標記等等,我們會在下面詳談。
                  要理解數據標註,得先理解AI其實是部分替代人的認知功能。回想一下我們是如何學習的,例如我們學習認識蘋果,那麽就需要有人拿著一個蘋果到你面前告訴你▓,這是一個蘋果。然後以後你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。
                  類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標註著“蘋果”兩個字,然後機器通過學習了大量的圖片中的特征,這時候再給機器任意一張蘋果的圖片,它就能認出來了。
                  這邊可以順帶提一下訓練集和測試集的概念。訓練集和測試集都是標註過的數據,還是以蘋果為例子,假設我們有1000張標註著“蘋果”的圖片,那麽我們可以拿900漲作為訓練集,100張作為測試集。機器從900張蘋果的圖片中學習得到一個模型,然後我們將剩下的100張機器沒有見過的圖片去給它識別,然後我們就能夠得到這個模型的準確率了。想想我們上學的時候,考試的內容總是不會和我們平時的作業一樣,也只有這樣才能測試出學習的真正效果,這樣就不難理解為什麽要劃分一個測試集了。
                  我們知道機器學習分為有監督學習和無監督學習。無監督學習的效果是不可控的,常常是被用來做探索性的實驗。而在實際產品應用中,通常使用的是有監督學習。有監督的機器學習就需要有標註的數據來作為先驗經驗。
                  在進行數據標註之前,我們首先要對數據進行清洗,得到符合我們要求的數據。數據的清洗包括去除無效的數據、整理成規整的格式等等。具體的數據要求可以和算法人員確認。
                  二、常見的幾種數據標註類型
                  1.分類標註:分類標註,就是我們常見的打標簽。一般是從既定的標簽中選擇數據對應的標簽,是封閉集合。如下圖,一張圖就可以有很多分類/標簽:成人、女、黃種人、長發等。對於文字,可以標註主語、謂語、賓語,名詞動詞等。
                  適用:文本、圖像、語音、視頻
                  應用:臉齡識別,情緒識別,性別識別
                  2.標框標註:機器視覺中的標框標註,很容易理解,就是框選要檢測的對象。如人臉識別,首先要先把人臉的位置確定下來。行人識別,如下圖。
                  適用:圖像
                  應用:人臉識別,物品識別
                  3.區域標註:相比於標框標註,區域標註要求更加精確。邊緣可以是柔性的。如自動駕駛中的道路識別。
                  適用:圖像
                  應用:自動駕駛
                  4.描點標註:一些對於特征要求細致的應用中常常需要描點標註。人臉識別、骨骼識別等。
                  適用:圖像
                  應用:人臉識別、骨骼識別
                  5.其他標註:標註的類型除了上面幾種常見,還有很多個性化的。根據不同的需求則需要不同的標註。如自動摘要,就需要標註文章的主要觀點,這時候的標註嚴格上就不屬於上面的任何一種了。(或則你把它歸為分類也是可以的,只是標註主要觀點就沒有這麽客觀的標準,如果是標註蘋果估計大多數人標註的結果都差不多。)
                  三、數據標註的過程
                  1.標註標準的確定
                  確定好標準是保證數據質量的關鍵一步,要保證有個可以參照的標準。一般可以:
                  設置標註樣例、模版。例如顏色的標準比色卡。
                  對於模棱兩可的數據,設置統一處理方式,如可以棄用,或則統一標註。
                  參照的標準有時候還要考慮行業。以文本情感分析為例,“疤痕”一詞,在心理學行業中,可能是個負面詞,而在醫療行業則是一個中性詞。
                  2.標註形式的確定
                  標註形式一般由算法人員制定,例如某些文本標註,問句識別,只需要對句子進行0或1的標註。是問句就標1,不是問句就標0。
                  3.標註工具的選擇
                  標註的形式確定後,就是對標註工具的選擇了。一般也是由算法人員提供。大公司可能會內部開發一個專門用於數據標註的可視化工具。如:
                  也有使用開源的數據標註工具的,如推薦 Github 上的小工具labelImg
                  四、數據標註產品的設計
                  結合自己做過一款數據標記工具談談設計數據標註工具的幾個小技巧。
                  一個數據標註工具一般包含:
                  進度條:用來指示數據標註的進度。標註人員一般都是有任務量要求的,一方面方便標註人員查看進度,一方面方便統計。
                  標註主體:這個可以根據標註形式進行設計,原則上是越簡潔易用越好。根據標註所需要的註意力可以分為單個標註和多個標註的形式,可根據需求選擇。
                  數據導入導出功能:如果你的標註工具是直接數據對接到模型上的,可以不需要。
                  收藏功能:這個可能是沒有接觸過數據標註的不會想到。標註人員常常會出現的一種情況就是疲勞,或者是遇到了那種模棱兩可的數據,則可以先收藏,等後面再標。
                  質檢機制:在分發數據的時候,可以隨機分發一些已經標註過的數據,來檢測標註人員可靠性。

              2. 上一篇文章:

              3. 下一篇文章: 沒有了
              4. 【字體:
                  網友評論:(只顯示最新10條。評論內容只代表網友觀點,與本站立場無關!)
                相 關 文 章
                沒有相關文章
                最 新 推 薦

                Copyright © 2005 - 2011 建站流程網 chczz.com All rights reserved. 聯系郵箱:chczzcom#163.com
                中國信息產業部備案編號:渝ICP備09029879號-2
                本站全部資源來自於互聯網,只供學習,不得用於商業,如有侵犯版權請聯系告知,來信請務必附上版權申明及相關證據,我們將第一時間刪除.