服務(wù)熱線：13728883399
wangyp@shangeai.com

詳細(xì)闡述機器學(xué)習(xí)及基本概念

時間：2018-07-07 09:05:52點擊：415次

《機器學(xué)習(xí)導(dǎo)論》第1章緒論,本章詳細(xì)地討論一些應(yīng)用領(lǐng)域的例子,以進一步深入了解機器學(xué)習(xí)的類型和用途。本節(jié)為大家介紹什么是機器學(xué)習(xí)。

什么是機器學(xué)習(xí)

隨著計算機技術(shù)的發(fā)展,我們現(xiàn)在已經(jīng)擁有存儲和處理海量數(shù)據(jù)以及通過計算機網(wǎng)絡(luò)從遠程站點訪問數(shù)據(jù)的能力。目前大多數(shù)的數(shù)據(jù)存取設(shè)備都是數(shù)字設(shè)備,記錄的數(shù)據(jù)也很可靠。以一家連鎖超市為例,它擁有遍布全國各地的數(shù)百家分店,并且在為數(shù)百萬顧客提供數(shù)千種商品的零售服務(wù)。銷售點的終端設(shè)備記錄每筆交易的詳細(xì)資料,包括日期、顧客識別碼、購買商品和數(shù)量、消費總額等。這是典型的每日幾個G字節(jié)的數(shù)據(jù)。只有分析這些數(shù)據(jù),并且將它轉(zhuǎn)換為可以利用的信息時,這些存儲的數(shù)據(jù)才能變得有用,例如做預(yù)測。

1我們不能確切地知道哪些人比較傾向于購買哪種特定的商品,也不知道應(yīng)該向喜歡讀海明威作品的人推薦哪位作者。如果我們知道,我們就不需要任何數(shù)據(jù)分析;我們只管供貨并記錄下編碼就可以了。但是,正因為我們不知道,所以才只能收集數(shù)據(jù),并期望從數(shù)據(jù)中提取這些問題或相似問題的答案。

Glühwein是一種溫?zé)帷⒂悬c甜味、加香料的葡萄酒。圣誕節(jié)期間,在歐洲很受歡迎。--譯者注我們確信存在某種過程,可以解釋我們所觀測到的數(shù)據(jù)。盡管我們不清楚數(shù)據(jù)產(chǎn)生過程(例如顧客行為)的細(xì)節(jié),但是,我們知道數(shù)據(jù)產(chǎn)生不是完全隨機的。人們并不是去超市隨機購買商品。當(dāng)人們買啤酒時,也會買薯片;夏天買冰淇淋,而冬天則為Glühwein?買香料。數(shù)據(jù)中存在確定的模式。

我們也許不能夠完全識別該過程,但是我們相信,我們能夠構(gòu)造一個好的并且有用的近似(good and useful approximation)。盡管這樣的近似還不可能解釋一切,但其仍然可以解釋數(shù)據(jù)的某些部分。我們相信,盡管識別全部過程也許是不可能的,但是我們?nèi)匀荒軌虬l(fā)現(xiàn)某些模式或規(guī)律。這正是機器學(xué)習(xí)的定位。這些模式可以幫助我們理解該過程,或者我們可以使用這些模式進行預(yù)測:假定將來,至少是不遠的將來,情況不會與收集樣本數(shù)據(jù)時有很大的不同,則未來的預(yù)測也將有望是正確的。

機器學(xué)習(xí)方法在大型數(shù)據(jù)庫中的應(yīng)用稱為數(shù)據(jù)挖掘(data mining)。類似的情況如大量的金屬氧化物以及原料從礦山中開采出來,處理后產(chǎn)生少量非常珍貴的物質(zhì)。同樣地,在數(shù)據(jù)挖掘中,需要處理大量的數(shù)據(jù)以構(gòu)建簡單有用的模型,例如具有高精度的預(yù)測模型。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域非常廣泛:除零售業(yè)以外,在金融業(yè),銀行分析他們的歷史數(shù)據(jù),構(gòu)建用于信用分析、詐騙檢測、股票市場等方面的應(yīng)用模型;在制造業(yè),學(xué)習(xí)模型可以用于優(yōu)化、控制以及故障檢測等;在醫(yī)學(xué)領(lǐng)域,學(xué)習(xí)程序可以用于醫(yī)療診斷等;在電信領(lǐng)域,通話模式的分析可用于網(wǎng)絡(luò)優(yōu)化和提高服務(wù)質(zhì)量;在科學(xué)研究領(lǐng)域,比如物理學(xué)、天文學(xué)以及生物學(xué)的大量數(shù)據(jù)只有用計算機才可能得到足夠快的分析。萬維網(wǎng)(World Wide Web)是巨大的,并且在不斷地增長,因此在萬維網(wǎng)上檢索相關(guān)信息不可能依靠人工完成。

然而,機器學(xué)習(xí)不僅僅是數(shù)據(jù)庫方面的問題,它也是人工智能的組成部分。為了智能化,處于變化環(huán)境中的系統(tǒng)必須具備學(xué)習(xí)的能力。如果系統(tǒng)能夠?qū)W習(xí)并且適應(yīng)這些變化,那么系統(tǒng)的設(shè)計者就不必預(yù)見所有的情況,并為它們提供解決方案了。

機器學(xué)習(xí)還可以幫助我們解決視覺、語音識別以及機器人方面的許多問題。以人臉識別問題為例:我們做這件事毫不費力;即使姿勢、光線、發(fā)型等不同,我們每天還是可以通過看真實的面孔或其照片來認(rèn)出我們的家人和朋友。但是我們做這件事是下意識的,而且無法解釋我們是如何做的。因為我們不能夠解釋我們所具備的這種技能,我們也就不可能編寫相應(yīng)的計算機程序。但是我們知道,臉部圖像并非只是像素點的隨機組合;人臉是有結(jié)構(gòu)的、對稱的。臉上有眼睛、鼻子和嘴巴,并且它們都位于臉的特定部位。每個人的臉都有各自的眼睛、鼻子和嘴巴的特定組合模式。通過分析一個人臉部圖像的多個樣本,學(xué)習(xí)程序可以捕捉到那個人特有的模式,然后在所給的圖像中檢測這種模式,從而進行辨認(rèn)。這就是模式識別(pattern recognition)的一個例子。

機器學(xué)習(xí)使用實例數(shù)據(jù)或過去的經(jīng)驗訓(xùn)練計算機,以優(yōu)化某種性能標(biāo)準(zhǔn)。我們有依賴于某些參數(shù)的模型,而學(xué)習(xí)就是執(zhí)行計算機程序,利用訓(xùn)練數(shù)據(jù)或以往經(jīng)驗來優(yōu)化該模型的參數(shù)的。模型可以是預(yù)測性的(predictive),用于未來的預(yù)測,或者是描述性的(descriptive),用于從數(shù)據(jù)中獲取知識,也可以二者兼?zhèn)洹?

機器學(xué)習(xí)在構(gòu)建數(shù)學(xué)模型時利用了統(tǒng)計學(xué)理論,因為其核心任務(wù)就是從樣本中推理。計算機科學(xué)的角色是雙重的:第一,在訓(xùn)練時,我們需要求解優(yōu)化問題以及存儲和處理通常所面對的海量數(shù)據(jù)的高效算法。第二,一旦學(xué)習(xí)得到了一個模型,它的表示和用于推理的算法解也必須是高效的。在特定的應(yīng)用中,學(xué)習(xí)或推理算法的效率,即它的空間復(fù)雜度和時間復(fù)雜度,可能與其預(yù)測精確度同樣重要。

標(biāo)簽:

打印

伊人久久大香线蕉综合BD高清,变态另类天堂无码,大又大又粗又硬又爽少妇毛片,中文字幕有码一区二区三区

詳細(xì)闡述機器學(xué)習(xí)及基本概念