《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 一文讀懂為什么要選擇 Python做機器學習

一文讀懂為什么要選擇 Python做機器學習

2018-08-18
關鍵詞: Python

  隨著機器學習的興起,Python 逐步成為了「最受歡迎」的語言。它簡單易用、邏輯明確并擁有海量的擴展包,因此其不僅成為機器學習與數(shù)據(jù)科學的首選語言,同時在網(wǎng)頁、數(shù)據(jù)爬取可科學研究等方面成為不二選擇。此外,很多入門級的機器學習開發(fā)者都是跟隨大流選擇 Python,但到底為什么要選擇 Python 就是本文的核心內(nèi)容。

  本教程的目的是讓你相信兩件事:首先,Python 是一種非常棒的編程語言;其次,如果你是一名科學家,Python 很可能值得你去學習。本教程并非想要說明 Python 是一種萬能的語言;相反,作者明確討論了在幾種情況下,Python 并不是一種明智的選擇。本教程的目的只是提供對 Python 一些核心特征的評論,并闡述作為一種通用的科學計算語言,它比其他常用的替代方案(最著名的是 R 和 Matlab)更有優(yōu)勢。

  本教程的其余部分假定你已經(jīng)有了一些編程經(jīng)驗,如果你非常精通其他以數(shù)據(jù)為中心的語言(如 R 或 Matlab),理解本教程就會非常容易。本教程不能算作一份關于 Python 的介紹,且文章重點在于為什么應該學習 Python 而不是怎樣寫 Python 代碼(盡管其他地方有大量的優(yōu)秀教程)。

  概述

  Python 是一種廣泛使用、易于學習、高級、通用的動態(tài)編程語言。這很令人滿意,所以接下來分開討論一些特征。

  Python(相對來說)易于學習

  編程很難,因此從絕對意義上來說,除非你已經(jīng)擁有編程經(jīng)驗,否則編程語言難以學習。但是,相對而言,Python 的高級屬性(見下一節(jié))、語法可讀性和語義直白性使得它比其他語言更容易學習。例如,這是一個簡單 Python 函數(shù)的定義(故意未注釋),它將一串英語單詞轉換為(crummy)Pig Latin:

  def pig_latin(text):

  ''' Takes in a sequence of words and converts it to (imperfect) pig latin. '''

  word_list = text.split(' ')

  output_list = []

  for word in word_list:

  word = word.lower()

  if word.isalpha():

  first_char = word[0]

  if first_char in 'aeiou':

  word = word + 'ay'

  else:

  word = word[1:] + first_char + 'yay'

  output_list.append(word)

  pygged = ' '.join(output_list)

  return pygged

  以上函數(shù)事實上無法生成完全有效的 Pig Latin(假設存在「有效 Pig Latin」),但這沒有關系。有些情況下它是可行的:

  test1 = pig_latin("let us see if this works")

  print(test1)

  拋開 Pig Latin 不說,這里的重點只是,出于幾個原因,代碼是很容易閱讀的。首先,代碼是在高級抽象中編寫的(下面將詳細介紹),因此每行代碼都會映射到一個相當直觀的操作。這些操作可以是「取這個單詞的第一個字符」,而不是映射到一個沒那么直觀的低級操作,例如「為一個字符預留一個字節(jié)的內(nèi)存,稍后我會傳入一個字符」。其次,控制結構(如,for—loops,if—then 條件等)使用諸如「in」,「and」和「not」的簡單單詞,其語義相對接近其自然英語含義。第三,Python 對縮進的嚴格控制強加了一種使代碼可讀的規(guī)范,同時防止了某些常見的錯誤。第四,Python 社區(qū)非常強調(diào)遵循樣式規(guī)定和編寫「Python 式的」代碼,這意味著相比使用其他語言的程序員而言,Python 程序員更傾向于使用一致的命名規(guī)定、行的長度、編程習慣和其他許多類似特征,它們共同使別人的代碼更易閱讀(盡管這可以說是社區(qū)的一個特征而不是語言本身)。

  Python 是一種高級語言

  與其他許多語言相比,Python 是一種相對「高級」的語言:它不需要(并且在許多情況下,不允許)用戶擔心太多底層細節(jié),而這是其他許多語言需要去處理的。例如,假設我們想創(chuàng)建一個名為「my_box_of_things」的變量當作我們所用東西的容器。我們事先不知道我們想在盒子中保留多少對象,同時我們希望在添加或刪除對象時,對象數(shù)量可以自動增減。所以這個盒子需要占據(jù)一個可變的空間:在某個時間點,它可能包含 8 個對象(或「元素」),而在另一個時間點,它可能包含 257 個對象。在像 C 這樣的底層語言中,這個簡單的要求就已經(jīng)給我們的程序帶來了一些復雜性,因為我們需要提前聲明盒子需要占據(jù)多少空間,然后每次我們想要增加盒子需要的空間時,我么需要明確創(chuàng)建一個占據(jù)更多空間的全新的盒子,然后將所有東西拷貝到其中。

  相比之下,在 Python 中,盡管在底層這些過程或多或少會發(fā)生(效率較低),但我們在使用高級語言編寫時并不需要擔心這一部分。從我們的角度來看,我們可以創(chuàng)建自己的盒子并根據(jù)喜好添加或刪除對象:

  # Create a box (really, a 'list') with 5 things# Create

  my_box_of_things = ['Davenport', 'kettle drum', 'swallow-tail coat', 'table cloth', 'patent leather shoes']

  print(my_box_of_things)

  ['Davenport', 'kettle drum', 'swallow-tail coat', 'table cloth', 'patent leather shoes']

  # Add a few more things

  my_box_of_things += ['bathing suit', 'bowling ball', 'clarinet', 'ring']

  # Maybe add one last thing

  my_box_of_things.append('radio that only needs a fuse')

  # Let's see what we have...

  print(my_box_of_things)

  更一般來說,Python(以及根據(jù)定義的其他所有高級語言)傾向于隱藏需要在底層語言中明確表達的各種死記硬背的聲明。這使得我們可以編寫非常緊湊、清晰的代碼(盡管它通常以降低性能為代價,因為內(nèi)部不再可訪問,因此優(yōu)化變得更加困難)。

  例如,考慮從文件中讀取純文本這樣看似簡單的行為。對于與文件系統(tǒng)直接接觸而傷痕累累的開發(fā)者來說,從概念上看似乎只需要兩個簡單的操作就可以完成:首先打開一個文件,然后從其中讀取。實際過程遠不止這些,并且比 Python 更底層的語言通常強制(或至少是鼓勵)我們?nèi)コ姓J這一點。例如,這是在 Java 中從文件中讀取內(nèi)容的規(guī)范(盡管肯定不是最簡潔的)方法:

  import java.io.BufferedReader;

  import java.io.FileReader;

  import java.io.IOException;

  public class ReadFile {

  public static void main(String[] args) throws IOException{

  String fileContents = readEntireFile("./foo.txt");

  }

  private static String readEntireFile(String filename) throws IOException {

  FileReader in = new FileReader(filename);

  StringBuilder contents = new StringBuilder();

  char[] buffer = new char[4096];

  int read = 0;

  do {

  contents.append(buffer, 0, read);

  read = in.read(buffer);

  } while (read >= 0);

  return contents.toString();

  }

  }

  你可以看到我們不得不做一些令人苦惱的事,例如導入文件讀取器、為文件中的內(nèi)容創(chuàng)建一個緩存,以塊的形式讀取文件塊并將它們分配到緩存中等等。相比之下,在 Python 中,讀取文件中的全部內(nèi)容只需要如下代碼:

  # Read the contents of "hello_world.txt"

  text = open("hello_world.txt").read()

  當然,這種簡潔性并不是 Python 獨有的;還有其他許多高級語言同樣隱藏了簡單請求所暗含的大部分令人討厭的內(nèi)部過程(如,Ruby,R,Haskell 等)。但是,相對來說比較少有其他語言能與接下來探討的 Python 特征相媲美。

  Python 是一種通用語言

  根據(jù)設計,Python 是一種通用的語言。也就是說,它旨在允許程序員在任何領域編寫幾乎所有類型的應用,而不是專注于一類特定的問題。在這方面,Python 可以與(相對)特定領域的語言進行對比,如 R 或 PHP。這些語言原則上可用于很多情形,但仍針對特定用例進行了明確優(yōu)化(在這兩個示例中,分別用于統(tǒng)計和網(wǎng)絡后端開發(fā))。

  Python 通常被親切地成為「所有事物的第二個最好的語言」,它很好地捕捉到了這樣的情緒,盡管在很多情況下 Python 并不是用于特定問題的最佳語言,但它通常具有足夠的靈活性和良好的支持性,使得人們?nèi)匀豢梢韵鄬τ行У亟鉀Q問題。事實上,Python 可以有效地應用于許多不同的應用中,這使得學習 Python 成為一件相當有價值的事。因為作為一個軟件開發(fā)人員,能夠使用單一語言實現(xiàn)所有事情,而不是必須根據(jù)所執(zhí)行的項目在不同語言和環(huán)境間進行切換,是一件非常棒的事。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。