如何上手使用科學(xué)計(jì)算庫(kù)Numpy?
當(dāng)我們使用Python進(jìn)行數(shù)據(jù)分析時(shí),有時(shí)我們可能需要根據(jù)數(shù)據(jù)幀中其他列的值向Pandas數(shù)據(jù)幀中添加一列。
雖然這聽起來(lái)很簡(jiǎn)單,但是如果我們嘗試使用if-else條件語(yǔ)句,可能會(huì)變得有點(diǎn)復(fù)雜。幸運(yùn)的是,有一個(gè)簡(jiǎn)單而好的方法可以用numpy做到這一點(diǎn)!
要學(xué)習(xí)如何使用它,讓讓我們來(lái)看一個(gè)具體的數(shù)據(jù)分析問題。我們有超過(guò)4000條AAA教育推文的數(shù)據(jù)集。帶有圖片的推文會(huì)獲得更多的贊和轉(zhuǎn)發(fā)嗎?讓讓我們做一些分析來(lái)找出答案!
我們將從導(dǎo)入pandas和numpy并加載數(shù)據(jù)集開始,看看它是什么樣子的。
我們可以看到,我們的數(shù)據(jù)集包含了每條推文的一些信息,包括:
1)日期——推文發(fā)布的日期。
2)時(shí)間——推文發(fā)出的時(shí)間。
3)tweet-tweet的實(shí)際文本
4)提及——推文中提到的任何其他Twitter用戶。
5)照片——推文中包含的任何圖片的URL。
6)replies_count——推文上的回復(fù)數(shù)量
77)retweets_count-轉(zhuǎn)發(fā)的推文數(shù)量
8)likes_count——推文上的贊數(shù)。
我們還可以看到照片數(shù)據(jù)的格式有點(diǎn)奇怪。
使用np.wh
numpy和pandas區(qū)別?
區(qū)別在于兩者含義不同,具體區(qū)別如下。
Numpy,中文意思是(數(shù)值Python),是Python的開源數(shù)值計(jì)算擴(kuò)展。
熊貓的意思是基于中文的數(shù)字Py的一個(gè)工具,是為了解決數(shù)據(jù)分析的任務(wù)而創(chuàng)建的。Pandas包括大量的庫(kù)和一些標(biāo)準(zhǔn)數(shù)據(jù)模型,提供了高效操作大型數(shù)據(jù)集所需的工具。Pandas提供了大量的功能和方法,使我們能夠快速方便地處理數(shù)據(jù)。