-
1 # Python進階學習交流
-
2 # 破局三叉戟
我需要重新排列下您提的幾個詞:
大資料
資料探勘
資料分析/統計分析
機器學習
深度學習
需要處理大資料,必須使用SQL,Python,R,C ++,Java,Scala,Ruby等來編寫計算機程式,以便僅維護大資料資料庫。
作為想要簡化公司運營的人員,你需要做資料探勘和資料分析——可能會使用簡單的軟體來執行此操作,或者執行大量其他人編寫的程式碼,或者用SQL,Python,R編寫詳盡的程式碼,進行資料探勘、資料清理、資料分析、建模、預測建模等。
此外,需要能夠使用機器學習來得出結論,並在不能獲得分析答案的地方提出預測。可以將分析性答案視為計算機程式的[If / then]型別,其中所有輸入條件都是已知的,並且只有幾個引數會發生變化。
如果這還不夠,您還可以使用深度學習。深度學習用於處理諸如音樂檔案,影象之類的資料,甚至諸如自然語言之類的文字資料,這些資料雖然很大,但是型別卻非常多樣。
公司外部的人可能會看到也可能不會看到您做的任何事情,但你的工作將幫助公司更好地進行產品和方案設計。
為此,您可能需要大量的專業知識來處理資料和一些程式語言的知識。
在網上我之前看到的資料科學維恩圖(Venn Diagram)如下。資料科學家處在交匯處。交流。
我們所說的“大資料”是什麼意思?“大資料”是指資料集,其大小超出了典型資料庫軟體工具的儲存、管理和分析的能力。 隨著技術的不斷髮展,符合大資料條件的資料集的大小也會增加。還應注意,定義可能因行業而異,具體取決於特定行業中常用的軟體工具種類和資料集的大小。 有了這些警告,當今許多領域的大資料範圍將從幾十TB到數PB。
接下來我們看看大資料需要什麼樣的分析A/B測試
關聯規則學習
分類分析
聚類分析
資料探勘什麼是資料探勘透過將統計和機器學習方法與資料庫管理相結合,從大型資料集中提取模式的一組技術。這些技術包括關聯規則學習,聚類分析,分類和迴歸。應用程式包括挖掘客戶資料以確定最有可能響應報價的細分市場,挖掘人力資源資料以識別最成功的員工的特徵,或進行市場籃子分析以建模客戶的購買行為。
整合學習。
與從任何組成模型中獲得的預測模型相比,使用多個預測模型(每個模型都使用統計和/或機器學習開發)可獲得更好的預測效能。這是一種監督學習。
遺傳演算法。
一種用於最佳化的技術,其靈感來自自然進化或“適者生存”的過程。在該技術中,潛在的解決方案被編碼為可以結合和變異的“染色體”。選擇這些個體染色體以在模擬“環境”中生存,該“環境”決定了種群中每個個體的適應性或表現。通常被描述為一種“進化演算法”,這些演算法非常適合解決非線性問題。應用程式示例包括改善製造中的作業計劃並最佳化投資組合的績效。
機器學習。計算機科學的一個子專業(在歷史上稱為“人工智慧”的領域內)與演算法的設計和開發有關,該演算法允許計算機根據經驗資料來發展行為。機器學習研究的主要重點是自動學習識別複雜的模式並根據資料做出明智的決策。自然語言處理是機器學習的一個示例。
自然語言處理(NLP)。
計算機科學子專業中的一組技術(在歷史上稱為“人工智慧”的領域內)和語言學,它們使用計算機演算法來分析人類(自然)語言。許多NLP技術是機器學習的型別。 NLP的一種應用是在社交媒體上使用情緒分析來確定潛在客戶對品牌宣傳活動的反應。透過自然語言處理分析的來自社交媒體的資料可以與實時銷售資料結合,以確定營銷活動對客戶情緒和購買行為產生何種影響。
神經網路。
計算模型受生物神經網路(即大腦內的細胞和連線)的結構和工作原理的啟發,可以在資料中找到模式。神經網路非常適合查詢非線性模式。它們可用於模式識別和最佳化。一些神經網路應用程式涉及監督學習,而另一些應用程式涉及無監督學習。應用程式示例包括識別有可能離開特定公司的高價值客戶以及識別欺詐性保險索賠。
網路分析。
一組用於表徵圖形或網路中離散節點之間關係的技術。在社交網路分析中,將分析社群或組織中個人之間的聯絡,例如資訊的傳播方式或誰對誰影響最大。應用程式的示例包括確定要營銷目標的主要意見領袖,以及確定企業資訊流中的瓶頸。
……
綜合起來,您提的這幾個名詞各有定義,然鵝在實際應用中諸多交叉。
您可以理解為大資料是基礎資料;
大資料需要資料分析,資料探勘是資料分析的一個方向,用到統計分析的知識;
如果資料探勘不行,可以用機器學習來做一些應用,深度學習是機器學習領域延申出來的內容。
-
3 # 軟體測試開發技術棧
這個問題最近刷到很多次,看來是要回答一下了。因實際工作中會接觸資料分析、挖掘、大資料、機器學習及深度學習,這裡分享一下自己對這些概念的認知。
資料分析 主要是面向結論。通常是透過人依賴自身的分析經驗和對資料的敏感度(人智活動),對收集來的資料進行處理與分析,按照明確目標或維度進行分析(目標導向),獲取有價值的資訊。比如利用對比分析、分組分析、交叉分析等方法,完成現狀分析、原因分析、預測分析,提取有用資訊和形成結論。
資料探勘 主要是面向決策。通常是指從海量(巨量)的資料中,挖掘出未知的且有價值的資訊或知識的過程(探索性),更好地發揮或利用資料潛在價值。比如利用規則、決策樹、聚類、神經網路等機率論、統計學、人工智慧等方法,得出規則或者模型,進而利用該規則或模型獲取相似度、預測值等資料實現海量資料的分類、聚類、關聯和預測,提供決策依據。
需要注意,較傳統資料探勘主要針對相對少量、高質量的樣本資料,機器學習的發展應用使得資料探勘可以面向海量、不完整 、有噪聲、模糊的資料。
資料統計 同樣是面向結論,只不過是是把模糊估計的結論變得精確而定量。比如。得出具體的總和、平均值、比率的統計值。
從廣義上講,廣義的資料分析分為如上介紹的資料分析、資料探勘、資料統計三個方向。機器學習 是一門專門研究計算機怎樣模擬或實現人類的學習行為,能夠賦予機器學習的能力以讓它完成透過程式設計無法完成的功能,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能的學科,但機器學習不會讓機器產生“意識和思考”,它是機率論與統計學的範疇,是實現人工智慧的途徑之一。
深度學習 是機器學習的一個子領域,受大腦神經網路的結構和功能啟發而創造的演算法,能夠從大資料中自動學習特徵,以解決任何需要思考的問題。從統計學上來講,深度學習就是在預測資料,從資料中學習產出一個模型,再透過模型去預測新的資料,需要注意的是訓練資料要遵循預測資料的資料特徵分佈。它也是實現人工智慧的途徑之一。
機器學習中的“訓練”與“預測”過程可以對應到人類的“歸納”和“推測”過程。
回覆列表
Spss statistics與Spss Modeler這兩個軟體都是關於資料方向的軟體,其中Spss statistics更加偏向於資料分析,而Spss Modeler更加偏向於資料探勘。相信資料分析和資料探勘的概念,你應該很明確了吧?在此就不再贅述了。
Spss statistics更加偏向於統計、資料分析;Spss Modeler主要是用於資料建模,提供一個數學模型。
如果不會Python的話,同時掌握了這兩個軟體再加上統計學理論知識的話,找個資料分析工作問題不大,不過隨著你自己的未來發展,Python和R語言,我相信都是你需要補課的重要內容。
回頭可以看看資料分析、資料探勘的區別