回覆列表
  • 1 # 山東中公優就業

    簡要分析一下:

    大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。隨著網際網路+時代的昌盛,大資料分析隨之而產生,那如何學習大資料分析呢?有什麼要求呢?

    大資料都要學習什麼內容——階段一 Linux作業系統的學習。

    這個時候可能會偏理論一些,可能會比較枯燥,但是基礎很重要,主要學習點包括:Linux系統的歷史、發展與企業應用現狀;Linux目錄結構與命令的使用;Linux系統下載、使用者與許可權管理;目錄與檔案管理;編輯器VIM的使用;SHELL、環境變數與指令碼;服務的配置(FTP、HTTP、DNS、SAMBA、SSH等);儲存的管理(檔案系統、LVM、裸裝置等);Linux系統下ORACLE資料庫的安裝與配置。

    大資料都要學習什麼內容——階段二 SHELL指令碼操作

    這個階段你就要動手實踐了,主要學習內容有:深入理解指令碼語言;SHELL命令與SHELL指令碼的區別與應用場景;SHELL變數型別與設定;SHELL正則表示式;sed和awk文字流處理;SHELL指令碼的測試方法;SHELL控制結構;SHELL指令碼的除錯與跟蹤;SHELL指令碼進行自動控制與維護應用與服務。

    大資料都要學習什麼內容——階段三 MYSQL資料庫

    主要學習知識點有:LAMP/LNMP架構的起源、元件內容與市場應用狀況;獲取軟體、選擇可用版本、安裝架構的各個元件;搭建、除錯LAMP/LNMP架構;MYSQL資料庫的體系結構;SQL在MYSQL資料庫的應用;MYSQL資料庫的建立、資料庫中各物件的建立;MYSQL資料庫,掌握MYSQL引擎的選擇、引數的配置;MYSQL資料庫的備份與恢復工具,並實踐資料庫的備份與恢復;MYSQL資料庫在LAMP/LNMP架構中的應用;

    大資料都要學習什麼內容——階段四 大資料架構

    大資料的核心知識點都在這了,主要有:大資料的發展未來、應用場景;大資料平臺各軟體的下載、安裝和配置;HDFS工作原理、配置與管理;YARN工作原理、配置與管理;Sqoop工作原理、配置與管理;Hive資料庫的工作原理、安裝配置與管理;Hbase資料庫的工作原理、安裝配置與管理;Kylin工作原理、配置與管理;Spark工作原因,對大資料進行分析;

    重要提示:學習一門技術不難,重要的是需要不斷動手實踐,在實踐中不斷總結經驗教訓,不斷提升自己,這樣你的技術之路會走的更遠!

    在分析一丟丟:

    一、數學知識

    數學知識是資料分析師的基礎知識。

    對於初級資料分析師,瞭解一些描述統計相關的基礎內容,有一定的公式計算能力即可,瞭解常用統計模型演算法則是加分。

    對於高階資料分析師,統計模型相關知識是必備能力,線性代數(主要是矩陣計算相關知識)最好也有一定的瞭解。

    而對於資料探勘工程師,除了統計學以外,各類演算法也需要熟練使用,對數學的要求是最高的。

    二、分析工具

    對於初級資料分析師,玩轉Excel是必須的,資料透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統計分析工具,SPSS作為入門是比較好的。

    對於高階資料分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。

    對於資料探勘工程師……嗯,會用用Excel就行了,主要工作要靠寫程式碼來解決呢。

    三、程式語言

    對於初級資料分析師,會寫SQL查詢,有需要的話寫寫Hadoop和Hive查詢,基本就OK了。

    對於高階資料分析師,除了SQL以外,學習Python是很有必要的,用來獲取和處理資料都是事半功倍。當然其他程式語言也是可以的。

    對於資料探勘工程師,Hadoop得熟悉,Python/Java/C++至少得熟悉一門,Shell得會用……總之程式語言絕對是資料探勘工程師的最核心能力了。

    大資料分析師最基礎的學習,也是以最精煉的語言讓我們得知大資料分析所需要的基礎技能。中公教育優就業IT培訓等你加入!

  • 2 # 碼農視界

    從零學起,請問你有時間嗎?有精力嗎?能對學大資料付出多少代價呢?什麼事情從零開始都是很難的。

    大資料技術也是一樣,想要掌握一門大資料技術,必須先從一門程式語言學起,比如說java、Python,這個階段就是枯燥的,也是漫長的;接著是你要接觸Linux系統,再真正開始接觸大資料技術,Hadoop、spark等等也是需要很長時間的!

  • 3 # IT人劉俊明

    大資料是我的研究方向之一,我來回答一下這個問題。

    目前我們正處在大資料時代背景下,大資料也正在完成從概念到產業的蛻變,大資料產業涉及到與資料關聯的一系列操作,包括資料的採集、傳輸、儲存、安全、分析以及呈現,而這些操作的基礎則包括物聯網、雲計算以及傳統資訊系統。

    學習大資料有很多切入點,很多專業人才都可以參與到大資料產業中,包括計算機、數學、統計等專業。不同專業人才可以從事不同的崗位,數學專業可以從事演算法分析,統計專業可以從事資料分析,而計算機專業則可以從事大資料平臺的搭建以及功能實現(演算法實現)。

    以計算機專業為例從事大資料需要掌握程式設計、Linux作業系統、大資料平臺搭建、演算法實現、功能部署等內容,學習大資料往往都從程式設計開始。

    目前大資料平臺以Hadoop和Spark使用最為廣泛,這兩個平臺可以使用多種語言完成功能的實施。Spark在速度上要由於Hadoop,主要是Spark以記憶體來快取資料。

    Hadoop平臺可以使用Java、Python,Spark平臺可以使用Python、Scala、Java等,當然還可以使用R語言,如果以落地應用為主的話,Python是個不錯的選擇。

    從自學大資料開發的角度來看,先了解大資料的諸多基本概念,然後學習Python、Linux作業系統、搭建Hadoop平臺、寫應用、搭建Spark平臺、寫應用,最後把大資料平臺的一系列元件串起來完成一個具體的功能就可以了。由於Hadoop是基於Java構建的,所以學習大資料從Java開始也可以。

    如果有關於大資料、Java語言、Python語言方面的問題,也可以諮詢我。

  • 中秋節和大豐收的關聯?
  • 白醋泡花的正確方法?