快速導讀
引言工作中,經(jīng)常會遇到大量的數(shù)據(jù),比如商品訂單、客戶資料、工資清單、物料清單等等,如果數(shù)據(jù)量不大,使用Excel就可以處理??梢坏?shù)據(jù)量達到10萬這個級別,Excel就捉襟見肘了。 打不開、導入慢、數(shù)據(jù)錯行、不能查找對比、Vlookup一次就死機、等待運算的時間可以出去吃個午飯、如果沒運算完誤操作就只能從頭再來,這些問題相信很多人都遇到過。其實有時候我們只是想打開數(shù)據(jù)看一眼,或者從里面提取出幾千條記錄而已。 常見處理大量數(shù)據(jù)的套路?如果不是進行大數(shù)據(jù)分析,其實絕大多數(shù)的人在職場里,處理數(shù)據(jù)都是這樣的:
可以看出,75%的工作都是在Excel中?,F(xiàn)在的職場不會Excel基本上寸步難行,如果你再會幾個公式和函數(shù),都有可能被稱為大神。Excel在2007版本之后大大提升了數(shù)據(jù)處理能力,最大數(shù)據(jù)量(行數(shù))從6萬多擴展到104萬,看似很美好,然而實際工作中,Excel處理10萬以上的數(shù)據(jù)慢如狗,卡頓死機是家常便飯,基本不可用。 本文為你介紹一個工具EmEditor,可以輕松打開百萬、千萬以上的數(shù)據(jù)(我最多嘗試過2000萬),10GB的文本文件輕松查看,查找、提取、分列快如閃電,甚至可以進行簡單的篩選和排序,還能輕松分割大文件以便Excel處理導入,這些操作在EmEditor里都只需點幾下鼠標,幾秒內就可以完成。 EmEditor是什么?官網(wǎng)介紹都是一些看不懂的話,其實這個軟件就是一個文本編輯器,類似于你電腦上的記事本,只是功能更多更厲害,軟件大小僅僅有20MB左右,本文我們僅介紹它的大型文本操作功能。
以下直接進入實操,介紹一些常見問題的處理辦法 準備工作打開EmEditor后,首先點擊菜單的查看,勾選行號、標尺、狀態(tài)欄。 點擊菜單的查看,工具欄,勾選CSV/排序工具欄、篩選工具欄 打開瀏覽文件我們拿到的大數(shù)據(jù)文件,一般都是從各個系統(tǒng)導出或者下載得到的,最常見的是文本文件(txt)和csv文件。這種數(shù)據(jù)一行代表一條數(shù)據(jù),行數(shù)就代表了數(shù)據(jù)量的大小。在一行里,一般使用英文逗號(,)、制表符(Tab鍵)、空格( )、冒號(:)、分號(;)等符號把數(shù)據(jù)進行分列。 使用EmEditor打開文件非常簡單,就和普通的記事本一樣,把文件拖放到EmEditor的窗口,或者使用菜單文件-打開就可以,如果已經(jīng)關聯(lián)了文本文件的打開方式,則雙擊即可(文末會介紹關聯(lián)辦法)。 以下分別打開10萬、100萬、550萬、1000萬數(shù)據(jù)的文件,體驗一下速度。 EmEditor不到1秒就可以快速瀏覽,狀態(tài)欄和行號一眼就可以看出數(shù)據(jù)量的大小。把數(shù)據(jù)導入到Excel查看的話,需要的時間會讓你崩潰。 有人說,記事本或者UltraEdit也可以很快打開,那么介紹第二個殺手級功能 CSV分列我們之所以要把文本類型的數(shù)據(jù)導入Excel處理,無非就是要按行按列查看和操作編輯,記事本和UltraEdit都只能按行查看,但是通過CSV功能,EmEditor可以將有分隔符的文本數(shù)據(jù)直接按行按列處理。 默認模式有逗號分隔、制表符分隔,制表符分割就是按Tab鍵分割,如果文件的分隔符有錯誤,文件下方會自動顯示輸出來提示錯誤行信息。再次點擊CSV/排序按鈕,可以切換成普通查看模式。 自定義分隔符軟件默認有逗號分隔、制表符分隔,因為絕大多數(shù)數(shù)據(jù)都是用這兩種標記進行分隔的,但也不能排序一些奇怪的分隔符,比如空格,冒號,分號等等。 這種情況下,可以使用查找/替換功能將空格、冒號批量替換為逗號來處理,雖然EmEditor中千萬級數(shù)據(jù)的查找替換也是飛快,但不建議,因為有些時候數(shù)據(jù)本身也會有空格和冒號,替換的話就會破壞原始數(shù)據(jù)。建議使用自定義分隔符,在不破壞數(shù)據(jù)的情況下進行分列。 舉例:使用英文分號作為分隔符進行分列這種模式,切換回普通模式,依然是分號分隔,原始數(shù)據(jù)沒有收到影響和破壞。 既然可以分列和按單元格查看了,那自然就有了排序和篩選。 排序切換到CSV模式后,軟件會自動顯示列序號,在列序號上單擊右鍵,就可以進行插入列、刪除列、復制列、排序等操作了。排序功能較為簡單直白,菜單里已經(jīng)寫的很清楚了不再贅述,需要注意的是排序會把列名稱也視為數(shù)據(jù)的一部分進行排序。 甚至可以多行排序哦。 刪除重復行點擊CSV工具欄里的這兩個圖標,可以快速刪除重復行,幾秒就可以完成百萬級數(shù)據(jù)的重復刪除。 刪除重復行:將對比每一列,如果兩行數(shù)據(jù)的每一列內容都相同,則刪除一行保留一行。 刪除/把重復行設為書簽(高級):選擇僅檢查指定列,可以指定對比某幾列的內容,進行重復行的刪除。 按列提取數(shù)據(jù)有時候數(shù)據(jù)里可能有上百列,手動去查找和刪除太慢太麻煩,那么可以使用提取列功能 篩選篩選的重要性不言而喻,對于大量數(shù)據(jù),我們在EmEditor中進行篩選,可以大大降低數(shù)據(jù)量提高處理速度,然后再導入到Excel中進行進一步關聯(lián)匯總。只有啟用了CSV模式,才能進行篩選。 舉例:篩選所有性別為男的訂單非CSV模式下的篩選(按行內容提取數(shù)據(jù))有時候數(shù)據(jù)可能太混亂,無法使用固定的分隔符,但依然想提取一部分數(shù)據(jù)出來怎么辦?可以使用查找替換功能的一個小彩蛋,查找行內容并提取出來。 查找替換功能很簡單,輸入查找內容定位到對應的位置,點擊下一個查看下一個數(shù)據(jù)所在位置。但EmEditor里的查找,可以直接選取所有內容并提取。 舉例:非CSV模式下,提取有“東門”這兩個字符的所有行。快速切割大文件有時候我們需要把大文件進行快速切割,比如150萬數(shù)據(jù)沒辦法導入Excel,那么分割成兩個文件就可以了。EmEditor可以很方便的打開,但是要去手動選擇數(shù)據(jù)還是太麻煩了。使用分割/合并就可以快速分割了。你可以直接指定分割后的文件行數(shù),軟件會自動生成多個小文件。 例如150萬的數(shù)據(jù),指定分割后每個文件4萬行,那么最終會得到37個4萬條數(shù)據(jù)的小文件, 還有1個2萬條數(shù)據(jù)的文件, 合計38個,只需1秒就可以完成分割。 關聯(lián)文件格式(雙擊打開txt和csv文件)通過這個操作,我們可以把系統(tǒng)里txt、csv文件關聯(lián)給EmEditor,以后遇到txt、csv文件,雙擊就可以直接使用EmEditor打開,再也不用使用緩慢的記事本和緩慢的Excel了。 軟件獲取說了這么多,軟件怎么下載安裝呢?EmEditor是付費的商業(yè)軟件,支持年訂閱付費或者永久授權,年訂閱283元,永久授權1274元。有條件的還是希望大家支持正版。 結語EmEditor是一個非常優(yōu)秀的文本編輯器,完全替代記事本,也可以用于編程,它的CSV分列模式完全參照Excel的操作辦法,除了上面提到的還可以自動填充、對行列單元格進行拖放等等,但是它也有局限性,比如公式、多表聯(lián)動查找、數(shù)據(jù)透視表依然需要其他軟件,它更多的是與Excel聯(lián)動快速完成數(shù)據(jù)的初步處理。 希望這篇文章能夠幫到你。 |
|