午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

20萬以上的數(shù)據(jù)該如何快速處理

 小獅子002 2024-09-11 發(fā)布于云南

快速導讀

  • 輕松處理10GB以上的txt文件

  • 不用導入Excel,幾千萬數(shù)據(jù)快速排序和查找

  • 幾秒內完成查看篩選

  • 將大文件按行數(shù)快速分割成小文件

引言

工作中,經(jīng)常會遇到大量的數(shù)據(jù),比如商品訂單、客戶資料、工資清單、物料清單等等,如果數(shù)據(jù)量不大,使用Excel就可以處理??梢坏?shù)據(jù)量達到10萬這個級別,Excel就捉襟見肘了。

打不開、導入慢、數(shù)據(jù)錯行、不能查找對比、Vlookup一次就死機、等待運算的時間可以出去吃個午飯、如果沒運算完誤操作就只能從頭再來,這些問題相信很多人都遇到過。其實有時候我們只是想打開數(shù)據(jù)看一眼,或者從里面提取出幾千條記錄而已。

常見處理大量數(shù)據(jù)的套路?

如果不是進行大數(shù)據(jù)分析,其實絕大多數(shù)的人在職場里,處理數(shù)據(jù)都是這樣的:

  1. 拿到數(shù)據(jù)

  2. 導入到excel

  3. 使用篩選、排序、數(shù)據(jù)透視表、vlookup函數(shù)進行多個表的數(shù)據(jù)關聯(lián)等等

  4. 制作表格、圖標

可以看出,75%的工作都是在Excel中?,F(xiàn)在的職場不會Excel基本上寸步難行,如果你再會幾個公式和函數(shù),都有可能被稱為大神。Excel在2007版本之后大大提升了數(shù)據(jù)處理能力,最大數(shù)據(jù)量(行數(shù))從6萬多擴展到104萬,看似很美好,然而實際工作中,Excel處理10萬以上的數(shù)據(jù)慢如狗,卡頓死機是家常便飯,基本不可用。

本文為你介紹一個工具EmEditor,可以輕松打開百萬、千萬以上的數(shù)據(jù)(我最多嘗試過2000萬),10GB的文本文件輕松查看,查找、提取、分列快如閃電,甚至可以進行簡單的篩選和排序,還能輕松分割大文件以便Excel處理導入,這些操作在EmEditor里都只需點幾下鼠標,幾秒內就可以完成。

EmEditor是什么?

圖片

官網(wǎng)介紹都是一些看不懂的話,其實這個軟件就是一個文本編輯器,類似于你電腦上的記事本,只是功能更多更厲害,軟件大小僅僅有20MB左右,本文我們僅介紹它的大型文本操作功能。

  • 支持大型 CSV 數(shù)據(jù)

  • 輕松處理 248 GB 大的文件

  • 超大文件控制器

  • 分割/合并文件

  • 優(yōu)化的 CSV 和排序功能

  • 多線程性能

以下直接進入實操,介紹一些常見問題的處理辦法

準備工作

打開EmEditor后,首先點擊菜單的查看,勾選行號、標尺、狀態(tài)欄。

點擊菜單的查看,工具欄,勾選CSV/排序工具欄、篩選工具欄

圖片

打開瀏覽文件

我們拿到的大數(shù)據(jù)文件,一般都是從各個系統(tǒng)導出或者下載得到的,最常見的是文本文件(txt)和csv文件。這種數(shù)據(jù)一行代表一條數(shù)據(jù),行數(shù)就代表了數(shù)據(jù)量的大小。在一行里,一般使用英文逗號(,)、制表符(Tab鍵)、空格、冒號(:)、分號(;)等符號把數(shù)據(jù)進行分列。

使用EmEditor打開文件非常簡單,就和普通的記事本一樣,把文件拖放到EmEditor的窗口,或者使用菜單文件-打開就可以,如果已經(jīng)關聯(lián)了文本文件的打開方式,則雙擊即可(文末會介紹關聯(lián)辦法)。

以下分別打開10萬、100萬、550萬、1000萬數(shù)據(jù)的文件,體驗一下速度。

圖片

EmEditor不到1秒就可以快速瀏覽,狀態(tài)欄和行號一眼就可以看出數(shù)據(jù)量的大小。把數(shù)據(jù)導入到Excel查看的話,需要的時間會讓你崩潰。

圖片

有人說,記事本或者UltraEdit也可以很快打開,那么介紹第二個殺手級功能

CSV分列

我們之所以要把文本類型的數(shù)據(jù)導入Excel處理,無非就是要按行按列查看和操作編輯,記事本和UltraEdit都只能按行查看,但是通過CSV功能,EmEditor可以將有分隔符的文本數(shù)據(jù)直接按行按列處理。

圖片

默認模式有逗號分隔、制表符分隔,制表符分割就是按Tab鍵分割,如果文件的分隔符有錯誤,文件下方會自動顯示輸出來提示錯誤行信息。再次點擊CSV/排序按鈕,可以切換成普通查看模式。

自定義分隔符

軟件默認有逗號分隔、制表符分隔,因為絕大多數(shù)數(shù)據(jù)都是用這兩種標記進行分隔的,但也不能排序一些奇怪的分隔符,比如空格,冒號,分號等等。

這種情況下,可以使用查找/替換功能將空格、冒號批量替換為逗號來處理,雖然EmEditor中千萬級數(shù)據(jù)的查找替換也是飛快,但不建議,因為有些時候數(shù)據(jù)本身也會有空格和冒號,替換的話就會破壞原始數(shù)據(jù)。建議使用自定義分隔符,在不破壞數(shù)據(jù)的情況下進行分列。

舉例:使用英文分號作為分隔符進行分列

圖片

這種模式,切換回普通模式,依然是分號分隔,原始數(shù)據(jù)沒有收到影響和破壞。

既然可以分列和按單元格查看了,那自然就有了排序和篩選。

排序

切換到CSV模式后,軟件會自動顯示列序號,在列序號上單擊右鍵,就可以進行插入列、刪除列、復制列、排序等操作了。排序功能較為簡單直白,菜單里已經(jīng)寫的很清楚了不再贅述,需要注意的是排序會把列名稱也視為數(shù)據(jù)的一部分進行排序。

圖片

圖片

甚至可以多行排序哦。

刪除重復行

點擊CSV工具欄里的這兩個圖標,可以快速刪除重復行,幾秒就可以完成百萬級數(shù)據(jù)的重復刪除。

圖片

刪除重復行:將對比每一列,如果兩行數(shù)據(jù)的每一列內容都相同,則刪除一行保留一行。

刪除/把重復行設為書簽(高級):選擇僅檢查指定列,可以指定對比某幾列的內容,進行重復行的刪除。

按列提取數(shù)據(jù)

有時候數(shù)據(jù)里可能有上百列,手動去查找和刪除太慢太麻煩,那么可以使用提取列功能

圖片

篩選

篩選的重要性不言而喻,對于大量數(shù)據(jù),我們在EmEditor中進行篩選,可以大大降低數(shù)據(jù)量提高處理速度,然后再導入到Excel中進行進一步關聯(lián)匯總。只有啟用了CSV模式,才能進行篩選。

舉例:篩選所有性別為男的訂單

圖片

非CSV模式下的篩選(按行內容提取數(shù)據(jù))

有時候數(shù)據(jù)可能太混亂,無法使用固定的分隔符,但依然想提取一部分數(shù)據(jù)出來怎么辦?可以使用查找替換功能的一個小彩蛋,查找行內容并提取出來。

查找替換功能很簡單,輸入查找內容定位到對應的位置,點擊下一個查看下一個數(shù)據(jù)所在位置。但EmEditor里的查找,可以直接選取所有內容并提取。

舉例:非CSV模式下,提取有“東門”這兩個字符的所有行。

圖片

快速切割大文件

有時候我們需要把大文件進行快速切割,比如150萬數(shù)據(jù)沒辦法導入Excel,那么分割成兩個文件就可以了。EmEditor可以很方便的打開,但是要去手動選擇數(shù)據(jù)還是太麻煩了。使用分割/合并就可以快速分割了。你可以直接指定分割后的文件行數(shù),軟件會自動生成多個小文件。

例如150萬的數(shù)據(jù),指定分割后每個文件4萬行,那么最終會得到37個4萬條數(shù)據(jù)的小文件, 還有1個2萬條數(shù)據(jù)的文件, 合計38個,只需1秒就可以完成分割。

圖片

關聯(lián)文件格式(雙擊打開txt和csv文件)

通過這個操作,我們可以把系統(tǒng)里txt、csv文件關聯(lián)給EmEditor,以后遇到txt、csv文件,雙擊就可以直接使用EmEditor打開,再也不用使用緩慢的記事本和緩慢的Excel了。

圖片

軟件獲取

說了這么多,軟件怎么下載安裝呢?EmEditor是付費的商業(yè)軟件,支持年訂閱付費或者永久授權,年訂閱283元,永久授權1274元。有條件的還是希望大家支持正版。

圖片

圖片

結語

EmEditor是一個非常優(yōu)秀的文本編輯器,完全替代記事本,也可以用于編程,它的CSV分列模式完全參照Excel的操作辦法,除了上面提到的還可以自動填充、對行列單元格進行拖放等等,但是它也有局限性,比如公式、多表聯(lián)動查找、數(shù)據(jù)透視表依然需要其他軟件,它更多的是與Excel聯(lián)動快速完成數(shù)據(jù)的初步處理。

希望這篇文章能夠幫到你。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多