redis 數(shù)據(jù)類型詳解以及 redis適用場景場合

平民小白 2018-01-31

展開全文

1. MySql+Memcached架構(gòu)的問題

　　實際MySQL是適合進行海量數(shù)據(jù)存儲的，通過Memcached將熱點數(shù)據(jù)加載到cache，加速訪問，很多公司都曾經(jīng)使用過這樣的架構(gòu)，但隨著業(yè)務數(shù)據(jù)量的不斷增加，和訪問量的持續(xù)增長，我們遇到了很多問題：

　　1.MySQL需要不斷進行拆庫拆表，Memcached也需不斷跟著擴容，擴容和維護工作占據(jù)大量開發(fā)時間。

　　2.Memcached與MySQL數(shù)據(jù)庫數(shù)據(jù)一致性問題。

　　3.Memcached數(shù)據(jù)命中率低或down機，大量訪問直接穿透到DB，MySQL無法支撐。

　　4.跨機房cache同步問題。

　　眾多NoSQL百花齊放，如何選擇

　　最近幾年，業(yè)界不斷涌現(xiàn)出很多各種各樣的NoSQL產(chǎn)品，那么如何才能正確地使用好這些產(chǎn)品，最大化地發(fā)揮其長處，是我們需要深入研究和思考的問題，實際歸根結(jié)底最重要的是了解這些產(chǎn)品的定位，并且了解到每款產(chǎn)品的tradeoffs，在實際應用中做到揚長避短，總體上這些NoSQL主要用于解決以下幾種問題

　　1.少量數(shù)據(jù)存儲，高速讀寫訪問。此類產(chǎn)品通過數(shù)據(jù)全部in-momery 的方式來保證高速訪問，同時提供數(shù)據(jù)落地的功能，實際這正是Redis最主要的適用場景。

　　2.海量數(shù)據(jù)存儲，分布式系統(tǒng)支持，數(shù)據(jù)一致性保證，方便的集群節(jié)點添加/刪除。

　　3.這方面最具代表性的是dynamo和bigtable 2篇論文所闡述的思路。前者是一個完全無中心的設(shè)計，節(jié)點之間通過gossip方式傳遞集群信息，數(shù)據(jù)保證最終一致性，后者是一個中心化的方案設(shè)計，通過類似一個分布式鎖服務來保證強一致性,數(shù)據(jù)寫入先寫內(nèi)存和redo log，然后定期compat歸并到磁盤上，將隨機寫優(yōu)化為順序?qū)懀岣邔懭胄阅堋?/p>

　　4.Schema free，auto-sharding等。比如目前常見的一些文檔數(shù)據(jù)庫都是支持schema-free的，直接存儲json格式數(shù)據(jù)，并且支持auto-sharding等功能，比如mongodb。

　　面對這些不同類型的NoSQL產(chǎn)品,我們需要根據(jù)我們的業(yè)務場景選擇最合適的產(chǎn)品。

Redis最適合所有數(shù)據(jù)in-momory的場景，雖然Redis也提供持久化功能，但實際更多的是一個disk-backed的功能，跟傳統(tǒng)意義上的持久化有比較大的差別，那么可能大家就會有疑問，似乎Redis更像一個加強版的Memcached，那么何時使用Memcached,何時使用Redis呢?

如果簡單地比較Redis與Memcached的區(qū)別，大多數(shù)都會得到以下觀點：

1 、Redis不僅僅支持簡單的k/v類型的數(shù)據(jù)，同時還提供list，set，zset，hash等數(shù)據(jù)結(jié)構(gòu)的存儲。
2 、Redis支持數(shù)據(jù)的備份，即master-slave模式的數(shù)據(jù)備份。
3 、Redis支持數(shù)據(jù)的持久化，可以將內(nèi)存中的數(shù)據(jù)保持在磁盤中，重啟的時候可以再次加載進行使用。

2. Redis常用數(shù)據(jù)類型

Redis最為常用的數(shù)據(jù)類型主要有以下：

String
Hash
List
Set
Sorted set
pub/sub
Transactions

在具體描述這幾種數(shù)據(jù)類型之前，我們先通過一張圖了解下Redis內(nèi)部內(nèi)存管理中是如何描述這些不同數(shù)據(jù)類型的：

首先Redis內(nèi)部使用一個redisObject對象來表示所有的key和value,redisObject最主要的信息如上圖所示：

type代表一個value對象具體是何種數(shù)據(jù)類型，

encoding是不同數(shù)據(jù)類型在redis內(nèi)部的存儲方式，

比如：type=string代表value存儲的是一個普通字符串，那么對應的encoding可以是raw或者是int,如果是int則代表實際redis內(nèi)部是按數(shù)值型類存儲和表示這個字符串的，當然前提是這個字符串本身可以用數(shù)值表示，比如:"123" "456"這樣的字符串。

這里需要特殊說明一下vm字段，只有打開了Redis的虛擬內(nèi)存功能，此字段才會真正的分配內(nèi)存，該功能默認是關(guān)閉狀態(tài)的，該功能會在后面具體描述。通過上圖我們可以發(fā)現(xiàn)Redis使用redisObject來表示所有的key/value數(shù)據(jù)是比較浪費內(nèi)存的，當然這些內(nèi)存管理成本的付出主要也是為了給Redis不同數(shù)據(jù)類型提供一個統(tǒng)一的管理接口，實際作者也提供了多種方法幫助我們盡量節(jié)省內(nèi)存使用，我們隨后會具體討論。

3. 各種數(shù)據(jù)類型應用和實現(xiàn)方式

下面我們先來逐一的分析下這7種數(shù)據(jù)類型的使用和內(nèi)部實現(xiàn)方式:

String:

Strings 數(shù)據(jù)結(jié)構(gòu)是簡單的key-value類型，value其實不僅是String，也可以是數(shù)字.

常用命令: set,get,decr,incr,mget 等。

應用場景：String是最常用的一種數(shù)據(jù)類型，普通的key/ value 存儲都可以歸為此類.即可以完全實現(xiàn)目前 Memcached 的功能，并且效率更高。還可以享受Redis的定時持久化，操作日志及 Replication等功能。除了提供與 Memcached 一樣的get、set、incr、decr 等操作外，Redis還提供了下面一些操作：

- 獲取字符串長度
- 往字符串a(chǎn)ppend內(nèi)容
- 設(shè)置和獲取字符串的某一段內(nèi)容
- 設(shè)置及獲取字符串的某一位（bit）
- 批量設(shè)置一系列字符串的內(nèi)容

實現(xiàn)方式：String在redis內(nèi)部存儲默認就是一個字符串，被redisObject所引用，當遇到incr,decr等操作時會轉(zhuǎn)成數(shù)值型進行計算，此時redisObject的encoding字段為int。

Hash

常用命令：hget,hset,hgetall 等。

應用場景：在Memcached中，我們經(jīng)常將一些結(jié)構(gòu)化的信息打包成HashMap，在客戶端序列化后存儲為一個字符串的值，比如用戶的昵稱、年齡、性別、積分等，這時候在需要修改其中某一項時，通常需要將所有值取出反序列化后，修改某一項的值，再序列化存儲回去。這樣不僅增大了開銷，也不適用于一些可能并發(fā)操作的場合（比如兩個并發(fā)的操作都需要修改積分）。而Redis的Hash結(jié)構(gòu)可以使你像在數(shù)據(jù)庫中Update一個屬性一樣只修改某一項屬性值。

我們簡單舉個實例來描述下Hash的應用場景，比如我們要存儲一個用戶信息對象數(shù)據(jù)，包含以下信息：

用戶ID為查找的key，存儲的value用戶對象包含姓名，年齡，生日等信息，如果用普通的key/value結(jié)構(gòu)來存儲，主要有以下2種存儲方式：

第一種方式將用戶ID作為查找key,把其他信息封裝成一個對象以序列化的方式存儲，這種方式的缺點是，增加了序列化/反序列化的開銷，并且在需要修改其中一項信息時，需要把整個對象取回，并且修改操作需要對并發(fā)進行保護，引入CAS等復雜問題。

第二種方法是這個用戶信息對象有多少成員就存成多少個key-value對兒，用用戶ID+對應屬性的名稱作為唯一標識來取得對應屬性的值，雖然省去了序列化開銷和并發(fā)問題，但是用戶ID為重復存儲，如果存在大量這樣的數(shù)據(jù)，內(nèi)存浪費還是非常可觀的。

那么Redis提供的Hash很好的解決了這個問題，Redis的Hash實際是內(nèi)部存儲的Value為一個HashMap，并提供了直接存取這個Map成員的接口，如下圖：

也就是說，Key仍然是用戶ID, value是一個Map，這個Map的key是成員的屬性名，value是屬性值，這樣對數(shù)據(jù)的修改和存取都可以直接通過其內(nèi)部Map的Key(Redis里稱內(nèi)部Map的key為field), 也就是通過 key(用戶ID) + field(屬性標簽) 就可以操作對應屬性數(shù)據(jù)了，既不需要重復存儲數(shù)據(jù)，也不會帶來序列化和并發(fā)修改控制的問題。很好的解決了問題。

這里同時需要注意，Redis提供了接口(hgetall)可以直接取到全部的屬性數(shù)據(jù),但是如果內(nèi)部Map的成員很多，那么涉及到遍歷整個內(nèi)部Map的操作，由于Redis單線程模型的緣故，這個遍歷操作可能會比較耗時，而另其它客戶端的請求完全不響應，這點需要格外注意。

實現(xiàn)方式：

上面已經(jīng)說到Redis Hash對應Value內(nèi)部實際就是一個HashMap，實際這里會有2種不同實現(xiàn)，這個Hash的成員比較少時Redis為了節(jié)省內(nèi)存會采用類似一維數(shù)組的方式來緊湊存儲，而不會采用真正的HashMap結(jié)構(gòu)，對應的value redisObject的encoding為zipmap,當成員數(shù)量增大時會自動轉(zhuǎn)成真正的HashMap,此時encoding為ht。

List

常用命令：lpush,rpush,lpop,rpop,lrange等。

應用場景：

Redis list的應用場景非常多，也是Redis最重要的數(shù)據(jù)結(jié)構(gòu)之一，比如twitter的關(guān)注列表，粉絲列表等都可以用Redis的list結(jié)構(gòu)來實現(xiàn)。

Lists 就是鏈表，相信略有數(shù)據(jù)結(jié)構(gòu)知識的人都應該能理解其結(jié)構(gòu)。使用Lists結(jié)構(gòu)，我們可以輕松地實現(xiàn)最新消息排行等功能。Lists的另一個應用就是消息隊列，
可以利用Lists的PUSH操作，將任務存在Lists中，然后工作線程再用POP操作將任務取出進行執(zhí)行。Redis還提供了操作Lists中某一段的api，你可以直接查詢，刪除Lists中某一段的元素。

實現(xiàn)方式：

Redis list的實現(xiàn)為一個雙向鏈表，即可以支持反向查找和遍歷，更方便操作，不過帶來了部分額外的內(nèi)存開銷，Redis內(nèi)部的很多實現(xiàn)，包括發(fā)送緩沖隊列等也都是用的這個數(shù)據(jù)結(jié)構(gòu)。

常用命令：

sadd,spop,smembers,sunion 等。

應用場景：

Redis set對外提供的功能與list類似是一個列表的功能，特殊之處在于set是可以自動排重的，當你需要存儲一個列表數(shù)據(jù)，又不希望出現(xiàn)重復數(shù)據(jù)時，set是一個很好的選擇，并且set提供了判斷某個成員是否在一個set集合內(nèi)的重要接口，這個也是list所不能提供的。

Sets 集合的概念就是一堆不重復值的組合。利用Redis提供的Sets數(shù)據(jù)結(jié)構(gòu)，可以存儲一些集合性的數(shù)據(jù)，比如在微博應用中，可以將一個用戶所有的關(guān)注人存在一個集合中，將其所有粉絲存在一個集合。Redis還為集合提供了求交集、并集、差集等操作，可以非常方便的實現(xiàn)如共同關(guān)注、共同喜好、二度好友等功能，對上面的所有集合操作，你還可以使用不同的命令選擇將結(jié)果返回給客戶端還是存集到一個新的集合中。

實現(xiàn)方式：

set 的內(nèi)部實現(xiàn)是一個 value永遠為null的HashMap，實際就是通過計算hash的方式來快速排重的，這也是set能提供判斷一個成員是否在集合內(nèi)的原因。

Sorted Set

常用命令：

zadd,zrange,zrem,zcard等

使用場景：

Redis sorted set的使用場景與set類似，區(qū)別是set不是自動有序的，而sorted set可以通過用戶額外提供一個優(yōu)先級(score)的參數(shù)來為成員排序，并且是插入有序的，即自動排序。當你需要一個有序的并且不重復的集合列表，那么可以選擇sorted set數(shù)據(jù)結(jié)構(gòu)，比如twitter 的public timeline可以以發(fā)表時間作為score來存儲，這樣獲取時就是自動按時間排好序的。

另外還可以用Sorted Sets來做帶權(quán)重的隊列，比如普通消息的score為1，重要消息的score為2，然后工作線程可以選擇按score的倒序來獲取工作任務。讓重要的任務優(yōu)先執(zhí)行。

實現(xiàn)方式：

Redis sorted set的內(nèi)部使用HashMap和跳躍表(SkipList)來保證數(shù)據(jù)的存儲和有序，HashMap里放的是成員到score的映射，而跳躍表里存放的是所有的成員，排序依據(jù)是HashMap里存的score,使用跳躍表的結(jié)構(gòu)可以獲得比較高的查找效率，并且在實現(xiàn)上比較簡單。

Pub/Sub

Pub/Sub 從字面上理解就是發(fā)布（Publish）與訂閱（Subscribe），在Redis中，你可以設(shè)定對某一個key值進行消息發(fā)布及消息訂閱，當一個key值上進行了消息發(fā)布后，所有訂閱它的客戶端都會收到相應的消息。這一功能最明顯的用法就是用作實時消息系統(tǒng)，比如普通的即時聊天，群聊等功能。

Transactions

誰說NoSQL都不支持事務，雖然Redis的Transactions提供的并不是嚴格的ACID的事務（比如一串用EXEC提交執(zhí)行的命令，在執(zhí)行中服務器宕機，那么會有一部分命令執(zhí)行了，剩下的沒執(zhí)行），但是這個Transactions還是提供了基本的命令打包執(zhí)行的功能（在服務器不出問題的情況下，可以保證一連串的命令是順序在一起執(zhí)行的，中間有會有其它客戶端命令插進來執(zhí)行）。Redis還提供了一個Watch功能，你可以對一個key進行Watch，然后再執(zhí)行Transactions，在這過程中，如果這個Watched的值進行了修改，那么這個Transactions會發(fā)現(xiàn)并拒絕執(zhí)行。

4. Redis實際應用場景

Redis在很多方面與其他數(shù)據(jù)庫解決方案不同：它使用內(nèi)存提供主存儲支持，而僅使用硬盤做持久性的存儲；它的數(shù)據(jù)模型非常獨特，用的是單線程。另一個大區(qū)別在于，你可以在開發(fā)環(huán)境中使用Redis的功能，但卻不需要轉(zhuǎn)到Redis。

轉(zhuǎn)向Redis當然也是可取的，許多開發(fā)者從一開始就把Redis作為首選數(shù)據(jù)庫；但設(shè)想如果你的開發(fā)環(huán)境已經(jīng)搭建好，應用已經(jīng)在上面運行了，那么更換數(shù)據(jù)庫框架顯然不那么容易。另外在一些需要大容量數(shù)據(jù)集的應用，Redis也并不適合，因為它的數(shù)據(jù)集不會超過系統(tǒng)可用的內(nèi)存。所以如果你有大數(shù)據(jù)應用，而且主要是讀取訪問模式，那么Redis并不是正確的選擇。

然而我喜歡Redis的一點就是你可以把它融入到你的系統(tǒng)中來，這就能夠解決很多問題，比如那些你現(xiàn)有的數(shù)據(jù)庫處理起來感到緩慢的任務。這些你就可以通過Redis來進行優(yōu)化，或者為應用創(chuàng)建些新的功能。在本文中，我就想探討一些怎樣將Redis加入到現(xiàn)有的環(huán)境中，并利用它的原語命令等功能來解決傳統(tǒng)環(huán)境中碰到的一些常見問題。在這些例子中，Redis都不是作為首選數(shù)據(jù)庫。

1、顯示最新的項目列表

下面這個語句常用來顯示最新項目，隨著數(shù)據(jù)多了，查詢毫無疑問會越來越慢。

SELECT * FROM foo WHERE ... ORDER BY time DESC LIMIT 10

在Web應用中，“列出最新的回復”之類的查詢非常普遍，這通常會帶來可擴展性問題。這令人沮喪，因為項目本來就是按這個順序被創(chuàng)建的，但要輸出這個順序卻不得不進行排序操作。

類似的問題就可以用Redis來解決。比如說，我們的一個Web應用想要列出用戶貼出的最新20條評論。在最新的評論邊上我們有一個“顯示全部”的鏈接，點擊后就可以獲得更多的評論。

我們假設(shè)數(shù)據(jù)庫中的每條評論都有一個唯一的遞增的ID字段。

我們可以使用分頁來制作主頁和評論頁，使用Redis的模板，每次新評論發(fā)表時，我們會將它的ID添加到一個Redis列表：

LPUSH latest.comments <ID>

我們將列表裁剪為指定長度，因此Redis只需要保存最新的5000條評論：

LTRIM latest.comments 0 5000

每次我們需要獲取最新評論的項目范圍時，我們調(diào)用一個函數(shù)來完成（使用偽代碼）：

FUNCTION get_latest_comments(start, num_items):
id_list = redis.lrange("latest.comments",start,start+num_items - 1)
IF id_list.length < num_items
id_list = SQL_DB("SELECT ... ORDER BY time LIMIT ...")
END
RETURN id_list
END

這里我們做的很簡單。在Redis中我們的最新ID使用了常駐緩存，這是一直更新的。但是我們做了限制不能超過5000個ID，因此我們的獲取ID函數(shù)會一直詢問Redis。只有在start/count參數(shù)超出了這個范圍的時候，才需要去訪問數(shù)據(jù)庫。

我們的系統(tǒng)不會像傳統(tǒng)方式那樣“刷新”緩存，Redis實例中的信息永遠是一致的。SQL數(shù)據(jù)庫（或是硬盤上的其他類型數(shù)據(jù)庫）只是在用戶需要獲取“很遠”的數(shù)據(jù)時才會被觸發(fā)，而主頁或第一個評論頁是不會麻煩到硬盤上的數(shù)據(jù)庫了。

2、刪除與過濾

我們可以使用LREM來刪除評論。如果刪除操作非常少，另一個選擇是直接跳過評論條目的入口，報告說該評論已經(jīng)不存在。

有些時候你想要給不同的列表附加上不同的過濾器。如果過濾器的數(shù)量受到限制，你可以簡單的為每個不同的過濾器使用不同的Redis列表。畢竟每個列表只有5000條項目，但Redis卻能夠使用非常少的內(nèi)存來處理幾百萬條項目。

3、排行榜相關(guān)

另一個很普遍的需求是各種數(shù)據(jù)庫的數(shù)據(jù)并非存儲在內(nèi)存中，因此在按得分排序以及實時更新這些幾乎每秒鐘都需要更新的功能上數(shù)據(jù)庫的性能不夠理想。

典型的比如那些在線游戲的排行榜，比如一個Facebook的游戲，根據(jù)得分你通常想要：

- 列出前100名高分選手

- 列出某用戶當前的全球排名

這些操作對于Redis來說小菜一碟，即使你有幾百萬個用戶，每分鐘都會有幾百萬個新的得分。

模式是這樣的，每次獲得新得分時，我們用這樣的代碼：

ZADD leaderboard <score> <username>

你可能用userID來取代username，這取決于你是怎么設(shè)計的。

得到前100名高分用戶很簡單：ZREVRANGE leaderboard 0 99。

用戶的全球排名也相似，只需要：ZRANK leaderboard <username>。

4、按照用戶投票和時間排序

排行榜的一種常見變體模式就像Reddit或Hacker News用的那樣，新聞按照類似下面的公式根據(jù)得分來排序：

score = points / time^alpha

因此用戶的投票會相應的把新聞挖出來，但時間會按照一定的指數(shù)將新聞埋下去。下面是我們的模式，當然算法由你決定。

模式是這樣的，開始時先觀察那些可能是最新的項目，例如首頁上的1000條新聞都是候選者，因此我們先忽視掉其他的，這實現(xiàn)起來很簡單。

每次新的新聞貼上來后，我們將ID添加到列表中，使用LPUSH + LTRIM，確保只取出最新的1000條項目。

有一項后臺任務獲取這個列表，并且持續(xù)的計算這1000條新聞中每條新聞的最終得分。計算結(jié)果由ZADD命令按照新的順序填充生成列表，老新聞則被清除。這里的關(guān)鍵思路是排序工作是由后臺任務來完成的。

5、處理過期項目

另一種常用的項目排序是按照時間排序。我們使用unix時間作為得分即可。

模式如下：

- 每次有新項目添加到我們的非Redis數(shù)據(jù)庫時，我們把它加入到排序集合中。這時我們用的是時間屬性，current_time和time_to_live。

- 另一項后臺任務使用ZRANGE…SCORES查詢排序集合，取出最新的10個項目。如果發(fā)現(xiàn)unix時間已經(jīng)過期，則在數(shù)據(jù)庫中刪除條目。

6、計數(shù)

Redis是一個很好的計數(shù)器，這要感謝INCRBY和其他相似命令。

我相信你曾許多次想要給數(shù)據(jù)庫加上新的計數(shù)器，用來獲取統(tǒng)計或顯示新信息，但是最后卻由于寫入敏感而不得不放棄它們。

好了，現(xiàn)在使用Redis就不需要再擔心了。有了原子遞增（atomic increment），你可以放心的加上各種計數(shù)，用GETSET重置，或者是讓它們過期。

例如這樣操作：

INCR user:<id> EXPIRE

user:<id> 60

你可以計算出最近用戶在頁面間停頓不超過60秒的頁面瀏覽量，當計數(shù)達到比如20時，就可以顯示出某些條幅提示，或是其它你想顯示的東西。

7、特定時間內(nèi)的特定項目

另一項對于其他數(shù)據(jù)庫很難，但Redis做起來卻輕而易舉的事就是統(tǒng)計在某段特點時間里有多少特定用戶訪問了某個特定資源。比如我想要知道某些特定的注冊用戶或IP地址，他們到底有多少訪問了某篇文章。

每次我獲得一次新的頁面瀏覽時我只需要這樣做：

SADD page:day1:<page_id> <user_id>

當然你可能想用unix時間替換day1，比如time()-(time()%3600*24)等等。

想知道特定用戶的數(shù)量嗎？只需要使用SCARD page:day1:<page_id>。

需要測試某個特定用戶是否訪問了這個頁面？SISMEMBER page:day1:<page_id>。

8、實時分析正在發(fā)生的情況，用于數(shù)據(jù)統(tǒng)計與防止垃圾郵件等

我們只做了幾個例子，但如果你研究Redis的命令集，并且組合一下，就能獲得大量的實時分析方法，有效而且非常省力。使用Redis原語命令，更容易實施垃圾郵件過濾系統(tǒng)或其他實時跟蹤系統(tǒng)。

9、Pub/Sub

Redis的Pub/Sub非常非常簡單，運行穩(wěn)定并且快速。支持模式匹配，能夠?qū)崟r訂閱與取消頻道。

10、隊列

你應該已經(jīng)注意到像list push和list pop這樣的Redis命令能夠很方便的執(zhí)行隊列操作了，但能做的可不止這些：比如Redis還有l(wèi)ist pop的變體命令，能夠在列表為空時阻塞隊列。

現(xiàn)代的互聯(lián)網(wǎng)應用大量地使用了消息隊列（Messaging）。消息隊列不僅被用于系統(tǒng)內(nèi)部組件之間的通信，同時也被用于系統(tǒng)跟其它服務之間的交互。消息隊列的使用可以增加系統(tǒng)的可擴展性、靈活性和用戶體驗。非基于消息隊列的系統(tǒng)，其運行速度取決于系統(tǒng)中最慢的組件的速度（注：短板效應）。而基于消息隊列可以將系統(tǒng)中各組件解除耦合，這樣系統(tǒng)就不再受最慢組件的束縛，各組件可以異步運行從而得以更快的速度完成各自的工作。

此外，當服務器處在高并發(fā)操作的時候，比如頻繁地寫入日志文件。可以利用消息隊列實現(xiàn)異步處理。從而實現(xiàn)高性能的并發(fā)操作。