MySQL數(shù)據(jù)庫事務的基本性質(zhì)為ACID即原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)和持久性(Durability)。接下來就來了解一下各種特性的內(nèi)容:查看全文>>
有兩種方法可以進行二次排序,分別為:buffer and in memory sort和 value-to-key conversion。buffer and in memory sort的主要思想是:在reduce()函數(shù)中,將某個key對應的所有value保存到內(nèi)存中,然后進行排序。查看全文>>
join() 方法的作用 join() 方法用于將序列中的元素以指定的字符連接生成一個新的字符串。查看全文>>
一般情況下,在選擇是使用多進程還是多線程時,主要考慮的業(yè)務到底是IO密集型(多線程)還是計算密集型(多進程)。在爬蟲中,請求的并發(fā)業(yè)務屬于是網(wǎng)絡的IO類型業(yè)務,因此網(wǎng)絡并發(fā)適宜使用多線程;但特殊需求下,比如使用phantomjs 或者chrome-headless來抓取的爬蟲,應當是多進程的,因為每一個phan/chro實例就是一個進程了,并發(fā)只能是多進程。查看全文>>
如果抓取的數(shù)據(jù)之間的耦合性很高,關系比較復雜的話,那么mysql可能會是更好的選擇。如果抓取的數(shù)據(jù)是分版塊的,并且它們之間沒有相似性或關聯(lián)性不強,那么可能mongodb 會更好。查看全文>>
每個數(shù)據(jù)倉庫都包含一個或者多個事實數(shù)據(jù)表,事實表是對分析主題的度量,它包含了與各維度表相關聯(lián)的外鍵,并通過連接(Join)方式與維度表關聯(lián)。查看全文>>