網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究

發(fā)布時(shí)間：2022-11-17 09:24:30

序言：寫作是分享個(gè)人見解和探索未知領(lǐng)域的橋梁，我們?yōu)槟x了1篇的網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究樣本，期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā)，請(qǐng)盡情閱讀。

0引言

伴隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，中國(guó)正迎來從IT時(shí)代到DT時(shí)代的變革?！?020中國(guó)網(wǎng)絡(luò)文學(xué)藍(lán)皮書》顯示，2020年中國(guó)網(wǎng)絡(luò)文學(xué)用戶規(guī)模達(dá)4.67億人，全網(wǎng)作品累計(jì)約2800萬部，全國(guó)文學(xué)網(wǎng)站日均更新字?jǐn)?shù)超1.5億，全年累計(jì)新增字?jǐn)?shù)超過500億。由此可見，網(wǎng)絡(luò)小說平臺(tái)在運(yùn)營(yíng)過程中會(huì)產(chǎn)生大量讀者、作者、類別、熱度、評(píng)分等信息。面對(duì)日益增加的數(shù)據(jù)壓力，網(wǎng)絡(luò)小說的平臺(tái)流量成本不斷提升，平臺(tái)在老用戶維持、新用戶吸引、網(wǎng)站點(diǎn)擊率等方面逐漸暴露出諸多問題[1]。由于新媒介的不斷崛起，讀者對(duì)網(wǎng)絡(luò)小說平臺(tái)的要求也越來越高，用戶閱讀時(shí)長(zhǎng)呈現(xiàn)離散化分布，導(dǎo)致網(wǎng)絡(luò)小說平臺(tái)行業(yè)獨(dú)占率下滑，用戶爭(zhēng)奪日趨白熱化。因此，對(duì)小說平臺(tái)產(chǎn)生的海量數(shù)據(jù)進(jìn)行整合分析勢(shì)在必行。一方面，有利于指導(dǎo)網(wǎng)絡(luò)小說平臺(tái)改編影視，降低運(yùn)營(yíng)成本，提高收益[2]；另一方面，便于讀者和新手更加快捷有效地發(fā)現(xiàn)感興趣的小說題材。本文以“我愛小說網(wǎng)”為研究案例，通過開發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng)，旨在提高用戶體驗(yàn)，推動(dòng)小說網(wǎng)絡(luò)平臺(tái)發(fā)展。平臺(tái)的用戶主要包括小說閱讀用戶、小說網(wǎng)站管理者、新入行的網(wǎng)絡(luò)小說作者等。通過爬取小說網(wǎng)站信息，并對(duì)數(shù)據(jù)進(jìn)行分析和處理，有助于用戶找到當(dāng)前比較流行的網(wǎng)絡(luò)小說類型、各種類型小說所適合的篇幅等。

1系統(tǒng)概述

本系統(tǒng)設(shè)計(jì)的目的在于使用戶便捷高效地采集到需要的數(shù)據(jù)，并將數(shù)據(jù)清洗之后進(jìn)行分析和可視化呈現(xiàn)[3]。因此，本文將系統(tǒng)的功能需求分為數(shù)據(jù)采集部分、數(shù)據(jù)存儲(chǔ)部分、系統(tǒng)登錄部分、后臺(tái)管理部分、數(shù)據(jù)可視化交互部分。以下每個(gè)功能模塊的需求分析。

⑴數(shù)據(jù)采集部分

數(shù)據(jù)采集功能只有管理員才擁有權(quán)限操作，普通用戶無法操作數(shù)據(jù)采集。因此，數(shù)據(jù)采集模塊是在服務(wù)器端上進(jìn)行操作的。啟動(dòng)后，系統(tǒng)會(huì)生成相應(yīng)的任務(wù)采集數(shù)據(jù)表，然后啟動(dòng)引擎開始爬取網(wǎng)頁數(shù)據(jù)并存儲(chǔ)到對(duì)應(yīng)MySQL數(shù)據(jù)庫(kù)表中。當(dāng)任務(wù)沒有可爬取的網(wǎng)址時(shí)，任務(wù)結(jié)束并返回任務(wù)結(jié)束信號(hào)[4]。

⑵數(shù)據(jù)存儲(chǔ)部分

數(shù)據(jù)存儲(chǔ)部分主要是用來存儲(chǔ)爬取小說的文本數(shù)據(jù)，包括ID、小說類型、小說名稱、更新的小說章節(jié)、小說作者、小說字?jǐn)?shù)、小說狀態(tài)、發(fā)布時(shí)間、點(diǎn)擊量和推薦票數(shù)量等。除此之外，還包括系統(tǒng)登錄賬號(hào)以及密碼和用戶的權(quán)限管理。

⑶系統(tǒng)登錄部分

當(dāng)用戶對(duì)相關(guān)的平臺(tái)接口進(jìn)行訪問時(shí)，首先進(jìn)入系統(tǒng)的登錄界面。在該界面中，包括有兩個(gè)功能模塊：注冊(cè)與登錄模塊[5]。如果當(dāng)前用戶屬于未注冊(cè)用戶，需要用戶先進(jìn)行注冊(cè)，得到系統(tǒng)管理員的授權(quán)之后才能進(jìn)入系統(tǒng)內(nèi)部。若當(dāng)前用戶屬于已經(jīng)注冊(cè)的老用戶，可以直接通過填寫用戶名和密碼完成登錄。

⑷后臺(tái)管理部分

前端界面的數(shù)據(jù)查詢部分、小說數(shù)據(jù)詳情展示部分和數(shù)據(jù)分析可視化部分都需要先從后臺(tái)管理獲取對(duì)應(yīng)的圖表數(shù)據(jù)，而后臺(tái)數(shù)據(jù)管理則是從MySQL數(shù)據(jù)庫(kù)獲取全部數(shù)據(jù)，管理員用戶可以對(duì)數(shù)據(jù)清洗沒清洗掉的數(shù)據(jù)進(jìn)行管理操作，以求前端展示的數(shù)據(jù)都是有效數(shù)據(jù)，并可以根據(jù)需求調(diào)整排序方式，以及前端頁面數(shù)據(jù)的展示數(shù)量。

⑸數(shù)據(jù)可視化交互部分

數(shù)據(jù)可視化交互部分只針對(duì)普通用戶，用戶可以自由選擇想要查看的圖表信息。且用戶可以下載所呈現(xiàn)出來的圖表信息并保存至本地，方便隨時(shí)查閱。以上各部分模塊獨(dú)立開發(fā)、低耦合、適合于團(tuán)隊(duì)敏捷開發(fā)，更加方便后期系統(tǒng)的升級(jí)和運(yùn)維。

2系統(tǒng)架構(gòu)設(shè)計(jì)

完成系統(tǒng)分析后，需要設(shè)計(jì)系統(tǒng)的總體架構(gòu)，主要分為表示層、業(yè)務(wù)層和數(shù)據(jù)層。分別使用DjangoWeb框架和DjangoAdmin框架來實(shí)現(xiàn)。在系統(tǒng)功能需求分析的基礎(chǔ)上，結(jié)合數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì)，將系統(tǒng)分為五個(gè)部分，主要有數(shù)據(jù)采集部分、數(shù)據(jù)存儲(chǔ)部分、系統(tǒng)登錄部分、后臺(tái)管理部分、數(shù)據(jù)可視化交互部分。系統(tǒng)結(jié)構(gòu)圖如下所示：下面簡(jiǎn)要介紹系統(tǒng)的體系結(jié)構(gòu)，總體框架是PythonWeb的Browser/Server架構(gòu)，主要包含數(shù)據(jù)采集、數(shù)據(jù)分析與展示。其中數(shù)據(jù)采集部分采用Python的Scrapy框架，后臺(tái)存儲(chǔ)數(shù)據(jù)采用的是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL，后臺(tái)管理采用Djangoadmin，前端采用DjangoWeb框架，主要用到CSS、JS、HTML等語言。體系結(jié)構(gòu)圖示例如圖1所示。業(yè)務(wù)邏輯層主要是由Django框架和Scrapy框架這兩部分組成。DjangoWeb負(fù)責(zé)實(shí)現(xiàn)業(yè)務(wù)邏輯，從后臺(tái)獲取數(shù)據(jù)、通過統(tǒng)計(jì)分析之后，再到前端展示。而后臺(tái)的數(shù)據(jù)則是從數(shù)據(jù)庫(kù)獲取的，后臺(tái)的數(shù)據(jù)管理請(qǐng)求可以修改后臺(tái)的數(shù)據(jù)并保存下來，實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的增刪改查（CRUD）。數(shù)據(jù)采集Scrapy框架包括以下這些模塊功能：URL獲取功能、數(shù)據(jù)響應(yīng)內(nèi)容功能、數(shù)據(jù)提取功能、數(shù)據(jù)清洗功能和數(shù)據(jù)持久化功能等[6]。數(shù)據(jù)層主要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL作為數(shù)據(jù)持久化層。

3系統(tǒng)功能模塊設(shè)計(jì)

⑴數(shù)據(jù)采集

數(shù)據(jù)采集模塊主要包含URL獲取功能、數(shù)據(jù)響應(yīng)內(nèi)容功能、數(shù)據(jù)提取功能、數(shù)據(jù)清洗功能和數(shù)據(jù)持久化功能等，數(shù)據(jù)采集的功能模塊圖如圖2所示。

⑵數(shù)據(jù)分析與展示

數(shù)據(jù)分析與展示模塊主要有用戶管理、數(shù)據(jù)分析與展示、數(shù)據(jù)維護(hù)等功能，其中用戶管理模塊有用戶注冊(cè)和用戶登錄，數(shù)據(jù)分析與展示模塊包括：小說類別狀態(tài)圖、每年小說類別數(shù)量動(dòng)態(tài)占比圖、各類小說平均字?jǐn)?shù)圖、每年小說占比圖、詞云圖和小說狀態(tài)圖等，數(shù)據(jù)維護(hù)則是通過數(shù)據(jù)查詢查找到需要維護(hù)的數(shù)據(jù)進(jìn)行維護(hù)操作[7]，數(shù)據(jù)分析與展示模塊功能設(shè)計(jì)圖如圖3所示。

4系統(tǒng)實(shí)現(xiàn)

整體的系統(tǒng)實(shí)現(xiàn)分為四個(gè)模塊，分別為數(shù)據(jù)采集模塊、數(shù)據(jù)清洗模塊、系統(tǒng)后臺(tái)管理模塊以及小說數(shù)據(jù)管理模塊。

⑴數(shù)據(jù)采集模塊

Scrapy框架接受到數(shù)據(jù)采集的任務(wù)之后，負(fù)責(zé)對(duì)小說網(wǎng)站進(jìn)行數(shù)據(jù)采集。經(jīng)過頁面的請(qǐng)求到URLconf，再到相對(duì)應(yīng)View函數(shù)，View模塊負(fù)責(zé)整個(gè)采集任務(wù)的配置信息，并發(fā)布啟動(dòng)請(qǐng)求。

⑵數(shù)據(jù)清洗模塊

在爬取的過程中，無法保證每個(gè)字段的數(shù)據(jù)信息格式是正常的，但是我們每一列數(shù)據(jù)后續(xù)所需要使用的信息必須是一致的，所以在進(jìn)行后續(xù)的可視化操作或者模型分析時(shí)，需要確保當(dāng)前的每一列的數(shù)據(jù)維度是正確的。對(duì)于系統(tǒng)爬取到的數(shù)據(jù)，并不能直接滿足系統(tǒng)所要分析的內(nèi)容，所以需要通過對(duì)數(shù)據(jù)進(jìn)行清洗之后，才能將數(shù)據(jù)完整的與模型進(jìn)行適配。

⑶系統(tǒng)后臺(tái)管理模塊

后臺(tái)管理是針對(duì)管理員用戶設(shè)計(jì)，經(jīng)過數(shù)據(jù)采集模塊爬取數(shù)據(jù)，清洗數(shù)據(jù)和持久化存儲(chǔ)數(shù)據(jù)之后。采集到的數(shù)據(jù)依舊存在一些垃圾數(shù)據(jù)問題，用DjangoAdmin框架設(shè)計(jì)實(shí)現(xiàn)后臺(tái)管理模塊，可以在后臺(tái)實(shí)現(xiàn)對(duì)小說數(shù)據(jù)的管理和維護(hù)操作，通過對(duì)小說詳情數(shù)據(jù)表各個(gè)表頭的正序和倒序排列來實(shí)現(xiàn)對(duì)小說垃圾數(shù)據(jù)的快速查找，并且可以對(duì)系統(tǒng)用戶進(jìn)行認(rèn)證和授權(quán)管理操作，包括對(duì)普通用戶授權(quán)、資料管理和管理員用戶的資料管理等。

⑷小說數(shù)據(jù)管理模塊

管理員可以在后臺(tái)對(duì)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中的小說數(shù)據(jù)直接進(jìn)行管理操作，主要任務(wù)是去除一些數(shù)據(jù)清洗時(shí)沒有清洗掉的垃圾數(shù)據(jù)。為了方便且快速查找，小說詳情表每一個(gè)表頭都能夠?qū)崿F(xiàn)正序和倒序排列。在數(shù)據(jù)管理模塊，對(duì)于清洗后的數(shù)據(jù)會(huì)做一些可視化呈現(xiàn)，其中部分?jǐn)?shù)據(jù)分析界如圖4所示。圖4采用柱狀圖的形式呈現(xiàn)，所有的小說都可以劃分為完結(jié)跟連載兩種了類別，能明顯看到完結(jié)數(shù)量最高是“玄幻奇幻”，連載數(shù)量最高為“都市生活”。

5結(jié)束語

網(wǎng)絡(luò)小說在互聯(lián)網(wǎng)時(shí)代呈現(xiàn)出海量數(shù)據(jù)且內(nèi)容繁雜，想獲取準(zhǔn)確高價(jià)值的數(shù)據(jù)并不容易，由此對(duì)網(wǎng)絡(luò)數(shù)據(jù)采集與分析提出更高的要求。網(wǎng)絡(luò)爬蟲技術(shù)可以高效獲取并整合這些海量的數(shù)據(jù)，為用戶提供相關(guān)高質(zhì)量的數(shù)據(jù)信息[8]。本文設(shè)計(jì)開發(fā)的小說網(wǎng)數(shù)據(jù)爬取分析系統(tǒng)，通過Scrapy爬蟲框架采集數(shù)據(jù)，利用Django框架管理后臺(tái)并進(jìn)行數(shù)據(jù)分析與展示，使得用戶可以直觀的獲取到自己想要的信息。測(cè)試表明，該系統(tǒng)具有高效獲取、分析和處理網(wǎng)絡(luò)小說平臺(tái)數(shù)據(jù)的功能，具有較高的實(shí)用價(jià)值。

作者:楊孟姣杜棋東單位:湖南省石門縣第一中學(xué) 廣州鐵路職業(yè)技術(shù)學(xué)院

相關(guān)文章

優(yōu)秀范文

相關(guān)期刊

數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)

影響因子：1.2

期刊級(jí)別：CSSCI南大期刊

發(fā)行周期：月刊

亚洲激情综合另类男同-中文字幕一区亚洲高清-欧美一区二区三区婷婷月色巨-欧美色欧美亚洲另类少妇

網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究

數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)