Always Learning下載 - Always Learning原始碼下載

404 Not Found的知識庫

最近更新日期：2020/06/28

電腦基礎

電腦理論基礎

作業系統

[電腦考研408全網最全!!!!!]王道電腦作業系統
中斷與異常
怎樣通俗的理解作業系統中記憶體管理分頁和分段？
粒度、資訊的邏輯單位和資訊的物理單位、長度不確定和長度確定、二維位址和一維位址、完整資訊和記憶體離散分配。
作業系統之內核態與使用者態小結
常見面試題整理--作業系統篇（每位開發者必備）

電腦網路

常見面試題整理--電腦網路篇（每位開發者必備）
TCP和UDP的區別，TCP三次握手和四次揮手，瀏覽器輸入URL之後的流程，HTTP協議的請求類型，GET和POST的區別，ARP地址解析協議
一次完整的瀏覽器請求流程頁面（瀏覽器、HTTP）請求到回應經過的流程包括了TCP三次握手等系列流程，例如網域解析、發起TCP三次握手、發起HTTP請求、伺服器回應HTTP請求，瀏覽器得到HTML程式碼、瀏覽器解析HTML程式碼，並請HTML程式碼中的資源、瀏覽器對頁面進行渲染呈現給使用者。
tcp 的可靠性到底指的是什麼？ - CYS的回答- 知乎
TCP的可靠性是指基於不可靠的IP層在傳輸層提供可靠的資料傳輸服務，主要是指資料不會損壞或遺失，且所有資料都是依照傳送順序傳送。實現TCP的可靠性傳輸有以下機制：校驗和（校驗資料是否損壞）、定時器（分組遺失則重傳）、序號（用於偵測遺失的分組和冗餘的分組）、確認（接收方告知發送方正確接收分組以及期望的下一個分組）、否定確認（接收方通知發送方未被正確接收的分組）、視窗和管線（用於增加通道的吞吐量）。

資料結構與演算法

演算法3：最常用的排序－快速排序
sort and quick sort，快排的思想是挖坑填數+分治。
一道騰訊面試題：厲害了我的杯（學到了）
解題方法1：二分法；解題方法2：分段查找區間法；解題方法3：基於數學方程式的方法；解題方法4：動態規劃法（學到了），用公式來描述就是： W(n, k) = 1 + min{max(W(n -1, x -1), W(n, k - x))}, x in {2, 3, ……，k} （n是杯子數，k是樓層數）
如何有效的寫演算法題
LeetCode上的題目大致分為三種：考察資料結構：如鍊錶、棧、佇列、雜湊表、圖、Trie、二叉樹等；考察基礎演算法：如深度優先、廣度優先、二分查找、遞歸等；考察基礎演算法思想：遞歸、分治、回溯搜尋、貪心、動態規劃。
淺談什麼是分治演算法（學到了）
分治思想下的全排列問題、歸併排序問題、快速排序問題、漢諾塔問題。
2018.08求職面經亂序數組中第k大的數，亂序數組中的中位數：快排指針，O(N)。
【影片講解】LeetCode 第1 號問題：兩數之和
年會搶紅包策略

密碼學基礎

對稱加密與非對稱加密優缺點詳解對稱加密也稱為單秘鑰加密。演算法有：AES、RC4、3DES。速度快，需要加密大量資料時使用，計算量小，效率高；一方秘鑰洩漏整個加密都不安全。非對稱加密，演算法有RSA、DSA/DSS，速度慢，安全性高。 Hash演算法有MD5、SHA1、SHA256。三類演算法是HTTPS通訊的基礎。

資料庫

騰訊面試：一條SQL語句執行得很慢的原因有哪些？
補充學習：資料庫引擎（InnoDB支援事物處理和外鍵，但慢一點、ISAM和MyISAM空間和記憶體使用低，插入資料快）、資料庫編碼（ character_set_client、character_set_connection、character_set_database、character_set_results、character_set_server、character_set_system (主鍵索引、聚集索引和非聚集索引)等基礎知識點。
一條SQL語句執行很慢的原因分為兩類：1）大多數情況下正常，偶爾很慢：（1）資料庫在刷新髒頁，例如redo log寫滿了需要同步到磁碟；（2）執行的時候遇到鎖，如表鎖，行鎖；2）一直都很慢：（1）沒有用上索引：例如該字段沒有索引；由於對字段進行運算、函數操作導致無法用索引；（2）資料庫選錯了索引，比較聚集索引到主鍵索引和直接全表搜尋的掃描行數，有可能因為採樣問題判斷有誤，走了全表掃描而不走索引。
這大概是最全的sql優化方案了

電腦技術基礎

語言

萬字長文深度解析Python裝飾器
Python3 迭代器與生成器
Python ：迭代器有兩個基本的方法：iter()和next()，字串、元組、列表等可迭代物件都可用於建立迭代器（這是因為這些類別內部都實作了__iter__()函數，呼叫iter()之後，變成了一個list_iterator的對象，會發現增加了__next__()方法，所有實現了__iter__和__next__兩個方法的對象，都是迭代器），迭代器是帶狀態的對象，它會記錄當前迭代所處的位置，以方便下次迭代的時候取得正確的元素， __iter__傳回迭代器自身， __next__傳回容器的下一個值。生成器：使用了yield的函數稱為生成器，呼叫了一個生成器函數，返回的是迭代器對象，生成器可以看成是迭代器。
python 黑色科技之迭代器、生成器、裝飾器
Python的高階特徵你知道多少？來對比看看
Python ：lamda匿名函數，功能是執行某種簡單的表達式或運算，而無需完全定義函數；Map函數是內建的python函數，可以將函數應用於各種資料結構中的元素；Filter內建函數與Map函數類似，但只傳回應用函數傳回True的元素；Itertools模組是處理迭代器的工具集合，迭代器是一種可以在for迴圈語句中使用的資料類型；Generator函數是一個類似迭代器的函數。
為什麼要使用Go 語言？ Go 語言的優勢在哪裡？
Go ：go的優勢和go的用處。 go的優點主要有：靜態語言，多並發，跨平台，可直接編譯成機器碼，豐富的標準函式庫等。 go的用處主要有伺服器程式設計、網路程式設計、分散式系統、記憶體資料庫、雲端平台。
Gin實踐連載一Golang介紹與環境安裝
Go ：go的環境安裝，環境安裝後各個資料夾的含義；go的工作區，工作區各個資料夾的含義。
ruby-on-rails – Ruby和JRuby有什麼差別
Ruby ：Ruby是一種程式語言，我們一般說的Ruby解釋器是指CRuby，CRuby在本地C語言解釋器環境中運行，JRuby是一個採用純Java實現的Ruby解釋器，JRuby在Java虛擬機中運行。

框架

Gin - 高效能Golang Web 框架的介紹和使用
Gin ：是用Go寫的一個網頁應用程式框架。
spring boot與spring mvc的差別是什麼？
Spring —》Spring MVC—》Spring Boot。

工具

spark與storm的對比
大數據技術工具-計算類型：從即時計算模型、即時計算延遲度、吞吐量、事物機制、健壯性/容錯性、動態調整併行度等方面來比較。 spark streaming是準實時模型，對一個時間段內的數據收集起來，作為一個RDD，再處理，實時計算延遲度為秒級，吞吐量大，支持事物機制但不夠完善，健壯性一般，不支持動態調整並行度；而storm是純即時模型，來一條數據，處理一條數據，即時計算延遲度為毫秒級，吞吐量小，支援完善的事物機制，健壯性強，支援動態調整並行度。應用場景：對於storm，可以在純實時不能忍受1秒以上延時的場景下使用；對於實時計算的功能中，要求可靠的事物機制和可靠性機制，即數據處理完全就精確，也可以考慮storm ；如果還需要針對高峰低峰時間段，動態調整即時計算程式的並行度，以最大限度利用資源，也可以考慮storm；如果專案中就是純粹的即時計算，不需要在中間執行SQL互動式查詢等其他操作，用storm是較好的選擇。反之如果不要求純實時，不要求可靠的事物機制，不要求動態調整並行度，可以考慮spark streaming，spark streaming最大的優勢在於處於spark生態技術棧中，從項目的宏觀角度考慮，如果不僅要求實時計算，還要離線批次、互動式查詢，而且在即時計算中，也會牽扯到高延遲批次、互動式查詢等功能，那麼可以用spark core開發離線批次，spark sql開發互動式查詢，用spark streaming開發即時計算，無縫整合，給予系統高擴展性，這個特點大大增強了spark streaming的優勢。兩個框架擅長的細分場景不同。
子雨大數據之Spark入門教學(Python版)（比較重要）
日誌採集系統flume和kafka有什麼區別及聯繫，它們分別在什麼時候使用，什麼時候又可以結合？
大數據技術工具-中介軟體類型：可以把kafka理解成中間件，或是cache系統，或是資料庫，主要作用是維穩。可以把flume理解成日誌資料的主動收集，與kafka相比，很難推動線上應用修改介面往kafka中寫入資料。
logstash 和flume 之間的優劣，和各自所適合的場景？
大數據技術工具-Agent類型：看需求，logstash和flume都是作為agent的存在，logstash有更多的插件，有更好的配套產品elasticsearch等，但是logstash的開發語言是ruby，運行環境是JRuby，而且傳輸資料可能會遺失；flume內部有機制確保傳輸一定量級資料不遺失的問題，flume的開發語言是Java，易於二次開發，但是不足是jvm佔用記憶體有點大。
Mac快速鍵大全
MAC ：基礎快捷鍵：截圖、在應用程式中、文字處理、在finder中、在瀏覽器中；MAC啟動和關機時的快捷鍵。
常用Git 指令單
Git ：遠端倉庫-》本地倉庫-〉暫存區-》工作區，git add .、git commit -m message、git push。
git-lfs
Git-lfs ：git大檔案上傳擴充工具。
tshark統計分析pcap包
[Python專案打包與發布](# 工具)
備忘錄：1、setup.py: long_description和long_description_content_type(注意md和rst格式渲染問題)。 2、manifest.in vs .gitignore。 3、readme.rst vs readme.md。 4、.pypirc vs .gitconfig。 5、python setup.py bdist_wheel upload。

科技

解碼與xss(原文中有一個錯誤「html實體編碼後「應該是\u72產生的原因就是瀏覽器的html自解碼)
瀏覽器技術-解碼順序：瀏覽器解碼主要涉及到兩個部分：渲染引擎和js解析器。解碼順序：在什麼環境下就進行什麼解碼，解碼順序為：最外層的環境對應的編碼最先解碼。舉個例子:在<a href=javascript:alert(1)>click</a>中alert(1)處在html->url->js環境中。 1.click 採用unicode編碼e，html和url環境下都不能解碼，只有在js環境下才能解碼為字元e，所以不會彈窗
2.click 採用url編碼，在執行js前，url解碼%65，所以到了js引擎啟動時，看到了完整的alert(1)
3.click html實體解碼先執行了
4.click 在url解碼環節，不會認為javascript是偽協議，會出錯。
5.click htmlparser會優先於JavaScript parser執行，所以解析過程是htmlencode的字元先被解碼，然後執行JavaScript事件。
瀏覽器解碼順序是XSS中bypass的基礎。
dockerfile 和docker-compose 的關係
docker技術：文件和資料夾的關係。
dockerfile 與docker-compose的差別是什麼?
docker技術：docker-compose是編排容器的。
堡壘機是什麼？
堡壘機技術：為存取叢集限定一個入口；方便權限控制以及監控。
產品的可行性需從哪幾個面向分析？
可行性分析：產品可行性分為：技術可行性、經濟可行性、社會可行性，其中我關注的是技術可行性。技術可行性主要從競爭對手功能比較、技術風險及規避方法、易用性及使用者使用門檻、產品環境依賴性等方面來衡量。
Nginx、Gunicorn在伺服器中分別扮演什麼角色？
應用伺服器：Nginx部署場景：負載平衡（tornado之類的框架只支援單核，所以多進程部署需要反向負載平衡。gunicorn本身就是多進程其實不需要）、靜態檔案支援、抗並發壓力、額外的存取控制。
維基百科：Kerberos
Kerberos ：Kerberos的基本描述、協定內容和具體流程。
dockerfile 和docker-compose 的關係
docker技術：文件和資料夾的關係。
dockerfile 與docker-compose的差別是什麼?
docker技術：docker-compose是編排容器的。
堡壘機是什麼？
堡壘機技術：為存取叢集限定一個入口；方便權限控制以及監控。
產品的可行性需從哪幾個面向分析？
可行性分析：產品可行性分為：技術可行性、經濟可行性、社會可行性，其中我關注的是技術可行性。技術可行性主要從競爭對手功能比較、技術風險及規避方法、易用性及使用者使用門檻、產品環境依賴性等方面來衡量。
Nginx、Gunicorn在伺服器中分別扮演什麼角色？
應用伺服器：Nginx部署場景：負載平衡（tornado之類的框架只支援單核，所以多進程部署需要反向負載平衡。gunicorn本身就是多進程其實不需要）、靜態檔案支援、抗並發壓力、額外的存取控制。
維基百科：Kerberos
Kerberos ：Kerberos的基本描述、協定內容和具體流程。
什麼是微服務架構**？
什麼是Service Mesh（服務網格）
微服務架構：Why：為什麼要使用服務網格？傳統的MVC三層Web應用程式架構下，服務之間的通訊並不複雜，在應用程式內部自己管理即可，但在如今複雜的大型網站情況下，單體應用程式被分解成眾多的微服務，服務之間的依賴和通訊十分複雜。 What：服務網格，是服務間通訊的基礎設施層，可以把它比喻為應用程式或是微服務間的TCP/IP，負責服務間網路呼叫、限流、熔斷和監控。 Service Mesh的特點：應用程式間通訊的中間層、輕量級網路代理、應用程式無感知、解耦應用程式的重試/逾時、監控、追蹤和服務發現。目前流行的開源軟體是Istio和Linkerd，都可以在Cloud Native的kubernetes環境中整合。
Updater fails if not run as admin, even on a user installation

LaTeX ：MiKTeX（登錄問題與管理員權限問題）+TeXnicCenter（不能產生pdf問題，設定Build中adobe execute path為正版AcroRd32.exe）+Adobe Acrobat Reader DC，再利用破解版Adobe Acrobat DC轉其他格式。
HTTPS原理及互動流程
HTTPS ：HTTPS在傳輸資料之前需要瀏覽器和網站之間進行一次握手，在握手的過程中將確認雙方加密傳輸資料的密碼資訊。取得公鑰-》瀏覽器產生隨機（對稱）秘鑰-》使用公鑰對對稱秘鑰加密-》發送加密後的對稱秘鑰-》透過對稱秘鑰加密的密文通訊。 HTTPS通訊的整個過程使用了對稱加密、非對稱加密和HASH演算法。
瀏覽器的同源策略
瀏覽器技術：同源策略是瀏覽器最核心最基本的安全功能，同源的定義為：協定/主機/連接埠。
九種跨域方式實現原理（完整版）
瀏覽器技術：跨域請求解決方案：JSONP（依賴script標籤沒有跨域限制的漏洞）、CORS（跨域資源共享）、postMessage、websocket、Node中間件代理、nginx反向代理、windows.name+iframe 、location.hash+iframe、document.domain+iframe。
CORS支援所有類型的HTTP請求，是跨域HTTP請求的根本解決方案。 JSONP只支援GET請求，優點在於支援老式瀏覽器，以及可以向不支援CORS的網站請求資料。不管是Node中間件代理還是nginx反向代理，主要是透過同源策略對伺服器不加限制。日常工作中，用的比較多的跨域方案是CORS和nginx反向代理。
如何在Jupyter Notebook中使用Python虛擬環境？
Anaconda ：安裝插件，conda install nb_conda
既然有HTTP 請求，為什麼還要用RPC 呼叫？ - 易哥的回答
RPC ：Restful VS RPC。 RPC包括：反向代理、序列化與反序列化、通訊（HTTP、TCP、UDP）、異常處理

底層研究

python requests庫流程簡析
python requests函式庫實作：socket->httplib->urllib->urllib3->requests。 requests.get的內部呼叫流程：requests.get->requests()->Session.request->Session.send->adapter.send->HTTPConnectionPool(urllib3)->HTTPConnection(httplib)。

 1、socket：是TCP/IP最直接的实现，实现端到端的网络传输
2、httplib：基于socket库，是最基础最底层的http库，主要将数据按照http协议组织，然后创建socket连接，将封装的数据发往服务端
3、urllib：基于httplib库，主要对url的解析和编码做进一步处理
4、urllib3：基于httplib库，相较于urllib更高级的地方在于用PoolManager实现了socket连接复用和线程安全，提高了效率
5、requests：基于urllib3库，比urllib3更高级的是实现了Session对象，用Session对象保存一些数据状态，进一步提高了效率

XGBoost原理與底層實現剖析（學到了）
XGBoost ：從樹的分數（目標函數：損失函數（二階展開）+正規項），樹的結構（分裂決策（預先排序））來理解。
Lightgbm 直方圖優化演算法深入理解
Lightgbm ：相較於預排序而言，lgb採用了直方圖來處理節點分裂，尋找最優分割點。演算法思想：在訓練前預先把特徵值轉換成bin value，也就是對每個特徵的取值做分段函數，將所有樣本在該特徵上的值劃分到某一段（bin）中，最後把特徵取值從連續值轉換為離散值。直方圖也可以用來做差加速，計算直方圖的複雜度是基於桶的個數的。
keras文字預處理源碼分析
Keras-文字預處理：
keras序列預處理源碼分析

Word2Vec

理解Word2Vec 之Skip-Gram 模型
基於TensorFlow實現Skip-Gram模型- 天雨粟的文章
Word2Vec Tutorial - The Skip-Gram Model
Word2Vec Tutorial Part 2 - Negative Sampling
Word2Vec word embedding tutorial in Python and TensorFlow
word2vec_basic tensorlflow源碼分析
A Word2Vec Keras tutorial
keras_word2vec@adventures-in-ml-code

安全

安全技術

漏洞

對烏雲漏洞庫payload的整理以及Burp輔助插件
boy-hack/wooyun-payload
從研究者視角看漏洞研究之2010年代
漏洞研究：近10年的漏洞研究現況與趨勢：1、後PC時代，控制流完整性成為新的系統安全基礎性防護機制。 2、令人驚喜的硬體安全特性和硬體安全漏洞。 3.舊瓶裝新酒，行動裝置的安全設計實現彎道超車。 4.網路入口爭奪戰愈演愈烈，網路入口有：瀏覽器、WiFi協處理器、基頻、藍牙、路由器、即時通訊設備、社交軟體、郵件用戶端、傳統PC和伺服器。 5.自動化漏洞挖掘和利用仍需提高。

Web安全

一篇文章帶你深入理解漏洞之XXE 漏洞
XXE漏洞：XXE的原理：呼叫外部實體，XXE的利用：利用通用實體、參數實體、外部實體、內部實體進行檔案讀取，內網主機和連接埠探測、內網RCE（php下方需要expect擴充的支持）
mysql無逗號的注入技巧
注入攻擊：sql注入、xml注入（一種標記語言，透過標籤對資料進行結構化表示）、程式碼注入（eval類別）、CRLF注入（rn）。 Mysql injection：使用註解繞過空格，使用括號繞過空格，使用%20 %0a等符號替換空格；union查詢下，使用join繞過逗號過濾， select id,ip from client_ip where 1>2 union select * from ( (select user())a JOIN (select version())b );使用select case when（条件） then 代码1 else 代码2 end繞過逗號過濾， insert into client_ip (ip) values ('ip'+(select case when (substring((select user()) from 1 for 1)='e') then sleep(3) else 0 end));
[CRLF Injection漏洞的利用與實例分析]([https://wooyun.js.org/drops/CRLF%20Injection%E6%BC%8F%E6%B4%9E%E7%9A%84%E5% 88%A9%E7%94%A8%E4%B8%8E%E5%AE%9E%E4%BE%8B%E5%88%86%E6%9E%90.html](https://wooyun.js .org/drops/CRLF Injection漏洞的利用與實例分析.html))
CRLF是「回車+換行」(rn)的簡稱。 HTTP Header和HTTP Body是用兩個CRLF分隔的。 CRLF injection又叫做HTTP Response Splitting，簡稱HRS。 X-XSS-Protection:0關掉瀏覽器對反射型XSS過濾的保護策略。
SSRF漏洞利用與getshell實戰（精選）
SSRF漏洞中繞過過濾（IP限制）的幾種方法總結
SSRF ：利用302跳轉（xip.io、短位址、自寫服務）；DNS 重綁定（繞過IP限制）；更改IP位址寫法；利用解析URL所出現的問題：http: http://[email protected]/ ；透過各種非HTTP協議
SSRF繞過方法總結
SSRF ：利用@；利用短位址；利用特殊網域xip.io；利用DNS解析（在網域上設定A記錄）；利用進位轉換；利用句號
ThinkPHP 5.0.0~5.0.23 RCE 漏洞分析
淺析白盒審計中的字元編碼及SQL注入(優秀，學到了)
基於字元編碼的注入攻擊：一個gbk編碼的漢字，佔2個位元組，一個utf-8編碼的漢字，佔用3個位元組。寬位元組注入是利用mysql的特性，mysql在使用gbk編碼的時候，會認為兩個字元是一個漢字（gbk下，前一個ascii碼要大於128，才到漢字的範圍；gb2312的編碼值範圍：高位0xA1-0xF7 ，低位0xA1-0xFE ，而是0x5c ，不在低位範圍中，所以0x5c不是gb2312中的編碼，所以不會被吃掉把這個思路拓寬到所有的多字節編碼，只要低位的範圍中含有0x5c的編碼，就可以進行寬字節注入。）。防禦方案一： mysql_set_charset+mysql_real_escape_string ,考慮到連接的目前字元集。防禦方案二：將character_set_client設定為binary （二進位）， SET character_set_connection=gbk, character_set_results=gbk,character_set_client=binary 。當我們的mysql接受到客戶端的資料後，會認為他的編碼是character_set_client ，然後會將之將換成character_set_connection的編碼，然後進入具體表和字段後，再轉換成字段對應的編碼。然後，當查詢結果產生後，會從表格和欄位的編碼，轉換成character_set_results編碼，傳回給客戶端。所以，我們將character_set_client設定成binary ，就不存在寬位元組或多位元組的問題了，所有資料都以二進位的形式傳遞，就能有效避免寬字元注入。防禦過後呼叫iconv時也可能出現問題。使用iconv對utf-8轉gbk時，利用方式是錦' ，原因是它的utf-8編碼是0xe98ca6 ，它的gbk編碼是0xe55c ，最後變成%e5%5c%5c%27 ，兩個%5c是，正好把反斜線轉義了。使用iconv對gbk轉utf-8時，利用方式直接以寬位元組注入。一個gbk漢字2字節，utf-8漢字3字節，如果我們把gbk轉換成utf-8，則php會每兩個位元組一轉換。所以，如果'前面的字元是奇數的話，勢必會吞掉， '逃出限制。為什麼不能用錦'這種方式呢，根據utf-8編碼規則， （0x0000005c）不會出現在utf-8編碼中，所以會報錯。
客戶端session導致的安全性問題
一文洞悉DAST、SAST、IAST ——Web應用安全測試技術對比淺談（學到了）
談談SAST/IDAST/IAST
PHP 連結方式介紹以及如何攻擊PHP-FPM
一個GET請求拿到flag——XCTF 2018 Final PUBG(WEB 2) Writeup

滲透測試

一套實用的滲透測試崗位面試題程式碼執行函數： eval、preg_replace+/e、assert、call_user_func、call_user_func_array、create_function ；指令執行函數： system、exec、shell_exec、passthru、pcntl_exec、popen、proc_open .外，還有其他取得管理員路徑的方式嗎？ src指定一個遠端的腳本文件，取得referer。
一套實用的滲透測試職位面試題，你會嗎？
我的面經，滲透測試

代碼審計

Java程式碼審計-層層推進

資料安全

NO.27 閒扯關於資料安全大數據技術、時代，資料是許多公司最核心的資產；傳統的安全邊界模糊，我們需要假設我們邊界已經被滲透的同時，擁有縱深防禦能力，保護資訊的安全。所以在加強傳統安全手段的同時，我們更應該直接把安全的重點放在資料本身上，這就是資料安全所做的工作。在做之前，有一個前提：我們要知道安全依然是為業務服務的（大部分企業安全情況下，業務>安全），所以要權衡安全性和可用性。目前企業常用的措施主要有：資料分級、資料生命週期管理、資料脫敏&資料加密、資料防洩漏。
網路企業資料安全體系建設

雲端安全

雲端安全，到底是什麼一回事？
雲端安全三大研究方向：雲端運算安全、安全基礎設施的雲端化、雲端安全服務。在雲端安全未來發展趨勢中也提到了資料安全協作，說明無論哪種場景，資料都是安全的重點關注對象。雲端安全服務可以看成廚師煮飯（來自cdxy的ppt），雲端運算（能源）、演算法（工具）、資料（原料）、工程師（廚師）、能做成什麼樣的飯（能提供的安全服務）
雲端安全的未來（深度長文）
行文思路：雲端安全的市場趨勢-》雲端安全的主流產品（雲端平台的安全產品與第三方雲端安全產品CWPP、CSPM、CASB）-》雲端安全與SD-WAN的結合-》雲端原生（DevOps、持續交付、微服務、容器）安全。

其他

安全資料：企業實驗室、安全社群、安全團隊、安全工具等

安全工具

漏洞掃描

使用xray 代理模式進行漏洞掃描

安全研究

APT檢測

APT detection based on machine learning
APT檢測模型：本篇論文提出一種APT檢測模型，透過在APT生命週期的多個環節進行檢測，並將各個環節告警事件進行關聯，並使用機器學習訓練檢測模型。和我的想法略有相似，之前想過可以用圖模型或規則關聯演算法進行關聯以此重構攻擊鏈，但是這篇文章好像是把關聯的事件集作為輸入資料輸入到一個預測模型中去訓練。這麼做的目的是要完整地描述一個APT場景下的安全事件集，降低誤報率，提高準確率，避免傳統APT單環節偵測造成的漏報、誤報的問題。但本文也存在一些問題，例如缺乏APT資料來源問題，缺乏安全資料一直是個難題，導致本文提出的模型未能在真實的環境中論證。

惡意樣本

利用機器學習偵測HTTP惡意外連流量（優）
惡意HTTP外連流量偵測：整體思路： 1、資料收集，沙箱運行惡意樣本，收集惡意流量，人工區分惡意流量和白流量，再根據威脅情報對惡意流量劃分家族。 2.資料分析（特徵工程）：同一家族惡意外連流量的相似性，可以考慮使用聚類演算法將同一家族的流量聚集為一類，提取它們的共通性，形成模板，再用模板檢測未知流量。 3.演算法：訓練階段：提取HTTP外連流量--->提取請求頭字段--->泛化--->相似度計算（請求頭中字段特異性加權再計算相似性）--->層次聚類--->產生惡意外連流量範本（聚類中該欄位並集作為該欄位在範本中的值）。檢測階段：未知HTTP外連流量--->提取請求頭字段--->泛化--->與惡意模板匹配--->判斷相似度是否超過閾值（閾值確定）
Cuckoo惡意軟體自動化分析平台搭建
Cuckoo 惡意軟體分析環境
Playing with Cuckoo
Cuckoo沙箱：在搭建Cuckoo惡意樣本分析環境的過程中遇到了很多坑，現在還印象深刻的還有pip 換源-i https://pypi.tuna.tsinghua.edu.cn/simple；配置agent. py到startup資料夾中；注意windows10、ubuntu16和windows7之間的網路關係，NAT和Host-Only模式。實體主機windows10裝vmware，vmware裝ubuntu16，ubuntu16裝virtualbox和cuckoo server端，virtualbox裝windows7 作為agent端。
惡意樣本分析資源匯總

對抗機器流量

2018 Bad Bot Report
對抗機器流量：安全對抗促使攻擊手段進化，進入了自動化對抗的階段，參差不齊的爬蟲、撞庫、模擬器產生了大量的機器流量，這其中搜尋引擎類的爬蟲、自動更新的RSS訂閱伺服器產生了正常的機器流量，而惡意爬蟲等模仿正常用戶的請求產生了惡意的機器流量，模仿的程度也不同，簡單點的惡意機器流量直接通過腳本產生，高級點的通過瀏覽器產生，比如headless browser，更進階的可以模擬滑鼠移動和點擊。可以根據網路環境(Amazon ISP、data centers、global hosting providers)、使用工具（機器流量的browser喜歡偽裝成Chrome、Firefox、Internet explorer、Safari）、是否模仿人類交互，例如機器滑鼠軌跡和點擊來區分流量和正常用戶流量。一旦它們發現我們嘗試阻止它們，進階惡意機器流量APBs就會展現出persistent和adaptive，進行多模式轉換。防禦：理解我方業務和敵方目標。抑制過時的UA/Browser；抑制知名的主機服務商；保護敏感API；根據來源流量觀察高低峰段（波形？）；調查該惡意機器流量的sign，即顯著性標誌；監控失敗的登入嘗試；監控未能正確驗證禮品卡的失敗次數；注意公開的資料洩露，以防撞庫；。

惡意URL檢測

Detecting Malicious URLs
國內的安全演算法和安全資料分析資料翻閱到了盡頭，開始將矛頭轉向國外,追蹤國外的機器學習在網路安全領域的應用的發展過程。以URL檢測為例，可以衍生出許多適用場景，惡意網頁檢測，惡意通訊活動，惡意web軟體。
Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs
把惡意URL檢測當作一種惡意網頁檢測的補充手段。資料：開源黑白URL樣本，沒什麼特色；特徵：詞彙特徵和基於主機的特徵，特色一般，分析比較每子類特徵，特色一般；模型：L1邏輯回歸、SVM、Naive Bayes，沒什麼特色，分析比較每個模型，沒什麼特色；值得學習的是之後的結果再分析，分析了False Positive和False Negative等錯誤產生原因，Mismatched Data Sources，模型表現和特徵表現。畢竟是十年前的論文。
Identifying Suspicious URLs: An Application of Large-Scale Online Learning
Exploiting Feature Covariance in High-Dimensional Online Learning

Red Team

Red Team從0到1的實踐與思考（學到了）
Red Team的定義--->Red Team的目標（學習和利用已知真實攻擊者的TTPs來攻擊、評估現有防禦能力的有效性以及識別防禦體系的弱點並提出具體的應對方案、利用真實有效的模擬攻擊來評估因為安全問題造成的潛在的業務影響）--->誰需要Red Team--->Red Team如何運作（基本上構成：知識儲備、基礎架構、技術研究能力；工作流程：全階段攻擊模擬、分階段攻擊模擬；協同配合）--->Red Team的量化與評核（已知TTPs的覆蓋率、偵測率/偵測時間/偵測階段、阻斷率/阻斷時間/阻斷階段）--->Red Team的成長與提升（模擬環境訓練、漏洞分析與技術研究、外部交流與分享）
ATT&CK APT組織TTPs總結
ATT&CK全平台攻擊技術總結
真實APT組織分析報告總結

WAF

技術討論| 在HTTP協定層面繞過WAF
利用分塊傳輸吊打所有WAF
從http協議層面和資料庫層面繞過waf
WAF攻防研究之四層次Bypass WAF
對過WAF的一些認知

異常檢測

異常檢測的N種方法（學到了）
異常檢測的一大難點就是缺少ground truth，常見的方法是先用無監督方法挖掘異常樣本，再用有監督模型融合多個特徵挖掘更多異常。分別從時間序列（移動平均、同比和環比、STL+GESD）、統計（馬氏距離、箱線圖）、距離角度（KNN）、線性方法（矩陣分解和PCA降維）、分佈（相對熵KL散度、卡方檢定）、樹、圖、行為序列、監督模型（可自動組合較多特徵，如GBDT）等角度檢測異常。
機器學習-異常檢測演算法（一）：Isolation Forest
機器學習-異常檢測演算法（二）：Local Outlier Factor
機器學習-異常檢測演算法（三）：Principal Component Analysis
什麼是一類支援向量機（one class SVM），是指分兩類的支援向量機嗎？
異常檢測演算法之IsolationForest
異常挖掘，Isolation Forest
異常檢測初步嘗試
機器學習加持下的時序類別資料異常智慧監控
海量維運日誌異常挖掘
資料預處理-異常值識別
Abnormal Detection（異常檢測）和Supervised Learning（有監督訓練）在異常檢測上的應用初探
資料探勘中常見的「異常檢測」演算法有哪些？ - 微調的回答- 知乎
1.介紹常見的無監督異常檢測演算法及實驗；2、對照多種演算法的偵測能力；3、比較多種演算法的運算開銷；4、總結並歸納如何處理異常檢測問題。 1.1）統計與機率模型：假設分佈與假設檢驗，一維與多維，特徵獨立與特徵相關，歐式距離與馬氏距離；線性模型：低維空間嵌入，特徵向量特徵空間與協方差矩陣，歐式距離與馬氏距離，PCA與Soft PCA與One-Class SVM；基於相似度衡量的模型：密度、距離、夾角、劃分超平面、聚類；集成異常檢測與模型融合。 1.2）從實驗結果圖的決策邊界驗證演算法之間的連結性。 2.1）模型偵測效果對比，Isolation Forest和KNN表現穩定；基於距離測量的KNN等模型受資料維度影響較大。 3.1）資料量和資料維度對演算法開銷也有影響。 Isolation更適合高維度空間。 4.1）實驗結果帶來了異常檢測模型選擇的想法：中小資料集KNN和MCD比較穩定，中大資料集Isolation Forest穩定；模型效果與模型效率往往是對立的，例如PCA與MCD；異常檢測往往是非監督的，因此穩定比忽高忽低的性能更重要；簡單的模型效果也可能很好。 4.2）對於一個全新的異常檢測問題，可以遵循以下步驟分析：A、對數據的了解，數據的分佈，異常的分佈，可根據假設選擇模型；B、解決的問題是否有標籤，如果有，一定不能浪費；C、如果可能的話，嘗試不同的演算法，尤其是對數據的了解有限時；D、根據數據的特點選擇演算法；E、無監督異常檢測模型驗證結果並不容易，可採用半自動的方式，對於置信度高的放過，對置信度低的人工審核；F、異常的趨勢和特徵往往在不斷變化，因此模型需要重訓練及調整策略；G、不要完全依賴模型，嘗試使用半自動化的策略：人工規則+檢測模型。人工規則還是很有用的，不要嘗試一步到位的使用資料策略來取代現有規則。
梳理| 異常檢測
Anomaly Detection Isolation Forest&Visualization
Anomaly Detection with Time Series Forecasting

圖與安全

圖/Louvain/DGA亂談圖承載者拓樸訊息，而拓樸資訊可以看作一種特徵維度，有些攻防場景有明顯的拓樸特徵。 Louvain演算法的關鍵點是圖的邊的權重，在具體的攻防場景下需要專門研究，例如在DGA場景下，域名A與B的相關性(weight)=同時訪問過A和B域名的IP數量。 cdxy師傅用SQL實作了這種邏輯。
社群發現演算法- Fast Unfolding（Louvian）演算法初探
A DGA Odyssey PDNS Driven DGA Analysis
圖計算在基礎安全的落點學到了：圖在入侵偵測、入侵應變、威脅情報、UEBA上的落地。入侵偵測：企業入侵偵測的發展方向、資料分析能力的發展歷程。入侵回應：過程中解決的問題（日誌的完整性和豐富性、大量資料和長時間視窗的關聯分析、圖的即時建構和查詢、互動與視覺化）。 UEBA：雲端原生的可信任和零信任的發展-》預設安全-》取得可信任服務的憑證，「供應鏈」式攻擊-》建構在認證之上的入侵偵測-》行為分析與畫像。總結：業務問題-》數據問題。

AI與安全

安全場景、基於AI的安全演算法和安全資料分析學習資料整理
Towards Privacy and Security of Deep Learning Systems: A Survey
AI安全的攻擊面：訓練階段和測試階段的資料和模型方面，攻擊有資料中毒和對抗性樣本，模型提取和模型反轉等。
智慧威脅偵測：基於Spark的SOC機器學習偵測平台

企業安全建設

安全開發

安全掃描自動化檢測平台建置(Web黑盒中)
帶你讀神器之KunPeng原始碼分析

安全檢測

關於風控預警體系的搭建方案
業務安全-風控：快速發現異常和準確定義風險。透過核心指標的變化發現異常片段及實體、透過聚類手段發現異常簇下全部實體；異常實體抽樣--->無感知人工審核--->有針對性制定風險閾值
從傳統安全轉行風控領域的心路歷程，兼談黑產與風控產業趨勢
業務安全-風控：風控領域鬥爭日益激烈，黑產已從高度專業化、分工明確的團夥進化為產業化運作的公司，現在風控需要有基礎安全技術支撐（傳統安全），隨著司法機關對黑灰產的高壓打擊，未來大企業會關注風控供應商的產品能力和合規合法性。
風控模型師面試準備--技術篇
風控模型實戰--"魔鏡杯"風控演算法大賽
風控用戶辨識方法
github:sladesha
多演算法識別撞庫刷券等異常用戶
DNS Tunnel隧道隱藏式通訊實驗&& 嘗試重現特徵向量化思維方式偵測
企業安全建設之HIDS
保障IDC安全：分散式HIDS叢集架構設計
點融開源AgentSmith HIDS--- 一套輕量級的HIDS系統
企業安全建置—基於Agent的HIDS系統設計的一點思路
入侵偵測-主機入侵偵測系統：美團的系統性實務非常值得學習。從需求描述，產品經理提出需求->分析需求，總結產品架構要符合的特性->技術困難，分析遇到的技術挑戰->架構設計與技術選型->分散式HIDS集群架構圖->編程語言選擇->產品實作。
基於統計分析的ICMP隧道檢測方法與實現

安全產品

收集一些比較優秀的開源安全項目，以幫助甲方安全從業人員建構企業安全能力(學到了)開源安全產品：包括資產管理、安全開發、自動化程式碼審計、安全運維、堡壘機、HIDS、網路流量分析、蜜罐、WAF、企業雲盤、釣魚網站系統、Github監控、風控、漏洞管理、SIEM/SOC。

安全營運

我理解的安全運營
公司是為產出付費，而不是為知識付費。安全運作是以解決問題為導向。安全營運的主要職責與技能需求：安全、研發、維運背景；較好的溝通能力；一定的專案管理能力；具備資料意識。
再談安全營運安全營運的Why ：安全的風險直觀化，表像被戳破；安全建設期已過，開始追求結果。
安全營運的What和How ：抓住主要矛盾和次要衝突不放過，盡力解決。

安全管理

企業安全建設技能樹v1.0發布包括六大部分：說明、安全觀、安全治理、通用技能、專業技能、優質資源。

安全思考

談網路企業安全的發展方向
企業安全發展方向：由淺入深分為四個目標：1、消滅漏洞驅使，第一個目標是讓工程師寫出的每一行程式碼都是安全的，由此誕生SDL，SDL又衍生技術研究和技術產品，如程式碼安全掃描工具的研究和fuzzing。 2.有了SDL還無法100%安全，所以第二個目標是讓所有已知、未知的攻擊，都能在第一時間發現，並迅速報警和追蹤。挑戰：海量資料和複雜需求方案：超強運算能力和立體化模型。 3.第三個目標是讓安全成為公司的核心競爭力，深入每個產品的特性中，能夠更好地引導使用者使用網路的習慣。 4.最後一個目標是能夠觀測到整個網路安全趨勢的變化，並對未來一段時間內的風險做出預警。在網路公司做安全一定要有想像力，同時緊密關注其他科技領域的發展，這樣就不會止步於幾種漏洞的研究，而會發現有很多有趣的事情正等著去做，這是一個非常宏偉的藍圖。
以攻促防：企業藍軍建設思考
趙彥的CISO閃電戰｜兩年甲方安全修練之路（學到了）
範圍對象（公司業務、挑戰及安全需求（縱深防禦、自體供應鏈安全、賦能第三方安全））--->目標設定（當下需求設定與未來發展）--->挑戰（團隊全堆疊（知識結構與技能對口主營業務）、工程能力、管理能力）--->分解安全體系（一般領域安全建置沙盤圖：研發安全、IT安全、基礎設施安全、資料安全、終端安全、業務安全、隱私與安全合規）--->實現與因應（安全治理架構、業界對標（真正落地能力，demo不算有此能力）、安全研究）。總的來說，就是全端技術視野（努力從技能層面上升到技術視野層面）+安全管理能力。

安全架構

網路安全架構| 透過安全架構提升安全性](https://mp.weixin.qq.com/s/m90wYaEvHzfsdgnFHMGxCw)

紅藍對抗

【紅藍對抗】大型網路企業安全藍軍建設（學到了）
紅藍對抗的Why ：檢驗企業安全防護體系；梳理風險盲點和攻防場景，為安全建設提供有價值的建議；安全價值的體現；強化業務同事的安全意識。
紅藍對抗的What ：入侵發現率；攻防場景發現率；攻擊覆蓋率；演戲頻次/安全風險數/策略缺陷數/效率提升；攻擊成本；目標達成率。
紅藍對抗的How ：模擬APT--->藍軍團隊需要沉澱一套體系化的攻擊手法知識庫與武器庫--->ATT&&CK矩陣框架。
紅藍對抗Do過程中的挑戰：效率/效益；攻擊成本量化；來自業務的挑戰（紅藍對抗的核心目標是為業務保駕護航）。
紅藍對抗的Future ：多層次多範圍的藍軍；藍軍的自動化滲透平台/協同作戰平台；藍軍能力對外輸出。
網路空間安全時代的紅藍對抗建構（附錄有紅藍對抗相關文章）
實戰是檢驗安全防護能力的唯一標準。滲透測試，適用於企業安全體系建設初期或一窮二白階段，而紅藍對抗是滲透測試的升級版，不僅關注安全漏洞，重點檢驗的是企業安全建設體系的缺陷，紅藍對抗的邊界不只是資訊安全視野下的網路滲透攻擊，隨著新科技新架構的出現，也拓展到網路空間安全視野下的AIoT、工業互聯網、業務風控、竊聽/竊視等領域。

內網安全

內網安全攻擊模擬與異常偵測規則實戰
行文思路：外部資訊收集->邊界突破->資訊收集、權限提升->權限維持->資訊收集、憑證擷取->橫向移動->資料竊取->清理痕跡。

資料安全

騰訊安全首發企業級「資料安全能力圖譜」
行文思路：資料安全能力圖譜包括6大面向：資料資產管控能力、資料安全營運能力、資料業務安全管控能力、資料支援環境安全管控能力、資料運維安全管控能力、資料安全感知能力。

新技術與新安全

綜述

數位轉型中的應用現代化與安全左移
行文思維：新基建->數位轉型->傳統資訊化面臨挑戰->業務驅動應用現代化->雲端原生、容器化、DevOps、應用微服務化、編排等新技術->應用現代化架構->內生安全（雲端網路全方位感知、可信任、全流程安全介入、安全營運）。

雲端原生

雲端原生網路代理MOSN 透明劫持技術解讀| 開源
行文想法：service mesh->Istio->資料面->網路代理->MOSN->高效透明流量劫持。問題：流量接管。解決問題：環境適配、設定管理、資料面效能。
雲原生入侵偵測趨勢觀察
行文思路：資產多樣化、服務碎片化、中間件井噴、基礎設施預設安全->入侵檢測“業務化”，行為分析將成為核心能力。
王任飛（avfisher）：Red Teaming for Cloud（雲上攻防）（Mark）

可信計算

張歐：數位銀行可信賴網路實踐
行文思路：本質問題是：網路層面的縱深防禦。為什麼要做（挑戰）->落地的思路和方案->過程中的挑戰和思考。
何藝：零信任安全架構實務之路
核心點：零信任的核心是使用者+裝置+應用程式等信任鏈條的建立，安全的持續動態校驗，縮小攻擊面。做的工作：網路網關、主機網關、應用網關、SOC 。

DevSecOps

「安全需要每個工程師的參與」-DevSecOps理念與思考（Mark）

安全發展

個人發展

面試

有關安全的面經, 實習, etc
訪談：滴滴、百度（2）、360（2）、阿里（6）、騰訊（3）、b站、華為、同花順、蘑菇街。總的來看，大佬們好強，選擇大多是甲方安全部。我的理解：看了大佬們的面經和被問到的問題，真的是五花八門，有bin方向的，有數據安全方向的，也有安全運營方向的等等，有一些參考價值，但是因為方向不同，不能生硬照搬，還是得發揮自己的專長，先做自己小領域的領域專家。
2018春招安全職實習面試總結
騰訊2016實習招募-安全職位試題答案詳細解釋
筆試：設計一個安全的web驗證方案：前端：驗證碼+csrf_token+基於時間戳加密產生隨機數；把身份資訊傳輸到伺服器後台，並且設定同源策略（同源網站：網域、連接埠、協定）；伺服器端驗證客戶端身分後，透過隨機數加密session和cookie返回客戶端；客戶端與伺服器端建立連線。
大公司安全技術職位面試雜談
面試：安全技術基礎--->專案細節（知識深度，在擅長的領域碾壓面試官，讓面試官問不出有深度的問題）--->挑戰性問題的處理思路（知識面和行業認知能力，一般也不會脫離擅長領域，需要日常多讀多想）--->產業深度認知能力與職涯規劃
2019 年阿里實習生內推實況是怎樣的？ - 左左薇拉vera的回答- 知乎（學到了）
十面阿里，七面頭條，你猜我進阿里沒？
面試：Java版優秀面經，java必備。
書劍恩仇錄之我與阿里巴巴（太強了）
安全招募之面試題（學到了）
行文思路：滲透測試（WEB方向）、安全研發（JAVA方向）、安全營運（合規稽核方向）、安全架構（安全管理方向）
補充學習：CRLF、對稱加密和非對稱加密的區別和優缺點、HTTPS的交互流程、同源策略、跨域請求。
安全招募之好的履歷是怎麼樣的？
安全招募之安全產業現狀
安全招募之安全從業人員必備素質
行文思路：基礎素質=基礎能力（自我驅動+自主學習）+專業能力（滲透攻防+軟體開發）。進階素質=聰明（智商+情緒智商）+勇敢樂觀+自省。
安全招募之面試流程現在偷的懶後面會花更多代價來彌補。
一個安全工程師的2019
行文想法：舊賽道與新旅程-》產業探索者還是追隨者-》產業資訊透明互通-》生活加點鹽。

職涯發展

安全研究者的自我修養
安全研究者的自我修養（續）
安全人員發展方向雜談
甲方安全發展路線：硬核心技術型--->大廠實驗室與安全研究崗非硬派技術型--->網路企業安全建置之紅藍、技術營運、安全管理
安全從業人員存在的意義
個人發展：目標是幫助先進生產力解決好安全問題。這其中安全問題是信任的問題（信任支撐，原點支撐），是研究對抗的科學（人與人的對抗），是機率問題（安全架構）。安全是一門應用科學，隨著每個時代的不同，可以有很多不同的技術手段和工具來完成各自的安全目標，因此安全從業者應該對新技術和先進生產力保持敏感和接受度，這會帶來許多新的視野和能力，包括機器智慧和區塊鏈技術等。
安全團隊在企業中的幾個身份
團隊發展：安全團隊應該以服務者和協作者的身份，用專業的安全能力給出一類安全問題的解決思路和方案並解決，防止安全問題發生多次。

產業發展

安全格局

最新統計2005-2017年國內科研單位在國際安全頂尖會議發表文章量統計
從內容產出看安全領域變化
科技版圖：企鵝等網路巨頭開始進行流量封鎖，對安全從業人員影響很大，爬不到數據，api又有限，只能上升到app hook了；技術上安全分析、資料探勘、威脅情報的比重越來越重， AI已經不只是噱頭了，智慧安全勢不可擋；安全的職涯發展面，越來越多大佬們開始轉型業務安全、資料安全。
網路安全產業競爭格局淺析
市場格局：基礎安全防護（傳統安全防護能力），中階安全防護（海量資料建模與分析能力），進階安全防護（雲端威脅情報與分析能力），中高階安全防護市場廣闊。此外，全文在多處凸顯了人工智慧技術，而智慧安全開始邁入開悟之坡了嗎？！半數以上的人看好智慧安全，也有人不看好智慧安全，未來會怎麼樣，讓我們拭目以待！
ZoomEye 網路空間測繪－委內瑞拉停電事件對其網路關鍵基礎設施和重要資訊系統影響
2020安全工作展望
行文邏輯： 2019大事件：HW行動將安全從隱性變成顯性，低頻變成高頻，暴露問題，促進管理階層對安全的重視，此為大背景；等保2.0安全合規愈加嚴格。 2019大變化：領導重視了；實戰化了。 2020甲方安全關注技術點：安全營運（覆蓋率和正常率等指標、是否有驗證思路：能否在一定時間內主動發現安全措施失效）和安全資產管理（CMDB、主機上資料、流量、掃描、人工添加）。 2020關注「人」的需求。 2020展望產業：甲方安全團隊組織架構會發生劇烈變化，安全團隊能否承受變化；甲乙兩方相處之道；安全黑天鵝事件越來越多。

安全產品

C端安全產品的未來之路
C端安全產品：行動端安全產品是否會像前幾天PC端安全產品一樣迎來春天？ PC時代windows是一家獨大的完全開放的平台，這讓第三方安全公司能夠在平台和用戶之間產生價值的空間足夠的大，但在行動端，安卓開始封閉，就不好說了。傳統安全軟體圍繞著病毒和欺詐，而圍繞個人資訊安全的C端安全產品有一線生機。
下一座聖杯- 2019
API安全：應用安全的發展：2015年預測，資料是新中心，身分是新邊界，行為是新控制，情報是新服務。基礎設施演進->交付方式的改變。 2015年，應用安全領域的WAF產品是良機，由市場決定。新情勢與新契機：微服務、Serverless、邊緣運算。市場中的交付方式發生變化。跨細分領域且跨基礎架構：API安全橫跨應用程式安全、資料安全與身分安全三大領域。 API使用情境廣泛，需要產品有全面涵蓋多種不同基礎架構的能力。

數據

數據體系

數據分析師如何建構數據營運指標體系？ - 張溪夢Simon的回答
核心點：協作流程賦能：實現資料驅動XX的指標體系建構流程，需要跨團隊協作，流程有：需求收集、方案規劃、資料擷取、擷取方案評估、資料擷取與資料驗證上線、效果評估。規劃資料指標體系的兩個模型：OSM和UJM。 OSM強調業務目標，UJM強調用戶旅程。指標分級體系：一二三級指標連動。
如何在企業中從0-1建立一個數據/商業分析部門？ (學到了)
部門的定位與價值—>里程碑設計—->團隊搭建—->建構IT資料—->前期管理。
定位和價值是一個部門立足公司的根本：做報表的部門VS做策略的部門；業務其他公司的定位和公司內其他部門的認可；一定要會放大部門的價值和一定要走高層路線。
設定長期目標並拆解里程碑：公司業務目標--->公司策略--->部門目標--->部門里程碑--->工作計畫；設立里程碑的技巧？借勢、共贏、取巧、築基；借老闆勢，尋找1-2個老闆的痛點問題解決；尋找利益相同的部門共建共贏；取巧摘已有的「桃子」；築基資料鏈路梳理、資料清洗、系統互聯、資料倉儲設計、資料集市設計。
基於里程碑進行團隊搭建：切忌一步到位；審慎拉幫結派；遇到人才不可錯過；學會「畫餅」；注意團隊文化建設。
建構公司的資料IT能力：建構基礎且通用的資料流框架：應用層、歸集層、加工層、分析層、展示層；同時根據各種資料庫選型指標選擇對應的資料庫儲存產品，資料庫選型指標如容量、水平擴充性、查詢即時性、查詢彈性、寫入速度、事務、資料儲存、處理資料規模、列擴充性。在建構資料框架中需要注意的點是：需要實現公司層級的業務資料架構。基於業務對整個公司的資料進行體系化的梳理，任何的業務變化都會體現在資料之上，實現資料充分反映業務現狀的目的。完成這一步驟的關鍵是完成公司層級的主資料管理：明確各項資料的業務意義和口徑、明確每個資料的職責單位、打通資料鏈路，推動資料共享。
引領團隊走向勝利：做「排長」而不要做「軍長」；讓合適的人做合適的事；明確規則，及時兌現。

數據分析與營運

數據分析與視覺化：誰是安全圈的吃雞第一人（學到了）
資料分析與視覺化：收集資料集--->觀察資料集--->社群發現與社群關係--->玩家畫像。
請分享一下數據分析方面的思路，如何做好數據分析？
核心點：資料分析的問題：業務的資料分析指標系統（點線面體）。資料分析的方法：分類和對比。

安全數據分析

Data-Knowledge-Action: 企業安全資料分析入門（優秀，學到了）
綜述： 1、讓模型理解業務，基於業務歷史行為建立異常基線，在異常的基礎上檢測威脅；將營運結果回饋到模型，將誤報視作正常行為回流。 2、安全營運可運營，降低事件調查成本，自動化資訊收集與聚合。 3.隨著資料的積累，安全資料分析將向基於圖結構的高階知識表達方式發展。（這點深表贊同）4.對場景、攻擊模式、資料的認識深度，遠比選擇工具重要。
Security Data Science Learning Resources
綜述：作者的研究點也是安全資料科學，整理了一些學習方法和學習資源。學習方法主要分為三個面向： Google學術、Twitter、安全會議。谷歌學術關注知名研究者以及他們新出的文章，關注引用了你關注的文章的文章，Twitter關注細分安全領域的人群，關注安全會議以及會議議程。學習資源：書籍和課程。
快速搭建一個輕量級OpenSOC架構的資料分析架構（一）(學到了)
框架：行文思路：由粗變細（由框架到舉例（由框架到場景到實際架構））。 OpenSOC介紹（框架組成與工作流程）---》建構輕量級OpenSOC（聚焦具體場景與工具及具體架構）---》建構步驟（每一步的環境建構及配置）---》效果展示。
先知talk：從資料視角探索安全威脅
大數據威脅建模方法論（學到了很多）
安全日誌維度隨想
資料安全分析思想探索
DataCon 2019: 1st place solution of malicious DNS traffic & DGA analysis（學到了）
我的理解：涉及的知識點有：安全場景：DNS安全；資料處理：tshark工具的使用，MaxCompute和SQL的使用，PAI預分析和視覺化；特徵工程：DNS_type、src_ip維度的特徵；異常檢測演算法：單特徵3sigma檢測；人工提取特徵規則。
第一小題DNS惡意流量的異常檢測：個人吸收80%，整理流程無障礙，每步流程中的細節和工具還未完全掌握，例如DNS安全場景了解不全面、tshark的大量資料解析、統計特徵的全面提取、SQL語句做特徵化；
第二小題DGA的多分類：個人吸收50%，流程搞懂了，但對一些問題的理解還不到位，例如社群演算法
基於大數據企業網路威脅發現模型實踐
我的理解：問題：多源安全分析設備和服務（威脅資料）的橫向和縱向聯動。

演算法

人工智慧

演算法體系

機器學習演算法集錦：從貝葉斯到深度學習及各自優缺點
演算法知識架構：主要從演算法的定義、過程、代表性演算法、優缺點解釋迴歸、正則化演算法、人工神經網路、深度學習||決策樹演算法、整合演算法||支援向量機||降維演算法、聚類演算法||基於實例的演算法||貝葉斯演算法||關聯規則學習演算法||圖模型。
個人理解：迴歸系列主要基於線性迴歸和邏輯迴歸衍生，包括迴歸、正規化演算法、人工神經網路、深度學習；樹系列主要基於決策樹衍生，包括決策樹和基於樹的整合學習演算法；支援向量機屬於老牌演算法；降維演算法和聚類演算法主要基於數據的內在結構描述數據；基於實例的演算法實際上並沒有訓練的過程，代表性演算法是KNN，基於記憶的學習；貝葉斯演算法利用貝葉斯定理計算輸出機率；關聯規則學習演算法能夠提取資料中變數之間的關係的最佳解釋；圖模型是一種機率模型，可以表示隨機變數之間的條件依賴結構。
Categories of algorithms non exhaustive (學到了)
演算法知識架構：學到了建構自己的演算法體系。

基礎知識

HTTP DATASET CSIC 2010
安全資料集-CSIC2010 ：基於e-Commerce Web應用程式自動化產生的安全資料集，包含36000個正常請求和25000個異常請求，異常請求包括：SQL注入、緩衝區溢位、資訊收集、檔案外洩、CRLF注入、 XSS等。
分類模型的效能評估－以SAS Logistic 迴歸為例(3): Lift 和Gain
機器學習中非均衡資料集的處理方法？
非均衡資料集：上取樣與下取樣、正負樣本的懲罰權重（scikit-learn的SVM為例：class_weight:{dict,'balanced'}）、組合/整合方法（從大樣本抽取多個小樣本訓練模型再整合）、特徵選擇（小樣本數具有一定規模的時候，選擇顯著型的特徵）
機器學習演算法中GBDT 和XGBOOST 的差異有哪些？
演算法比較：GBDT基分類器為CART，XGB的分類器可以是多種基底分類器，例如線性分類器，這時候就相當於L1、L2正規項的邏輯迴歸或線性迴歸；傳統的GBDT在優化時用到的是一階導數，XGB則對損失函數進行了二階泰勒公式的展開，精度變高；XGB並行處理（特徵粒度的並行，對特徵值進行預排序存儲為block結構，在進行節點分類別的時候，需要計算每個特徵的增益，最終選擇增益最大的那個特徵去做分類，那麼各個特徵的增益計算就可以開多線程進行），相對於GBM速度飛躍；剪枝時，當新增分類帶來負增益時，GBM會停止分裂，而XGB一直分類到指定的最大深度，然後進行後全局剪枝；從最優化的角度來看，GBDT採用的是數值優化的思維，用的最速下降法去求解Loss function的最優解，其中用CART決策樹去擬合負梯度，用牛頓法求步長，而XGB用的是解析的思維，對Loss function展開到二階近似，求得解析解，用解析解作為Gain來建立決策樹，使得Loss function最優。
SVM和logistic迴歸分別在什麼情況下使用？
演算法使用場景-SVM和邏輯回歸使用場景：需要根據特徵數量和訓練樣本數量來確定。如果特徵數相對於訓練樣本數已經夠大了，使用線性模型就能取得不錯的效果，不需要過於複雜的模型，則使用LR或線性核函數的SVM。如果訓練樣本夠大而特徵數較小的情況下，可以透過複雜核函數的SVM來獲得更好的預測性能，如果樣本沒有達到百萬級，使用複雜核函數的SVM也不會導致運算過慢。如果訓練樣本特別大，使用複雜核函數的SVM已經會導致運算過慢了，因此應該考慮引入更多特徵，然後使用線性SVM或LR來建構模型。
gbdt的殘差為什麼要用負梯度代替？
歐氏距離與馬氏距離
機器學習演算法常用指標總結
分類模型評估之ROC-AUC曲線與PRC曲線

機器學習

平均數編碼：針對高基數定性特徵（類別特徵）的資料預處理/特徵工程
Mean Encoding
kaggle編碼categorical feature總結
Python target encoding for categorical features
Mean (likelihood) encodings: a comprehensive study
如何在Kaggle 首戰中進入前10%
kaggle競賽總結
分享一波關於做Kaggle比賽，Jdata，天池的經驗，看完我這篇就夠了
為什麼在實際的kaggle比賽中，GBDT和Random Forest效果很好？
有監督學習-樹系列演算法：單模型，gradient boosting machine和deep learning是首選。 gbm不需要複雜的特性工程，不需要太多時間去調參數，dl則需要比較多的時間去調網路結構。從overfit角度理解，兩者都有overfit甚至perfect fit的能力，overfit能力越強，可塑性越強，然後我們要解決的問題就是如果把模型訓練的“恰好”，比如gbm裡有early_stopping功能。線性迴歸模型就缺乏overfit能力，如果實際資料符合線性模型的關係，那可以得到很好的結果，如果不符合的話，就需要做特徵工程，可特徵工程又是一個比較主觀的過程。樹的優勢，非參數模型，gbm的overfit能力強。而random forest的perfact fit能力很差，這是因為rf的樹是獨立訓練的，沒有互相協作，雖然是非參數型模型，但是浪費了這個先天優勢。
【總結】樹類演算法認知總結
有監督學習-樹類演算法：分類樹和迴歸樹的差異；避免決策樹過擬合的方法；隨機森林怎麼應用到分類和迴歸問題上；kaggle上為啥GBDT比RF更優；RF、GBDT、 XGBoost的認知（原理、優缺點、差異、特性）。
LightGBM
LightGBM演算法總結
『我愛機器學習』整合學習（四）LightGBM
如何玩LightGBM（官方slides講解）
有監督學習-LightGBM-個人理解： LightGBM幾大特性及原理：直方圖分割及直方圖差加速（直方圖兩大改進：直方圖複雜度=O(#feature×#data)，GOSS降低樣本數， EFB降低特徵數）-》效率和記憶體提升。 Leaf-wise with max depth limitation取代Level-wise-》準確率提升。支援原生類別特徵。平行計算：資料並行（水平劃分資料）、特徵並行（垂直劃分資料）、PV-Tree投票並行（本質上是資料並行）。
快速理解機器學習裡的整合演算法：原理、框架與實戰
時間序列資料的聚類有什麼好方法？
無監督學習-時間序列問題：傳統的機器學習資料分析領域：提取特徵，使用聚類演算法聚集；在自然語言處理領域：為了尋找相似的新聞或是把相似的文本資訊聚集在一起，可以使用word2vec把自然語言處理成向量特徵，然後使用KMeans等機器學習演算法來作聚類；另一種做法是使用Jaccard相似度來計算兩個文本內容之間的相似性，然後使用層次聚類的方法來做聚類。常見的聚類演算法：基於距離的機器學習聚類演算法（KMeans）、基於相似性的機器學習聚類演算法（層次聚類）。對時間序列資料進行聚類的方法：時間序列的特徵構造、時間序列的相似度方法。如果使用深度學習的話，要么就提供大量的標籤資料；要么就只能使用一些無監督的編碼器的方法。
凝聚式層次聚類演算法的初步理解
無監督學習-層級聚類：演算法步驟：計算鄰近度矩陣--->（合併最接近的兩個簇--->更新鄰近度矩陣）（repeat），直到達到僅剩一個簇或達到終止條件。
推薦演算法入門（1）相似度計算方法大全
無監督學習-層級聚類-相似性計算：曼哈頓距離、歐式距離、切比雪夫距離、餘弦相似度、皮爾遜相關係數、Jaccard係數。

深度學習

CPU環境搭建

tensorflow issues#22512
問題本質：報錯：ImportError: DLL load failed，原因：缺乏依賴，解決方法：pip install --index-url https://pypi.douban.com/simple tensorflow==2.0.0，會自動安裝依賴。

GPU環境搭建

Tensorflow和Keras 常見問題（持續更新~）（坑點）
Tested build configurations（版本對應速查表）
windows tensorflow-gpu的安裝（可靠度）
windows下安裝配置cudn和cudnn
問題本質：總的來說，是英偉達顯示卡驅動版本、cuda、cudnn和tensorflow-gpu之間版本的對應問題。最好裝tensorflow-gpu==1.14.0,tensorflow-gpu==2.0需要cuda==10.0，10.2會報錯，tensorflow-gpu==2.0不支援。
win10搭建tensorflow-gpu環境
問題本質：CUDA的各種環境變數新增。

深度學習基礎知識

深度學習中的batch的大小對學習效果有何影響？
Batch Normalization原理與實戰（還沒完全看懂）

神經網路基本部件

如何計算感受野(Receptive Field)－原理感受野：卷積層越深，感受野越大，計算公式為(N-1)_RF = f(N_RF, stride, kernel) = (N_RF - 1) * stride + kernel，思路為倒推法。
如何理解空洞卷積（dilated convolution）譚旭的回答空洞卷積：池化層減小圖像尺寸同時增大感受野，空洞卷積的優點是不做pooling損失信息的情況下，增大感受野。 3層3*3的傳統卷積疊加起來，stride為1的話，只能達到(kernel_size-1)layer+1=7的感受野，和層數layer成線性關係，而空洞卷積的感受野是指數級的成長，計算公式為(2^layer-1)(kernel_size-1)+kernel_size=15。
空洞卷積（dilated convolution）感受野計算
空洞卷積(dilated Convolution)
直覺理解神經網路最後一層全連結+Softmax（便於理解）
全連接層：可以理解為特徵的加權求和。

神經網路基本結構

一組圖文，讀懂深度學習中的捲積網路到底怎麼回事？
卷積神經網路：卷積層參數：內核大小（卷積視野3乘3）、步幅（下取樣2）、padding（填滿）、輸入和輸出通道。卷積類型：引入擴張率參數的擴張卷積、轉置卷積、可分離卷積。
卷積神經網路(CNN)模型結構
總結卷積神經網路發展歷程- 沒頭腦的文章（很全面）
三次簡化一張圖：一招理解LSTM/GRU門控機制（很清楚）
循環神經網路：文中電路圖的形式好理解。 RNN：輸入狀態、隱藏狀態。 LSTM：輸入狀態、隱藏狀態、細胞狀態、3個門。 GRU：輸入狀態、隱藏狀態、2個門。 LSTM和GRU透過設計門控機制緩解RNN梯度傳播問題。
gcn
GRAPH CONVOLUTIONAL NETWORKS
圖神經網路：相較於CNN，差異是圖卷積算子計算公式。
keras-attention-mechanism

神經網路應用

[AI識人]OpenPose：即時多人2D姿態估計| 附視訊測試及源碼鏈接
使用生成對抗網路(GAN)生成DGA
GAN_for_DGA
詳解如何使用Keras實作Wassertein GAN
Wasserstein GAN in Keras
WassersteinGAN
keras-acgan
用深度學習（CNN RNN Attention）解決大規模文本分類問題- 綜述和實踐
NLP ：傳統的高維度稀疏->現在的低維稠密。注意事項：類目不均衡、理解資料（badcase）、fine-tuning（只用word2vec訓練的詞向量作為特徵表示，可能會損失很大效果，預訓練+微調）、一定要用dropout、避免訓練震盪、超參調節、未必一定要softmax loss、模型不是最重要的、關注迭代品質（為什麼？結論？下一步？）

強化學習

深度強化學習的弱點與限制
關於強化學習的限制的一些思考
強化學習的限制：取樣效率很差、很難設計出一個合適的獎勵函數。

應用領域

全球最全？的安全資料網站（有時間好整理一下）
初探機器學習檢測PHP Webshell
基於機器學習的Webshell 發現技術探索
網路安全即將迎來機器對抗時代？
智慧安全-智慧攻擊：國外已經在研究利用機器學習打造更智慧的攻擊工具，例如深度強化學習，就是深度學習和強化學習的結合，可以感知環境，做出最優決策，可能被應用在漏洞掃描器裡，使掃描器能夠自動化地入侵目標。
個人理解：國外已有案例Deep Exploit就是利用深度強化學習結合metasploit進行自動化地滲透測試，國內還沒有看過相關公開案例。由於學習門檻高、安全本身攻擊場景需要精細化操作、弱智能化機器學習導致的機器學習和安全場景結合深度不夠等一系列的問題，已有的機器學習+安全的大多數研究主要集中在安全防護方面，機器學習+攻擊的研究較少且侷限，但是我相信這個場景很有潛力，或許以後就成為藍方的攻擊利器。
人工智慧反詐騙三部曲：裝置指紋
智慧安全-業務安全-設備指紋：ip、cookie、設備ID ；主動式設備指紋：使用JS或SDK從客戶端抓取各種各樣的設備屬性值，然後組合，透過hash演算法得到設備ID；優點：Web內或App內準確率高。缺點：主動式裝置指紋在Web與App之間、不同的瀏覽器之間，會產生不同的裝置ID，無法實作跨Web與App，不同瀏覽器之間的裝置關聯；由於依賴客戶端程式碼，指紋在反詐欺的場景中對抗性較弱。被動式設備指紋：從資料封包擷取設備OS、協定棧和網路狀態的特徵集，並結合機器學習演算法識別終端設備。優點：彌補了主動式裝置指紋的缺點。缺點：佔用處理資源多；回應時延比主動式長。
風險大腦支付風險辨識初賽經驗分享【謀殺電冰箱-鳳凰還未涅槃】
智慧安全-業務安全-風控：個人瞭解：https://github.com/404notf0und/Risk-Operation-Detection/blob/master/atec.ipynb。
機器學習在網路巨頭公司實踐
入侵偵測：機器學習和統計建模的主要區別：機器學習主要依賴資料和演算法，統計建模依賴建模者對資料特徵的了解。兩者的優缺點：機器學習：打標資料難獲取，如果採用非監督學習，則性能不足以運維；機器學習結果不可解釋。所以現在機器學習在做入侵偵測的時候，一般都要限定一個特定的場景。統計建模：資料預處理階段移除正常資料的干擾（重點在於查全率，強調過正常資料的過濾能力，盡可能篩選正常資料），建構能夠識別惡意可疑行為的攻擊模型（重點放在precision ，強調模型對異常攻擊模式判斷的準確性，攻擊鏈模型），缺點是泛化能力不足、在入侵偵測一些場景中，模型易被幹擾。我們的最終目的：大數據場景下安全分析可運維。
Web安全偵測中機器學習的經驗之談
Web安全：從文字分類的角度解決Web安全檢測的問題。資料樣本的多樣性，短文本分類，詞向量，句向量，文本向量。文本分類+多維度特徵。與傳統方法做比較得出更好的偵測方式：傳統方法+機器學習：傳統waf/正規規則為資料打標；傳統方法先進行過濾。
字嵌入來龍去脈（學到了）
NLP ：DeepNLP的核心關鍵：語言表示--->NLP詞的表示方法類型：詞的獨熱表示和詞的分佈式表示（這類方法都基於分佈假說：詞的語義由上下文決定，方法核心是上下文的表示以及上下文與目標詞之間的關係的建模）--->NLP語言模型：統計語言模型--->詞的分佈式表示：基於矩陣的分佈表示、基於聚類的分佈表示、基於神經網路的分佈表示，詞嵌入--->詞嵌入（word embedding是神經網路訓練語言模型的副產品）--->神經網路語言模型與word2vec。
深入淺出講解語言模型
NLP ：NLP統計語言模型：定義（計算句子的機率的模型，也就是判斷一句話是否是人話的機率）、馬爾科夫假設（隨便一個字出現的機率只與它前面出現的有限的一個或幾個字有關）、N元模型（一元語言模型unigram、二元語言模型bigram）。
有誰可以解釋下word embedding? - YJango的回答- 知乎
NLP ：單字表達：one hot representation、distributed representation。 Word embedding：以神經網路分析one hot representation和distributed representation作為例子，證明用distributed representation表達一個單字是比較好的。 word embedding就是神經網路分析distributed representation所顯示的效果，降低訓練所需的資料量，就是要從資料中自動學習出輸入空間到distributed representation空間的映射f（相當於加入了先驗知識，相同的東西不需要分別用不同的數據來學習）。訓練方法：如何自動尋找到映射f，將one hot representation轉換成distributed representation呢？想法：單字意思需要放在特定的上下文中去理解，例子：这个可爱的泰迪舔了我的脸和这个可爱的京巴舔了我的脸，用輸入單字x 作為中心單字去預測其他單字z出現在其周邊的可能性（至此我才明白為什麼說詞嵌入是神經網路訓練語言模型的副產品這句話）。用輸入單字當中心單字去預測週邊單字的方式叫skip-gram，用輸入單字當週邊單字去預測中心單字的方式叫CBOW。
Chars2vec: character-based language model for handling real world texts with spelling errors and…
Character Level Embeddings
使用TextCNN模型探究惡意軟體偵測問題
惡意軟體偵測：改進分為兩個面向：調參和結構。調參：Embedding層的inputLen、output_dim，EarlyStopping，樣本比例參數class_weight,卷積層和全連接層的正則化參數l2，適配硬體(GPU、TPU)的batch_size。結構：增加了全域池化層。
學到了：一個trick，透過訓練集和評估指標logloss計算測試集的各標籤數量，以此調整訓練階段的參數class_weight，還可以事先達到「對答案」的效果。和一個T大佬在datacon域名安全檢測比賽中使用的trick如出一轍。
基於海量url資料辨識影片類網頁
CV-行文思路：問題：視訊類網頁辨識。解決方式：url粗篩->影片網頁規則粗篩->影片網頁截圖及CNN辨識。

產業發展

認知智能再突破，阿里18 篇論文入選AI 頂會KDD
認知智能：計算智能->感知智能->認知智能。快速計算、記憶、儲存->辨識處理語言、圖像、影片->實現思考、理解、推理和解釋。認知智能的三大關鍵技術：知識圖譜是底料、圖神經網路是推理工具、使用者互動是目的。
未來3~5 年內，哪個方向的機器學習人才最緊缺？ - 王喆的回答
要點簡記：站在機器學習“工程體系”之上，綜合考慮“模型結構”，“工程限制”，“問題目標”的演算法“工程師”。我的理解：紅利的遷移，模型結構單點創新帶來的利益->體系結構協同帶來的利益。阿里技術副總裁賈揚清：我對人工智慧的一點淺見
AI發展：神經網路和深度學習的成功與限制，成功原因是大數據和高效能運算，局限原因是結構化的理解和小數據上的有效學習演算法。 AI這個方向會怎麼走？傳統的深度學習應用，如影像、語音等，應該如何輸出產品與價值？而不僅僅是停留在安防這個層面，要深入更廣闊的領域。除了語音和圖像之外，如何解決更多問題？而不僅僅是停留在解決語音影像等幾個領域內的問題。

綜合素質

演算法工程師必須要知道的面試技能雷達圖（學到了）
個人發展-必備技術素質：演算法工程師必備技術素質分割：知識、工具、邏輯、業務。在滿足最小要求的基礎上，算法工程師在這四個方面的能力是相對全面的，既包括”算法“，也包括”工程“，而大數據工程師則著重”工具“，研究員則著重”知識“和”邏輯“。
針對安全業務的演算法工程師就是安全演算法工程師。為了方便理解，舉個例子，如果用XGBoost解決某個安全問題，那麼可以由淺入深理解，把知識、工具、邏輯、業務四個面向串起來：
1.GBDT的原理（知識）
2.決策樹節點分裂時是如何選擇特徵的？（知識）
3.寫出Gini Index和Information Gain的公式並舉例說明（知識）
4.分類樹和迴歸樹的差別是什麼（知識）
5.與Random Forest對比，理解什麼是模型的偏差與變異數（知識）
6.XGBoost的參數調優有哪些經驗（工具）
7.XGBoost的正規化和平行化分別是如何實現的（工具）
8.為什麼解決這個安全問題會出現嚴重的過度擬合問題（業務）
9.如果選用其他型號取代XGBoost或改進XGBoost你會怎麼做？為什麼？（業務、邏輯、知識）。
以上，就是以“知識”為切入點，不僅深度理解了“知識”，也深度理解了“工具”、“邏輯”、“業務”。
[校招經驗] BAT機器學習演算法實習面試紀錄(學到了)
個人發展-面試經驗：根據面試常遇到的問題再深入理解機器學習，儲備自己的演算法知識庫。
機器學習如何避免「只是調參數」？ (學到了)
個人發展-職業發展：機器學習工程師分為三種：應用型（能力：保持演算法全棧，即資料、建模、業務、維運、後端，重點在建模能力，流程是遇到一個指定的業務場景應該要迅速知道用什麼資料做特徵，用什麼模型，這個模型在工程上的時效性和穩健性，最終會不會產生業務風險等一整套鏈路。擁有超強的功能能力，打造ML框架，提供給應用機器學習工程師使用）、研究型（AI Lab，讀論文+試驗性復現）。個人發展：鍛鍊業務能力和工程能力，未來幾年成長規劃還是演算法全端路線，技術上獨擋一面，業務上帶來kpi，以後快速晉升+帶隊。同時保持閱讀習慣，多學習新知識。
做機器學習演算法工程師是什麼樣的工作體驗？
個人發展-工作體驗：業務理解、資料清洗與特徵工程、持續學習（增強解決方案的判斷力）、程式設計能力、常用工具（XGB、TensorFlow、ScikitLearn、Pandas（表格類別資料或時間序列資料）、Spark 、SQL、FbProphet（時間序列））
大三實習面經（學到了）
如果你是面試官，你怎麼去判斷一個面試者的深度學習程度？
個人發展-心得體會：深度學習擅長處理具有局部相關性的問題和數據，在圖像、語音、自然語言處理方面效果顯著，因為圖像是由像素構成，語音由音位構成，語言是由單字構成，都有局部相關性，可以構造高階特徵。
面試官如何判斷面試者的機器學習程度？ - 微調的回答- 知乎
個人發展-心得體會：考慮方法優點和局限性，培養獨立思考的能力；正確判斷機器學習對業務的影響力；學會分情況討論（比如深度學習相對於機器學習而言）；學習機器學習不能停留在「知道」的層次，要從原理級學習，甚至可以從源碼級學習，知其然知其所以然，要做安全圈機器學習最6的。
兩年美團演算法大佬的個人總結與學習建議
個人發展-心得體會：演算法的基本認知（知識）、過硬的程式碼能力（工具）、資料處理和分析能力（業務和邏輯）、模型的累積和遷移能力（業務和邏輯）、產品能力、軟實力。

職業

職涯規劃

至關重要：如何做好我們的職涯規劃（學到了）
1. 認清自己，確認方向。依照生涯規劃探訪模式來思考
2. 收集信息，心中有數。校招/社招/JD
3. 目標設遠，步步拆解。拆解框架：時間/目標/準備(技術能力、報告能力|領導能力、溝通能力、團隊建立能力)
4. 盤點能力，補足短板。盤點軟實力：溝通能力、執行能力、談判能力、情緒管理、時間管理、分解能力、報告能力、演講能力、協作能力、組織能力、快速學習能力、PPT撰寫能力、文字總結能力、聆聽技巧、同事關係、與上司之間關係，盤點短板：溝通能力、報告能力、演講能力、PPT撰寫、文字總結能力，對短板再按多個維度分類，例如是否易於評估並得到反饋和培養難度
5. 學會展望，調整方向。唯一不可阻擋的是時間
資料科學家(Data Scientist) 的核心技能是什麼？

思維

如何解決思維混亂、講話沒有條理的情況？（學到了）
結構化思考->講話有條理。
哪些思考方式是你刻意訓練過的？ （學到了）
結構化思維
金字塔思維：結論先行，以上統下，歸類分組，邏輯遞進。
金字塔結構：縱向延伸，橫向分類。
如何得出金字塔結論：歸納法，演繹推理法。實際生活中，不是每時每刻都有相關的模型套用和演繹法的，這時候就用歸納法，自下而上進行梳理，得出結論，比如頭腦風暴把閃過的碎片想法全部寫下來，再抽象與分類，最後得出結論。
厲害的人是怎麼分析問題的？（學到了）
定義問題/描述問題：問題的本質是現實與期望的落差部分；明確期望值B'，精準定位現狀B，，用B--->B'這個落差，精準描述問題。
分析問題/解決問題：不能從現況B出發，找尋一條B--->B'的路徑，要透過現像看本質。方法A，現實B，期望B'，變數C。校準期望B'，重構方法A，消除變數C。

溝通

管理

“我是技術總監，你幹嘛總是問我技術細節？”
（快速發展期、平穩期、衰退期等業務發展時期作為時間軸）（中高階管理者）（需掌握）（應用場景、技術基礎、技術堆疊中的技術細節）。技術基礎要紮實，技術堆疊了解程度深（對技術原理與細節清楚），應用場景不能浮於表面。總的來說就是一句話：技術細節與技術深度。
阿里巴巴高階演算法專家威視：組成技術團隊的一些思考（學到了）
行文思路：團隊的定位（定位（能力、業務、服務）、障礙（以不變應萬變沉澱風險管控知識作為壁壘）和價值（提供不同層次的服務形式））-》團隊的能力（連結、生產、傳播、服務）-》組織與個人的關係-》招募-》用人-》對內管理模式（找對前進的方向、績效的考核（3個維度：業務結果、能力進步、技術影響力））
學到了：建立技術體系解決某一類問題，而不是某個技術點去解決某一個問題。
26歲當數據總監，分享第一次當Leader的心得
團隊管理方面的基本功與方法論：定策略、建團隊、立規矩、拿結果。
定策略：要明確公司高層的真實目的；對自己的團隊瞭如指掌；管理者專精的產業知識與經驗。
建團隊：避免憤世嫉俗、職場近親、玻璃心。
立規矩：立規矩守規矩。
拿結果：注意吃相。
管理中常見的誤解：做管理後放棄原來專業（要專注於產業發展方向和尖端技術）；過度管理（要自循環的穩定成熟團隊）；過度追求團隊穩定（衡量團隊穩定的核心標準不是人員的穩定，而是團隊的效率和產出是否能夠有持續穩定的成長）
什麼特質的員工容易成為管理者
公司內部晉升管理者：天時：企業/產業所處的階段；地利：部門/業務所處的階段；人和：人際關係+自身能力。
跳槽成為管理者：大公司跳槽到小公司，尋找職業突破，弊端是跳出去容易跳回來難；成為業界有影響力的人物，被大公司挖角。大部分人都是第一種情況，在大公司的同學要多一點耐心，透過努力在公司內晉升，因為曲線救國式的跳槽已經沒有市場了。
技術部門Leader是不是一定要技術大牛擔任？
核心重點：Manager vs Tech Leader、方法論、軟技能、賦能成員、綜合。

思考

好的研究想法從哪裡來
研究的本質是對未知領域的探索，是對開放問題的答案的追尋。「好」的定義-》區分好與不好的能力-》全面了解所在研究方向的歷史和現狀-》實踐法/類比法/組合法。這就好比是機器學習的訓練與測試階段，訓練：全面了解所在研究方向的歷史與現狀，判斷不同時期的研究工作的好與不好。測試：實踐法/類比法/組合法出的idea，判斷自己的研究工作好與不好。
科學研究論文如何想到不錯的idea？
模組化學習、交叉、佈局可預期的趨勢。
人在年輕的時候，最核心的能力是什麼？
核心重點：達到以前從未達到的高度：基本的事情做到極致、專注、堅持長久做一件事、延遲滿足、認清自己+了解環境->準確定位、

注意事項

領域點-線-面體系：點：自己focus的領域；線：上游和下游；面：大領域。不要過度focus在自己工作的領域，要有全局化的眼光，特別是自己的上游和下游。
日常學習點-線-面體系：點：自己focus的安全資料分析領域；線：安全/資料分析；面：全局安全內容/產業發展/職涯規劃。每日專研至少一小時小領域；每日精讀至少半小時/至少一篇安全/數據分析/產業發展/職涯規劃精品文章；每日大量瀏覽增量文章/存量文章。保持學習與思考的敏感度。

附錄

國外優質技術站點

https://resources.distilnetworks.com
網站概況：專注於機器流量對抗與緩解。
http://www.covert.io
技術堆疊：Jason Trost，專注於安全研究、大數據、雲端運算、機器學習，即安全資料科學。
http://cyberdatascientist.com
網站概括：專注於安全資料科學，提供網路安全、統計學和AI等學習資料，並提供14個安全資料集，包括：垃圾郵件、惡意網站、惡意軟體、Botnet等。沒有secrepo.com提供的資料全面。
https://towardsdatascience.com
站點概括：專注於數據科學。

國內優秀技術人

michael282694
技術堆疊：資料分析挖掘產品開發、爬蟲、Java、Python。
LittleHann
技術堆疊：我也不知道該怎麼描述，Han師傅會的太多了，C++、Java、Python、PHP、Web安全、系統安全，不過目前好像做演算法多一點。
FeeiCN
技術棧：專注自動化漏洞發現與入侵偵測防禦。
xiaojunjie
技術堆疊：專注於程式碼稽核、CTF。
雲雷
技術堆疊：阿里雲端儲存技術專家，專注於日誌分析與業務，日誌運算驅動業務成長。
iami
技術堆疊：主要研究Web安全、機器學習，喜歡Python和Go。一直偷學師傅的部落格。
cdxy
技術堆疊：早先主要做Web安全，CTF，程式碼審計，現在主要做安全研究與資料分析，初步估算技術領先我1～2年，師傅別學了。
csuldw
技術堆疊：專注於機器學習、資料探勘、人工智慧。
molunerfinn
技術堆疊：專注於前端，北郵大佬，和404notfound同級。
劉建平Pinard
技術堆疊：機器學習、深度學習、強化學習、自然語言處理、數學統計學、大數據挖掘，相關tutorial非常棒。

廢棄

Efficient and Flexible Discovery of PHP Vulnerability譯文
Efficient and Flexible Discovery of PHP Application Vulnerabilities原文
The Code Analysis Platform "Octopus"
A Code Intelligence System：The Octopus Platform

展開