亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

天津九安特機電工程有限公司

SEO診斷

搜索引擎算法中TF-IDF是什么意思

充分的搜索算法什意思了解搜索引擎算法才能真正掌握seo優(yōu)化技術(shù),所以在一開(kāi)始的引擎s(′?`*)eo技術(shù)的學(xué)習當中就要不斷的由淺入深的去建立(li)這方面更ヽ(′▽?zhuān)?ノ加專(zhuān)業(yè)的認知。在seo基礎學(xué)習當中如果不去了解(′?ω?`)和認識搜索引擎,搜索算法什意思確實(shí)是引擎無(wú)法通過(guò)純白帽seo來(lái)完成一個(gè)網(wǎng)站的優(yōu)化,今天大寶seo博客和朋友們分享一下搜索引擎算法中T(′?`*)F-IDF是搜索算法什意思什么意思,以下內容轉載自百度百科。引擎

TF-IDF(term frequency–inverse document frequency)是搜索算法什意思一種用于信息檢索與數據挖掘的常用加權技術(shù)。TF是引擎詞頻(Te(′?ω?`)rm Frequency),IDF是搜索算法什意思逆文本頻率指數(Inver(?_?;)se Document Fre??quency)。TF-IDF??是引擎一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的搜索算法什意思其中一份文件的?重要程度。字詞的引擎重要性隨著(zhù)它??在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的搜索算法什意思頻率成反比下降。TF-IDF加權的引擎各種形式常被搜索引??擎應用,作為文件與用戶(hù)查詢(xún)之間相關(guān)程度的搜索算法什意思度量或評級。除了TF-IDF以外,因特網(wǎng)上??的搜索引擎還會(huì )使用基于鏈接分析的評級方法,以確定文件在搜尋結果中出現的順序。

TFIDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現的頻率TF高,并且在其他文章??中很少出現,則認為此詞或者短語(yǔ)具有很好的類(lèi)別區分能力,適合用來(lái)分類(lèi)。TFIDF實(shí)際上是:TF * IDF,TF詞頻(Term Frequency),IDF逆向文件頻率(Inver??se Document Frequency)。TF表示詞條在文檔d中出現的頻率。IDF的主(′▽?zhuān)?要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類(lèi)別區分能力。如果某一類(lèi)文檔C中包含詞條t的文檔數為m,而其它類(lèi)包含t的文檔總數為k,顯然所有包含t的文檔數n=m+k,當m大的時(shí)候,n也大,按照ID(°ロ°) !F公式得到的IDF的值會(huì )小,就說(shuō)明該詞條t類(lèi)別區分能力不強。但是實(shí)際上,??如果一個(gè)詞條在一個(gè)類(lèi)的(de)文檔中頻繁出現,則說(shuō)明該詞條能夠很好代表這個(gè)類(lèi)的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選來(lái)作為該類(lèi)文本的特征詞以區別??與其它類(lèi)文檔。這就是IDF的不足之處. 在一份給定的文件里,詞頻(ter???m frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現的頻率。這(zhe)個(gè)數字是對詞數(term count)的歸一化,以防止它偏向長(cháng)的文件(′ω`*)。(同一個(gè)詞語(yǔ)在長(cháng)文件里可能會(huì )比短文件有更高的詞數,而不管該詞語(yǔ)重要與否。)

TFIDF算法是建立在這樣一個(gè)假設之上(shang)的:對區別文檔最有意義的詞語(yǔ)應(ying)該是那些在文檔中出現頻率高,而在整個(gè)文檔集合的其他文檔中出現頻率少的詞語(yǔ),所以如果特征空間坐標系取TF詞頻作為測度,就可以體現同類(lèi)文本的特點(diǎn)。另外考慮到單詞區別不同類(lèi)別的能力,TFIDF法認??為一個(gè)單詞出現的文本頻數越小,它區別不同類(lèi)別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和ID(′▽?zhuān)?F的乘積作為特征空間坐標系的(de)取值測度,并用它完成對權值TF的??調整,調整權值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權 ,并且單純地認為文本頻數小的單詞就越重要,文本頻數大的單詞就越無(wú)用,顯然這并不是完全正確的??。IDF的簡(jiǎn)單結構并(bing)不能有效地反映單詞的重要程度和特征詞的分布情況,使其無(wú)法很好地完成對權值調整的功能,所以T(′ω`)FIDF法的精度并不是很高。

此外,在TFIDF算法中并沒(méi)有體現出單詞的位置信息,對于Web文檔而言,權重的計算方法應該體現出HTML的結構特征。特征詞在不同的標記符中對文章內容的反映程度不同,其權重(zhong)的計算方法也應不同。因此應該對于處于網(wǎng)頁(yè)不同位置的特征ヽ(′?`)ノ詞分別賦予不同的系數,然后乘以特征詞的詞頻,以提高(╬?益?)文本表示的效果。

TF-IDF 模型是搜索引擎等實(shí)際應用中被廣泛使用的信息檢索模型(xing),但對于 TF-IDF 模型一直存在各種疑問(wèn)。本文為信息檢索問(wèn)題一種基于條件概??率的盒子小球模型,其核心思(′?`*)想是把“查詢(xún)串q和文檔d的匹??配度問(wèn)題”轉化為“查詢(xún)串q來(lái)自于文檔??d的條件概率問(wèn)題”。它從概率的視角???為信息檢索問(wèn)題定義了比 TF-IDF 模型所表達的匹配度更為清???晰的目標。此模型可將 TF-IDF 模型納入其中(zhong),一方面解釋其合理性,另一方面也發(fā)現了其不完善之處。另外,此模型還可以解ヾ(?■_■)ノ釋 PageRank 的意義,以及 PageRank 權重和 TF-IDF 權重之間為什么是乘積關(guān)系。

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费 偏关县| 利津县| 布拖县| 柳江县| 信宜市| 云浮市| 新乡市| 赣榆县| 嵩明县| 文登市| 图片| 嘉兴市| 灵川县| 景宁| 阳谷县| 体育| 磐石市| 汝阳县| 布拖县| 昌吉市| 镇沅| 滦平县| 淮安市| 泗洪县| 福鼎市| 五莲县| 靖安县| 松阳县| 盘山县| 太谷县| 喀喇沁旗| 通化市| 格尔木市| 昭苏县| 台山市| 孟州市| 涞源县| 遵义县| 黑水县| 晋江市| 江口县| http://444 http://444 http://444 http://444 http://444 http://444