通过上述方法,对数据进行初步处理。 对上述qery做预处理后可以得到:“hoyng两居二手房” . 分词 分词Tokeniztion指根据一些规则,将一段文本切换为若干个字或词语的流程,如“永远有光芒”,可拆分为“永远/有/光芒”,这里的每一个字或词可以看作一个输入单元Token,OenI的的收费标准便是按Token为单位计费的。 常见的分词工具有jieHnL、NLR、THL、IK nlyzer。
大多分词工具也支持自定义词典。 对于垂直搜 白俄罗斯电话号码数据 索引擎而言,结合分词工具和自定义词典切分自然语言十分方便。 通过使用分词工具,我们可以将qery可切分为“hoyng”、“两居”、“二手房”个Token。 . 纠错 纠错Qery orretion是预处理中的重要流程之一,通过对用户输入的qery进行修正或重写,提高搜索结果的精准度。 纠错一般包括以下几种方法:拼写检查、词典纠错、基于上下文纠错、机器学习、深度学习等方法。
房产搜索引擎主要使用拼写检查、基于词典纠错等方法。 关于机器学习或深度学习,主要采用HMM、SeqSeq、Trnsrmer、ointer-Genertor Networks等模型进行改写生成。 另外,ERT的应用也是不错的选择,在工业界被广泛应用。 根据纠错规则,此处将qery处理为“朝阳/两居/二手房”。 . 扩展 扩展Exnsion一般指对用户的qery进行扩展,以便召回更多符合用户需求的数据。