天道酬勤,学无止境

metaphone

Sphinx 带有元音和通配符搜索(Sphinx with metaphone and wildcard search)

问题 我们是一个解剖平台,使用 sphinx 进行搜索。 我们想让我们的搜索更加模糊,并开始使用元音来纠正拼写错误。 即使搜索词是falanges它也会找到例如phalanges 。 这很好,但我们想要更多。 我们希望用户可以输入falange甚至falang并且我们仍然可以找到phalanges 。 任何想法如何实现这一点? 如果您有兴趣,可以在此处查看我们的 sphinx 配置文件。 谢谢! 回答1 好吧,您可以一次在索引上同时启用metaphone和min_prefix_len 。 它会起作用。 falange* 可能然后就可以了。 (匹配phalanges ) 问题是“剥离”字母可能会改变单词的“声音”(因为改变发音) 例如 falange 变成FLNJ ,但 falang acully 变成FLNK - 所以它们不再是彼此的“子串”。 (即指骨变成FLNJS , FLNK*匹配) ...老实说,我不知道一个好的解决方案。 如果要在变音之前应用词干提取,您也许可以获得更好的结果。 (因此删除了改变单词发音的结尾。 唉,斯芬克斯做不到这一点。 如果同时启用词干提取和变音,则只有一个处理器会触发。 两种可能的解决方案,在 sphinx 之外实现词干提取(或者可能使用 regexp_filter。不确定是否可以纯粹使用正则表达式来实现移植词干提取器) 或修改狮身人面像

2021-09-18 18:50:42    分类:技术分享    sphinx   thinking-sphinx   metaphone

Sphinx with metaphone and wildcard search

we are an anatomy platform and use sphinx for our search. We want to make our search more fuzzier and started to use metaphone to correct spelling mistakes. It finds for example phalanges even though the search word is falanges. That's good but we want more. We want that the user could type in falange or even falang and we still find phalanges. Any ideas how to accomplish this? If you are interested you can checkout our sphinx config file here. Thanks!

2021-06-26 01:16:35    分类:问答    sphinx   thinking-sphinx   metaphone

为非英语字符启用soundex / metaphone(Enabling soundex/metaphone for non-English characters)

问题 过去几天,我一直在研究soundex,metaphone和其他字符串搜索技术,据我了解,这两种算法都能很好地处理转译成英语的非英语单词。 但是,我所要求的是,这样的搜索必须能以原始的,未音译的语言工作,并能容纳诸如德语,挪威语甚至西里尔字母的字母。 是否有能够完全处理这些字母的搜索算法? 还是我最好使用Lucene这样的第三方全文搜索库? 因此,问题就变成了“ Lucene是否可以处理非英语字母?” 回答1 我不是这方面的专家,但是您的要求对我来说似乎很难。 Soundex专为英语声音和字符而设计。 我认为非英语语言效果不佳。 例如,请参阅对此相关问题的回答。 Double-Metaphone试图处理比Soundex或Metaphone复杂得多的变体,并且旨在处理多种语言中的不规则性。 可能足以满足您的需求。 链接页面上有一个库实现的列表。 Lucene对其他语言的支持基于分析器的概念。 Lucene附带了一组针对不同语言的分析器(尽管我找不到默认列表),但是质量可能会变化很大。 回答2 从Soundex文章开始,在Wikipedia上有一些不错的参考。 我不知道是否存在设计用于处理如此多种语言的库。

2021-04-24 11:03:57    分类:技术分享    algorithm   search   lucene   soundex   metaphone

Enabling soundex/metaphone for non-English characters

I've been studying soundex, metaphone and other string search techniques the past few days, and in my understanding both algorithms work well in handling non-English words transliterated to English. However the requirement that I have would be for such search to work in the original, untransliterated languages, accomodating alphabets such as German, Norwegian, and even Cyrilic alphabets. Are there any search algorithms capable of handling these alphabets completely? Or am I better off using third party full-text-search libraries such as Lucene? Consequently, the question then becomes 'does

2021-04-15 13:24:59    分类:问答    algorithm   search   lucene   soundex   metaphone