//Сравниваем строки и возвращаем область, в которой первый символ двух строк совпадает
static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
{
символ *p, *q;
символ *end1 = (символ *) txt1 + len1;
символ *end2 = (символ *) txt2 + len2;
интервал л;
*макс = 0;
//Итерируем строку
for (p = (char *) txt1; p < end1; p++) {
for (q = (char *) txt2; q < end2; q++) {
for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);
если (l > *max) {
//Сохраняем ту же информацию о области
*макс = л;
*pos1 = p - txt1;
*pos2 = q - txt2;
}
}
}
}
//Рекурсивная функция, сравниваем количество одинаковых символов в txt1 и txt2
static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
{
целая сумма;
int pos1, pos2, max;
php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
if ((sum = max)) {//В чем смысл такого написания????!!!!!!
//Рекурсивно прошлый раз переднюю часть разных частей
если (поз1 && поз2) {
sum += php_similar_char(txt1, pos1, txt2, pos2);
}
//Рекурсия последней части разных частей
if ((pos1 + max < len1) && (pos2 + max < len2)) {
sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,
txt2+pos2+max, len2 — pos2 — max);
}
}
// Возвращаем количество одинаковых символов после этого сравнения
сумма возврата;
}
//Сама функция PHP, набор макросов, выполняет некоторое преобразование строк и преобразование возвращаемого значения, а основная функция выполняется двумя вышеупомянутыми функциями.
PHP_FUNCTION(похожий_текст)
{
zval **t1, **t2, **процент;
int ac = ZEND_NUM_ARGS();
инт сим;
if (ac < 2 || ac > 3 || zend_get_parameters_ex(ac, &t1, &t2, &percent) == ОШИБКА) {
WRONG_PARAM_COUNT;
}
Convert_to_string_ex(t1);
Convert_to_string_ex (t2);
если (ac > 2) {
Convert_to_double_ex (процент);
}
if (Z_STRLEN_PP(t1) + Z_STRLEN_PP(t2) == 0) {
если (ac > 2) {
Z_DVAL_PP(процент) = 0;
}
RETURN_LONG(0);
}
sim = php_similar_char(Z_STRVAL_PP(t1), Z_STRLEN_PP(t1), Z_STRVAL_PP(t2), Z_STRLEN_PP(t2));
if (ac > 2) {
Z_DVAL_PP(процент) = sim * 200,0 / (Z_STRLEN_PP(t1) + Z_STRLEN_PP(t2));
}
RETURN_LONG (сим);
}
Видно, что аналогичный_текст сравнивается на основе ASCII, а проблема фраз не учитывается.
Я проверил это, и результаты следующие:
int main(int argc, char *argv[])
{
char *str1="Вэйкан усинь";
char *str2="усинь вэйкан";
интервал pos1, pos2, макс;
php_similar_str(str1,strlen(str1),str2,strlen(str2),&pos1,&pos2,&max);
printf("php_similar_str:%d,%d=%dn",pos1,pos2,max);
max=php_similar_char(str1,strlen(str1),str2,strlen(str2));
printf("php_similar_char:%dn",max);
система("ПАУЗА");
вернуть 0;
}
php_similar_str:0,6=6
php_similar_char:6
char *str1="Принцип работы связи по протоколу TCP a";
char *str2="Принцип работы связи по протоколу TCPA";
php_similar_str:3,4=14
php_similar_char:19