Каков наилучший способ удалить дубликаты из datatable?
-
19-08-2019 - |
Вопрос
Я проверил весь сайт и погуглил в сети, но не смог найти простого решения этой проблемы.
У меня есть таблица данных, которая содержит около 20 столбцов и 10 тысяч строк.Мне нужно удалить повторяющиеся строки в этой таблице данных на основе 4 ключевых столбцов.Нет .У Net есть функция, которая это делает?Функция, наиболее близкая к тому, что я ищу, была datatable.DefaultView .ToTable (true, массив отображаемых столбцов), Но эта функция выполняет различное ВСЕ колонны.
Было бы здорово, если бы кто-нибудь мог помочь мне с этим.
Редактировать:Я прошу прощения за то, что не совсем ясно выразился по этому поводу.Эта таблица данных создается путем чтения CSV-файла, а не из базы данных.Таким образом, использование SQL-запроса - это не вариант.
Решение
Вы можете использовать Linq для наборов данных. Проверьте это . Примерно так:
// Fill the DataSet.
DataSet ds = new DataSet();
ds.Locale = CultureInfo.InvariantCulture;
FillDataSet(ds);
List<DataRow> rows = new List<DataRow>();
DataTable contact = ds.Tables["Contact"];
// Get 100 rows from the Contact table.
IEnumerable<DataRow> query = (from c in contact.AsEnumerable()
select c).Take(100);
DataTable contactsTableWith100Rows = query.CopyToDataTable();
// Add 100 rows to the list.
foreach (DataRow row in contactsTableWith100Rows.Rows)
rows.Add(row);
// Create duplicate rows by adding the same 100 rows to the list.
foreach (DataRow row in contactsTableWith100Rows.Rows)
rows.Add(row);
DataTable table =
System.Data.DataTableExtensions.CopyToDataTable<DataRow>(rows);
// Find the unique contacts in the table.
IEnumerable<DataRow> uniqueContacts =
table.AsEnumerable().Distinct(DataRowComparer.Default);
Console.WriteLine("Unique contacts:");
foreach (DataRow uniqueContact in uniqueContacts)
{
Console.WriteLine(uniqueContact.Field<Int32>("ContactID"));
}
Другие советы
Как удалить повторяющиеся строки? . (Настройте запрос там, чтобы присоединиться к вашим четырем ключевым столбцам)
РЕДАКТИРОВАТЬ: с вашей новой информацией, я полагаю, самым простым способом было бы реализовать IEqualityComparer < T > и используйте Distinct для ваших строк данных. В противном случае, если вы работаете с IEnumerable / IList вместо DataTable / DataRow, это возможно с некоторыми LINQ-to-objects kung-fu.
РЕДАКТИРОВАТЬ: пример IEqualityComparer
public class MyRowComparer : IEqualityComparer<DataRow>
{
public bool Equals(DataRow x, DataRow y)
{
return (x.Field<int>("ID") == y.Field<int>("ID")) &&
string.Compare(x.Field<string>("Name"), y.Field<string>("Name"), true) == 0 &&
... // extend this to include all your 4 keys...
}
public int GetHashCode(DataRow obj)
{
return obj.Field<int>("ID").GetHashCode() ^ obj.Field<string>("Name").GetHashCode() etc.
}
}
Вы можете использовать его следующим образом:
var uniqueRows = myTable.AsEnumerable().Distinct(MyRowComparer);
Если у вас есть доступ к Linq, я думаю, что вы сможете использовать встроенную функциональность группы в коллекции в памяти и выбирать дублирующиеся строки
Поиск в Google для Linq Group по примерам
Следует учитывать, что Table.AcceptChanges () должен быть вызван для завершения удаления. В противном случае удаленная строка все еще присутствует в DataTable с RowState, установленным на Deleted. И Table.Rows.Count не изменяется после удаления.
Я думаю, что это, должно быть, лучший способ удалить дубликаты из Поддающийся обработке данными используя Linq
и moreLinq
Код:
Linq
RemoveDuplicatesRecords(yourDataTable);
private DataTable RemoveDuplicatesRecords(DataTable dt)
{
var UniqueRows = dt.AsEnumerable().Distinct(DataRowComparer.Default);
DataTable dt2 = UniqueRows.CopyToDataTable();
return dt2;
}
Статья в блоге : Удалить повторяющиеся строки записи из DataTable Asp.net c#
МореЛинк
// Distinctby column name ID
var valueDistinctByIdColumn = yourTable.AsEnumerable().DistinctBy(row => new { Id = row["Id"] });
DataTable dtDistinctByIdColumn = valueDistinctByIdColumn.CopyToDataTable();
Примечание: moreLinq
нужно добавить библиотеку.
В морелинк вы можете использовать функцию с именем DistinctBy, в которой вы можете указать свойство, по которому вы хотите найти различные объекты.
Статья в блоге : Использование метода MoreLINQ DistinctBy для удаления дублирующихся записей
Ответ Liggett78 намного лучше - особенно как у меня была ошибка! Исправление следующим образом ...
DELETE TableWithDuplicates
FROM TableWithDuplicates
LEFT OUTER JOIN (
SELECT PK_ID = Min(PK_ID), --Decide your method for deciding which rows to keep
KeyColumn1,
KeyColumn2,
KeyColumn3,
KeyColumn4
FROM TableWithDuplicates
GROUP BY KeyColumn1,
KeyColumn2,
KeyColumn3,
KeyColumn4
) AS RowsToKeep
ON TableWithDuplicates.PK_ID = RowsToKeep.PK_ID
WHERE RowsToKeep.PK_ID IS NULL
Нашел это в bytes.com :
Вы можете использовать провайдер JET 4.0 OLE DB с классами в Пространство имен System.Data.OleDb для доступа к текстовому файлу с разделителями-запятыми (используя DataSet / DataTable).
Или вы можете использовать Microsoft Text Driver для ODBC с классами в Пространство имен System.Data.Odbc для доступа к файлу с помощью драйверов ODBC.
Это позволит вам получить доступ к вашим данным с помощью SQL-запросов, как предлагали другие.
" Эта таблица данных создается путем чтения файла CSV, а не из БД. "
Так что наложите уникальное ограничение на четыре столбца в базе данных, и вставки, которые являются дубликатами в вашем дизайне, не будут использоваться. Если не решится сбой, вместо продолжения, когда это произойдет, но это, безусловно, настраивается в вашем CSV скрипт импорта.
Используйте запрос вместо функций:
DELETE FROM table1 AS tb1 INNER JOIN
(SELECT id, COUNT(id) AS cntr FROM table1 GROUP BY id) AS tb2
ON tb1.id = tb2.id WHERE tb2.cntr > 1
Это очень простой код, для которого не требуется linq или отдельные столбцы для выполнения фильтра. Если все значения столбцов в строке равны нулю, он будет удален.
<Ч> public DataSet duplicateRemoval(DataSet dSet)
{
bool flag;
int ccount = dSet.Tables[0].Columns.Count;
string[] colst = new string[ccount];
int p = 0;
DataSet dsTemp = new DataSet();
DataTable Tables = new DataTable();
dsTemp.Tables.Add(Tables);
for (int i = 0; i < ccount; i++)
{
dsTemp.Tables[0].Columns.Add(dSet.Tables[0].Columns[i].ColumnName, System.Type.GetType("System.String"));
}
foreach (System.Data.DataRow row in dSet.Tables[0].Rows)
{
flag = false;
p = 0;
foreach (System.Data.DataColumn col in dSet.Tables[0].Columns)
{
colst[p++] = row[col].ToString();
if (!string.IsNullOrEmpty(row[col].ToString()))
{ //Display only if any of the data is present in column
flag = true;
}
}
if (flag == true)
{
DataRow myRow = dsTemp.Tables[0].NewRow();
//Response.Write("<tr style=\"background:#d2d2d2;\">");
for (int kk = 0; kk < ccount; kk++)
{
myRow[kk] = colst[kk];
// Response.Write("<td class=\"table-line\" bgcolor=\"#D2D2D2\">" + colst[kk] + "</td>");
}
dsTemp.Tables[0].Rows.Add(myRow);
}
} return dsTemp;
}
<Ч>
Это даже можно использовать для удаления нулевых данных из таблицы Excel.
Попробуйте это
Давайте рассмотрим dtInput - это ваша таблица данных с дублирующимися записями.
У меня есть новый DataTable dtFinal, в котором я хочу отфильтровать дублирующиеся строки.
Так что мой код будет примерно таким, как показано ниже.
DataTable dtFinal = dtInput.DefaultView.ToTable(true,
new string[ColumnCount] {"Col1Name","Col2Name","Col3Name",...,"ColnName"});
Я не был заинтересован в использовании решения Linq, описанного выше, поэтому я написал следующее:
/// <summary>
/// Takes a datatable and a column index, and returns a datatable without duplicates
/// </summary>
/// <param name="dt">The datatable containing duplicate records</param>
/// <param name="ComparisonFieldIndex">The column index containing duplicates</param>
/// <returns>A datatable object without duplicated records</returns>
public DataTable duplicateRemoval(DataTable dt, int ComparisonFieldIndex)
{
try
{
//Build the new datatable that will be returned
DataTable dtReturn = new DataTable();
for (int i = 0; i < dt.Columns.Count; i++)
{
dtReturn.Columns.Add(dt.Columns[i].ColumnName, System.Type.GetType("System.String"));
}
//Loop through each record in the datatable we have been passed
foreach (DataRow dr in dt.Rows)
{
bool Found = false;
//Loop through each record already present in the datatable being returned
foreach (DataRow dr2 in dtReturn.Rows)
{
bool Identical = true;
//Compare the column specified to see if it matches an existing record
if (!(dr2[ComparisonFieldIndex].ToString() == dr[ComparisonFieldIndex].ToString()))
{
Identical = false;
}
//If the record found identically matches one we already have, don't add it again
if (Identical)
{
Found = true;
break;
}
}
//If we didn't find a matching record, we'll add this one
if (!Found)
{
DataRow drAdd = dtReturn.NewRow();
for (int i = 0; i < dtReturn.Columns.Count; i++)
{
drAdd[i] = dr[i];
}
dtReturn.Rows.Add(drAdd);
}
}
return dtReturn;
}
catch (Exception)
{
//Return the original datatable if something failed above
return dt;
}
}
Кроме того, это работает на ВСЕХ столбцах, а не на конкретном индексе столбцов.
/// <summary>
/// Takes a datatable and returns a datatable without duplicates
/// </summary>
/// <param name="dt">The datatable containing duplicate records</param>
/// <returns>A datatable object without duplicated records</returns>
public DataTable duplicateRemoval(DataTable dt)
{
try
{
//Build the new datatable that will be returned
DataTable dtReturn = new DataTable();
for (int i = 0; i < dt.Columns.Count; i++)
{
dtReturn.Columns.Add(dt.Columns[i].ColumnName, System.Type.GetType("System.String"));
}
//Loop through each record in the datatable we have been passed
foreach (DataRow dr in dt.Rows)
{
bool Found = false;
//Loop through each record already present in the datatable being returned
foreach (DataRow dr2 in dtReturn.Rows)
{
bool Identical = true;
//Compare all columns to see if they match the existing record
for (int i = 0; i < dt.Columns.Count; i++)
{
if (!(dr2[i].ToString() == dr[i].ToString()))
{
Identical = false;
}
}
//If the record found identically matches one we already have, don't add it again
if (Identical)
{
Found = true;
break;
}
}
//If we didn't find a matching record, we'll add this one
if (!Found)
{
DataRow drAdd = dtReturn.NewRow();
for (int i = 0; i < dtReturn.Columns.Count; i++)
{
drAdd[i] = dr[i];
}
dtReturn.Rows.Add(drAdd);
}
}
return dtReturn;
}
catch (Exception)
{
//Return the original datatable if something failed above
return dt;
}
}