标签：nosql

共 73 篇相关文章

IT 累计浏览 2,817

Amazon SimpleDB

作者从四年前对Amazon SimpleDB的批评出发，回顾了该服务的演进。当初SimpleDB刚推出时，因不支持排序而被形容为“一条腿的路”，功能严重残缺，作者在当时的日志中直接指出了这一缺陷。如今，SimpleDB早已补齐了排序能力，并在此基础上增添了多项新功能，让它的实用性和灵活性大大提升。最近在浏览AWS生态时，作者决定重新审视这个老牌服务，记录下它的变化。 SimpleDB作为AWS早期的NoSQL数据库，曾因功能局限饱受诟病，但现在它不仅支持排序查询，还扩展了更多操作和管理特性，反映出AWS在云数据库领域的持续优化。通过这次复盘，读者可以看到一个云服务从初出茅庐到成熟稳定的过程，也提醒我们技术评估需要与时俱进——过去的短板未必是现在的局限。对于考虑使用AWS服务的开发者来说，这提供了重新认识SimpleDB的机会，思考如何在现有架构中利用其改进。

IT 累计浏览 3,086

Oracle NoSQL Database

这篇讲的是Oracle新发布的NoSQL数据库。作者从Oracle近日提供该数据库企业版下载切入，快速梳理了文档透露出的关键信息。文章明确指出了当前版本的一个核心事实：目前下载只包含企业版，开源的社区版尚未提供，因此暂时无法查看源码。不过，即便基于现有文档，也能初步勾勒出这款数据库的特点。作者的快速总结，为读者提供了一个了解Oracle这项新产品技术轮廓的快捷入口。虽然缺乏源码级的剖析，但文章聚焦于产品发布的现状和获取途径，这对评估该数据库是否符合自身技术选型需求，提供了直接、必要的基础信息。如果对Oracle在NoSQL领域的布局感兴趣，这是一个值得持续关注的起点。

IT 累计浏览 3,364

Tokyo Tyrant 与 Redis 的一些简单比较

这篇博客文章对Tokyo Tyrant和Redis这两款知名的键值存储系统进行了实用对比。作者从实际应用场景出发，剖析了两者在架构设计、性能特点和功能支持上的核心差异。文章指出，Tokyo Tyrant基于磁盘存储引擎Tokyo Cabinet，强调数据的持久化和可靠性，适合需要大容量存储且对写入速度要求不极端的场景；而Redis以内存为基础，支持丰富的数据结构（如字符串、哈希、列表），在读写速度和实时性上优势明显，常用于缓存和消息队列。作者还提及了各自的网络协议和集群能力差异，例如Redis的发布/订阅功能和Tokyo Tyrant的简单键值操作。通过这些对比，文章帮助读者理清选择思路：如果应用需要高速缓存或复杂数据操作，Redis更为合适；若更看重持久化和成本控制，Tokyo Tyrant则是值得考虑的选项。整体上，文章以清晰的框架呈现了技术选型的关键考量点。

IT 累计浏览 3,043

千万别用MongoDB？真的吗？！

这篇讲的是围绕“千万别用MongoDB”这一激进观点的多角度技术辩论。作者首先呈现了一位开发者发布的血泪控诉长文翻译，其中详细列举了使用MongoDB时遭遇的数据丢失、异常行为等问题。然而，文章并未止步于单方面的批评，作者紧接着引用了MongoDB官方公司10gen CTO的正式回应，并追踪了Reddit以及Hacker News上社区的广泛讨论，其中甚至出现了程序员深入阅读MongoDB源码以验证问题的行动。通过梳理这场争论的全过程，文章最终得出结论：那些被控诉的严重问题，在综合官方解释和社区验证后，可能并不如最初所宣称的那样确凿。这提醒我们，在技术选型中面对极端论断时，追溯多方信源、理解技术实现的上下文至关重要。

IT 累计浏览 3,137

记录碰到的HBase问题

这篇笔记记录了作者在实际生产环境中遇到的几个HBase典型问题。其中一个重点案例是关于Region热点：业务在写入时使用了时间戳作为RowKey前缀，导致大量写入集中在少数几个Region上，引起服务器负载不均。作者通过分析日志和监控数据定位到问题，最终调整了RowKey的设计策略，采用了加盐或反转等方法来散列写入流量，使集群负载恢复了均衡。另一个案例则涉及到了频繁的Major Compaction导致的I/O飙升，作者通过调整compaction策略和HDFS参数有效缓解了压力。文章没有停留在现象描述，而是深入到了问题的根因分析和解决过程，包含了具体的操作步骤和参数调整思路。对于正在使用或即将使用HBase的开发者来说，这些来自一线的踩坑经验能帮助提前规避类似陷阱，或者在遇到问题时快速找到排查方向。

IT 累计浏览 2,255

PHP的TokyoTyrant扩展接口API文档(PECL)

这是一份关于PHP通过TokyoTyrant扩展与TT数据库交互的详尽API参考手册。它系统性地梳理了从建立连接到执行复杂操作的全过程。文档的核心内容围绕三大类展开：基础的`TokyoTyrant`类、支持表结构的`TokyoTyrantTable`类，以及用于查询构建的`TokyoTyrantQuery`类。每个类都列出了所有可用方法，并清晰地说明了参数含义、返回值以及异常情况。例如，它不仅解释了`add()`和`put()`这类增删改查的基础方法，还详细说明了`putShl()`这类特殊操作，以及如何通过`setIndex()`为列建立不同类型的索引。一个显著特点是文档的实用性。开篇就列举了`tune()`方法中可调整的性能参数，如`bnum`、`xmsiz`等，并给出了默认值和建议，对性能调优很有帮助。同时，它明确指出了哪些方法在32位平台下受限，或者某些类不支持特定方法（如`TokyoTyrantTable`不支持`add()`），这些“避坑”信息对开发者至关重要。整体来看，这份文档结构清晰、细节完备，更像是一个精心排版的工具书。它跳过了概念阐述，直接提供所有接口的规范与细节，适合开发者在实战中随时查阅具体函数的用法和约束。

IT 累计浏览 4,636

也来玩玩MongoDB

作者从“不希望落伍于NoSQL热潮”的朴素想法出发，发现MongoDB官方Java文档在基础CRUD示例上有所欠缺，于是决定亲自动手，写一篇切实可用的入门指南。这篇文章详细记录了从零开始的完整过程：在Windows环境下，如何下载并配置MongoDB服务器与Java驱动（并指出了默认数据目录的实际问题），以及如何启动服务。核心部分是一个完整的Java代码示例，它不仅展示了连接、增删改查的基本操作，还特别说明了如何通过继承`ReflectionDBObject`或`BasicDBObject`来实现自定义数据对象与MongoDB的映射，代码注释清晰，对关键步骤如字段名大小写问题也做了提醒。最后，文章还附带展示了如何在Douyu框架中更简洁地完成同样的操作，通过`@Model`注解自动生成存取方法，为读者提供了另一种视角。整体而言，这是一篇以解决实际问题为导向的实践记录，直白地分享了作者的踩坑经验和心得。

IT 累计浏览 14,904

hbase运维

随着HBase在各大公司的广泛落地，运维成了绕不开的难题。这篇博文从作者亲身的运维实践出发，坦诚地分享了在管理HBase集群时遇到的典型挑战，以及总结出的应对方法。文章没有空谈理论，而是直面那些让运维同学头疼的具体场景：比如如何处理RegionServer的频繁宕机与恢复、在业务高峰前预判并避免性能瓶颈，以及面对数据分布不均时的再平衡策略。作者深入分析了这些问题背后的常见根因，涉及配置调优、JVM管理、以及与Hadoop生态组件的资源竞争等多个层面。在解决方案部分，文中详细描述了一套结合了监控告警、定期巡检和半自动化脚本的实战流程。特别值得一提的是，作者对ZooKeeper会话超时与HBase故障转移机制的协同处理给出了具体参数建议，这直接来源于他们多次线上故障的复盘经验。文章的最后，作者也坦诚运维体系仍在完善中，并邀请同行交流补充。对于正在或即将承担HBase运维职责的工程师来说，这篇凝聚了一线经验的总结，能为排查问题和建立运维规范提供切实的参考。

IT 累计浏览 7,529

HBase随机写以及随机读性能测试

这篇讲的是作者团队基于生产环境实战，借助自动化测试平台对HBase进行的系统性性能测试。文章聚焦于两种核心操作：纯粹的随机写入和随机读取，并直接分享了测试得出的性能数据。不同于一般的理论介绍，作者从实际项目应用的经验出发，不仅报告了测试结果，还重点分享了经过他们调整和优化后的关键配置参数。这对于正在或计划使用HBase，并关注其高并发场景下性能表现的工程师来说，提供了直接的参考数据和调优方向。文章的核心价值在于将生产环境的复杂需求转化为可复现的测试场景，用数据揭示了在不同参数设置下，HBase随机读写性能的差异。这些来自一线的实测结论，比纯理论更能指导实际的集群配置与优化工作。

IT 累计浏览 2,588

深入浅出cassandra 3 例子背后的模型

这篇讲的是Cassandra数据模型的底层逻辑，作者没有从理论开始，而是用三个精心设计的例子，把看似复杂的设计原则拆解得明明白白。比如通过一个社交网络案例，展示了如何用“分区键+集群键”的组合来同时优化写入吞吐和特定查询的性能，这直接点破了Cassandra“为查询而建模”的核心思想。文章的亮点在于，它通过对比同一个业务在关系型数据库和Cassandra中的不同建模方式，清晰地揭示了两者根本的差异：一个为数据关系的规范化而优化，另一个则为分布式环境下的高可用和水平扩展而生。作者特别指出了在Cassandra中，模型设计如何直接决定了数据的物理分布（分区）与逻辑组织（排序），这是理解其性能特征的关键。这些例子最终都指向了一个结论：Cassandra模型的“简单”是表象，其背后是对分布式场景下读写模式的深刻权衡。作者把这种权衡背后的思考过程完整地呈现了出来，让读者不仅知道“怎么做”，更能理解“为什么这么设计”。

IT 累计浏览 1,809

深入浅出cassandra 2 第一个可以运行的例子

这篇讲的是如何快速上手Cassandra并跑通第一个可运行的示例。作者从搭建开发环境讲起，带着读者一步步完成从下载、配置到启动单节点Cassandra服务的全过程。对于很多想尝试Cassandra但被初期配置劝退的开发者来说，这正是一个急需的入门向导。文章没有停留在简单的命令罗列，而是穿插解释了几个关键概念。比如，它说明了启动后那些日志输出代表什么意思，以及如何验证服务是否真的启动成功。在配置文件的部分，作者特别点出了几个容易忽略的参数，比如内存分配和日志路径的设置，这些都是实际操作中容易踩坑的地方。文章最后引导读者成功执行了一条简单的CQL插入与查询命令，完成了数据读写的闭环。这不仅验证了前面的安装步骤正确，也让读者对Cassandra“无模式”的数据模型有了第一个直观感受。整个过程扎实、具体，把从零开始的第一个障碍给扫清了。

IT 累计浏览 1,825

基础系统软件的价值

这篇从盛大云推出IaaS服务讲起，像Amazon AWS那样。但作者一看就皱了眉：它的结构化数据管理功能实在太弱，只有最基础的Key-Value，操作仅限GET/PUT/DEL。作者认为这很不靠谱。因为对于99.9%的应用而言，结构化数据管理是刚需。而缺少条件更新、锁机制、扫描等关键能力的简易KV服务，会让应用开发变得异常繁琐和受限。比如，你需要自己在应用层艰难地模拟事务和复杂查询。这实际上点出了一个普遍性问题：许多看似基础的“管道”和“砖块”（如KV存储、消息队列、进程管理），其设计是否扎实、功能是否完整，会极大地影响上层系统的开发效率和可靠性。作者通过这个具体案例，揭示了基础系统软件往往被低估的深层价值。

IT 累计浏览 2,867

HBase Java客户端编程

这篇教程从在Windows系统下用Java操作HBase的实际需求出发，基于HBase 0.90.2版本，手把手演示了在Eclipse IDE中进行客户端编程的完整流程。文章首先清晰拆解了环境搭建步骤：除了JDK与Eclipse的安装，重点讲解了如何将HBase的jar包与集群的`hbase-site.xml`配置文件正确导入Java工程。这为后续编码打下了基础。随后，教程提供了一套覆盖HBase核心操作的Java代码示例，包括如何初始化配置、创建/删除数据表，以及插入、删除和多种方式查询记录。每一步都配有直接可用的代码片段，例如通过`HBaseAdmin`管理表结构，使用`HTable`、`Put`、`Get`和`Scan`类进行数据读写。对于需要在本地快速搭建环境并上手HBase Java API的开发者来说，这篇指南省去了繁琐的摸索过程，提供了从环境配置到基本CRUD操作的完整参考路径。

IT 累计浏览 2,392

关于tokyocabinet的memory db 的filesize与使用内存的关系

这篇讲的是作者在实际使用Tokyo Tyrant/Tokyo Cabinet的内存数据库（Memory DB）时，深入探究了一个容易被忽略但至关重要的参数：`filesize`。他并没有停留在表面的配置介绍，而是从一个实际问题出发——在特定使用模式下，观察到了非预期的内存占用增长现象。作者通过具体的测试和观察，详细拆解了`filesize`参数在内存DB中的真实角色。它并非直接控制内存使用，而是决定了内存映射文件的大小，这个文件作为数据在磁盘上的持久化备份。关键在于，当这个文件被创建后，系统可能会通过内存映射机制预留相应的虚拟地址空间，从而在监控工具中显示为较高的内存占用。文章清晰地区分了“物理内存消耗”与“虚拟内存占用”这两个概念，并给出了不同`filesize`设置下的观察数据。文章的结论很有实用价值：对于纯内存使用且不关心数据持久化的场景，可以将`filesize`设为一个很小的值以避免不必要的内存映射开销；而如果需要兼顾持久化，则需理解其对内存监控的影响，并根据数据量合理设置。这为在生产环境中调优Tokyo Cabinet内存数据库提供了非常具体的配置依据。

IT 累计浏览 4,719

分布式事务性能分析

这篇讲的是分布式系统中一个经典争论：到底该选强一致性还是弱一致性？作者从NoSQL兴起和CAP理论引发的讨论切入，指出双方各执一词——前者担心功能不满足需求，后者顾虑性能与伸缩性难以承受。文章的重点并非重复这场争论，而是尝试对强一致性在性能、可伸缩性和可用性上带来的实际影响，进行一次系统性的技术分析。作者观察到，关于弱一致性能否满足需求往往因应用而异，很难有定论；但强一致性的代价却是可以量化评估的。遗憾的是，这类深入分析在过往的讨论中似乎有所缺失。因此，这篇文章可以看作是一次填补空白的尝试：它试图在情绪化和立场化的争论之外，提供一份基于技术视角的理性评估，帮助开发者根据自身业务场景，在一致性与性能之间做出更清晰的权衡。

IT 累计浏览 7,655

Redis作者谈Redis应用场景

这篇来自Redis作者的技术分享，没有停留在Redis的通用介绍，而是直接从实践出发，细数了那些真正“用对了”的场景。作者指出，Redis并非万能钥匙，它的高性能源于内存操作和单线程模型，因此最适合解决那些“读写极快、数据结构匹配”的特定问题。文中列举了几个典型用例：作为高速缓存加速数据库查询；利用Sorted Set实现实时排行榜；借助Pub/Sub构建轻量级消息系统；以及使用HyperLogLog进行基数统计。这些都是Redis“数据结构即服务”理念的完美体现。但更关键的是，作者强调了“避坑”指南。例如，当数据量远超内存、需要复杂查询或强事务保证时，关系型数据库仍是更稳妥的选择。这种对适用边界的清醒认知，恰恰是许多技术团队在选型时最需要的视角。文章帮助读者建立了一个清晰的心智模型：不是Redis能做什么，而是在什么场景下，它才是那个最优解。

IT 累计浏览 2,867

从Megastore看RDBMS和NOSQL系统结合

这篇文章从Google Megastore的实践出发，探讨了如何在数据库系统设计中兼得RDBMS的功能完整性与NOSQL的扩展性。作者开篇就点明了RDBMS和NOSQL各自的核心优势：前者强在事务支持、强一致性、灵活的查询（随机读与顺序扫描）和索引；后者则在扩展性与性能上更胜一筹。文章指出，Google的经验表明，在构建大规模系统时，可扩展性往往是更底层、更关键的设计约束。 Megastore的解决方案颇具启发性。它没有试图在单一层面上融合两者，而是巧妙地利用了已有的基础设施：底层依赖GFS与Bigtable提供的海量可扩展存储能力，而在这个坚实的基础上，Megastore在上层精心实现了包括ACID事务、SQL-like查询在内的丰富功能。这种分层的设计思路，使得系统既获得了云时代必需的弹性扩展能力，又没有牺牲开发者所需的高级数据库特性。归根结底，这篇文章阐述了一种务实的架构哲学：在可扩展的基础设施之上构建丰富的功能层，或许是应对数据复杂性与规模挑战的有效路径。

IT 累计浏览 2,736

关于HBase的一些零碎事

这篇讲的是Facebook如何用HBase搭建实时消息系统，以及这个案例如何推动了HBase技术的持续升温。文章从Facebook的实际应用出发，揭示了HBase作为基于Hadoop的面向列存储数据库，在应对海量、高并发数据写入时的独特优势。核心点在于HBase的列式结构和分布式架构，使其能够高效处理像消息这类需要快速写入、随机查询的非结构化数据，完美匹配了Facebook消息系统对低延迟和高吞吐量的苛刻要求。作者通过这个知名案例，向读者传递了一个明确的信号：当业务场景涉及超大规模数据且需要实时读写时，HBase是一个值得深入评估的坚实选项，而不仅仅是停留在理论层面的数据库技术。

IT 累计浏览 4,667

MySQL和MongoDB设计实例对比

这篇讲的是，如何为一个包含结构化基本信息（如名称、品牌）与半结构化参数信息（如待选时间、外观设计）的手机产品库，选择合适的数据库设计方案。作者以这个实际场景为切入点，直接对比了MySQL与MongoDB的典型处理思路。在MySQL的设计中，通常需要将参数信息拆分到单独的关联表中，通过外键进行连接，这体现了关系型数据库严谨的范式结构。而MongoDB的方案则允许将参数作为子文档直接嵌入主记录，形成一个更自包含的JSON式文档，展现了其灵活的数据模型。文章的核心价值在于，它没有停留在理论优劣的争论，而是通过这个清晰的实例，揭示了二者关键的取舍：关系型数据库在维护数据一致性与复杂查询上更直接，但设计相对固定；文档数据库则在快速迭代、处理嵌套与变化数据时更具灵活性。这帮助读者在具体项目中，能根据数据结构的稳定性和查询模式，做出更贴切的技术选型。

IT 累计浏览 2,953

Membase基础教程

这篇讲的是Membase这款NoSQL数据库的入门知识。作者发现网上相关的原创内容确实不多，而且大多停留在表面介绍。于是他自己动手，深入研究并实际测试了多款NoSQL数据库，其中对Membase有了扎实的理解。文章的核心是分享这份第一手的研究成果。它不仅解释了Membase是什么——一个结合了Memcached高性能缓存和CouchDB持久化特性的分布式键值存储系统，更关键的是，作者会把它放到更广阔的NoSQL图景中去审视。你会了解到它与其他主流方案（比如纯缓存的Memcached或文档型的MongoDB）在设计目标、数据模型和适用场景上的核心区别。比如，它特别适合需要高并发读写、同时又要保证数据可靠性的应用，像用户会话管理、实时数据分析这类场景。作者的测试和思考，为纠结于技术选型的开发者提供了一份清晰的参考。如果你正在评估是否采用Membase，这篇文章能帮你快速抓住它的精髓和定位。